Блог Вована

Не останавливайся на достигнутом

Снижаем нагрузку на хостинг с сателлитами

Задрали поисковые боты, которые грузят ваши многостраничные сателлиты, заточенные под сапу? Сегодня поделюсь с вами секретом, как отвадить ненужных ботов типа яху, флексум и подобных и снизить нагрузку на хостинг. Сразу скажу, что метод подходит только для сайтов, созданных для продажи ссылок, потому что перекрывает трафик с неосновных поисковиков, которые вы заблокируете.

Итак, будем использовать файлы robots.txt и .htaccess

1. Используйте robots.txt

Если у вас ещё нет этого файла, возьмите его и залейте в корневую папку сайта (не забудьте распаковать).

Если файл уже есть, добавьте в него следующие инструкции:

User-agent: *
Crawl-delay: 5 # задает таймаут в 5 секунды 

User-agent: Twiceler
Disallow: /

User-agent: Aport
Disallow: /

User-agent: Slurp
Disallow: /

User-agent: msnbot-media
Disallow: /

User-agent: msnbot-news
Disallow: /

User-agent: msnbot-products
Disallow: /

User-agent: msnbot
Disallow: /

User-agent: ia_archiver
Disallow: /

Вежливые боты будут следовать инструкциям, в результате чего можно ожидать, что яху, мсн, алекса, cuil и апорт пойдут лесом. Яндекс немного сбавит обороты когда увидит Crawl-delay.

В этом способе мы вежливо сообщаем боту: «А не пойти бы вам нах, многоуважаемый бот».

2. Используйте .htaccess (метод подсмотрен на серче)

Если у вас ещё нет этого файла, возьмите его и залейте в корневую папку сайта (не забудьте распаковать).

Если файл уже есть, добавьте инструкции:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} liveinternet [OR]
RewriteCond %{HTTP_USER_AGENT} WebAlta [OR]
RewriteCond %{HTTP_USER_AGENT} Yanga [OR]
RewriteCond %{HTTP_USER_AGENT} Twiceler [OR]
RewriteCond %{HTTP_USER_AGENT} Flexum [OR]
RewriteCond %{HTTP_USER_AGENT} Aport [OR]
RewriteCond %{HTTP_USER_AGENT} Slurp [OR]
RewriteCond %{HTTP_USER_AGENT} msnbot [OR]
RewriteCond %{HTTP_USER_AGENT} ia_archiver [OR]
RewriteCond %{HTTP_USER_AGENT} libwww-perl
RewriteRule ^(.*)$ - [F,L]

Этот способ более кардинальный и работает даже с невежливыми ботами. В этом способе бот слышит «Пшол нах».

Кстати, это клоакинг.

3. Блокировка по IP

Можно ещё блокировать ботов по их IP -адресу. Если кому-то будет интересно, расскажу в последующих постах.

P.S.

Самый быстрый и простой cпособ отправить сообщение в twitter

Обмен постовыми

Команда талантливых дизайнеров и программистов сделает дизайн сайтов

Престижная работа в Киеве

Слыхали про баночный массаж?

Комментарии

Интересно почитать!!!!!!

жесть конечно, но метод, я думаю, правильный, если использовать с умом. спасибо за инфу.

Не хочется Выглядеть тупым, но могу сказать тока одно - Респект и Уважуха!!!
Пошел применять с ходу! тока над подумать к площадкам на wordpresse - htaccess подойдет?
Милости просим в гости, с радостью обменяюсь ссылками. Алекс.

к wordpress подойдёт. Главное не похерить исходный htaccess, поэтому перед экспериментами желательно сделать резервную копию этого файлика.

Действительно интересная статейка! А то боты парят сервачок, из-за чего сайты дольше грузятся. Респект автору :)

за 2 метод автоматом бан от яндекса... за клоакинг...так чт не рекомендую

Одно замечание: клоакингом это будет только для ботов, перечисленных в списке.

Спасибо за пост, еще один вариант, за исключением кэширования снизить нагрузку. Вован, махнемся постовыми? Если интересно, жду ответ на мыло или твит.

Комментировать

Вы должны знать скрытую жизнь своего кода: что происходит с ним после того, как вы его набрали?

Источник:
Ремесло программиста Питер Гудлиф