IP-адреса и боты поисковых систем
Из года в год количество вредных ботов в Интернете не уменьшается.
Одни спамят, другие сканируют сайты на уязвимости, чтобы затем их взломать. Есть и те, что скачивают сайты целиком, чтобы потом наживиться на вашей раскрученности.
Самый действенный способ – забанить таких ботов.
Но при этом есть риск перекрыть доступ к сайту нужным ботам поисковых систем.
В данной таблице я систематизировал информацию о поисковых системах:
1. Названия и ip-адреса поисковых систем
2. Имена поисковых ботов, которыми они представляются сайтам
| Поисковая система | Наиболее активный IP | Диапазон сети | CIDR |
| Россия | |||
| Aport | 194.67.18.239 | 194.67.18.0 – 194.67.18.255 | 194.67.0.0/18 |
| Liveinternett | 88.212.202.26 | 88.212.202.0 – 88.212.202.63 | 88.212.202.0/26 |
| Mail.ru Gogo.ru | 94.100.176.20 94.100.181.91 | 94.100.176.0 – 94.100.183.255 94.100.181.128 – 94.100.181.255 195.239.211.0 – 195.239.211.255 | 94.100.176.0/20 94.100.181.128/25 195.239.211.0/24 |
| Rambler (StackRambler) | 81.19.66.8 81.19.66.77 81.19.66.115 | 81.19.64.0 – 81.19.66.255 | 81.19.64.0/19 |
| Yandex | 87.250.255.243 | 77.88.22.0 – 77.88.23.255 87.250.224.0 – 87.250.255.255 93.158.128.0 – 93.158.191.255 95.108.128.0 – 95.108.255.255 213.180.214.128 – 213.180.214.255 | 77.88.0.0/18 87.250.224.0/19 93.158.128.0/18 95.108.128.0/17 213.180.192.0/19 |
| Webalta | 77.91.224.12 77.91.224.23 | 77.91.224.0 – 77.91.224.255 | 77.91.224.0/21 |
| Зарубежные | |||
| Bing (MSN) | 207.46.98.149 | 65.52.0.0 – 65.55.255.255 207.46.0.0 – 207.46.255.255 | 65.52.0.0/14 207.46.0.0/16 |
| Cuil (Twiceler) | 67.218.116.130 216.129.119.40 | 67.218.96.0 – 67.218.127.255 216.129.96.0 – 216.129.127.255 | 67.218.96.0/19 216.129.96.0/19 |
| Entireweb (Speedy) | 88.131.106.22 | 88.131.106.0 – 88.131.106.63 | 88.131.0.0/16 |
| Gigablast | — | 66.231.188.0 – 66.231.188.255 | 66.231.188.0/24 |
| Google (Googlebot) | 66.249.65.141 | 64.68.80.0 – 64.68.87.255 64.233.160.0 – 64.233.175.255 66.102.0.0 – 66.102.15.255 66.249.64.0 – 66.249.95.255 72.14.192.0 – 72.14.255.255 209.85.128.0 – 209.85.255.255 209.185.0.0 – 209.185.255.255 216.239.32.0 – 216.239.63.255 | 64.68.80.0/21 64.233.160.0/19 66.102.0.0/20 66.249.64.0/19 72.14.192.0/18 209.85.128.0/17 209.185.0.0/16 216.239.32.0/19 |
| Yahoo! (Yahoo! AltaVista) | 74.6.68.152 | 67.195.0.0 – 67.195.255.255 69.147.64.0 – 69.147.127.255 72.30.64.0 – 72.30.255.255 74.6.0.0 – 74.6.255.255 | 67.195.0.0/16 69.147.64.0/18 72.30.0.0/16 74.6.0.0/16 |
Есть у меня такой вопрос, разве Ip адреса поисковиков не могу быть изменены?
ответ jeder
За последние лет 5 такого не было.
ответ jeder
Пожалуйста
Вычисляем потенциальных «злых» ботов и блокируем их по IP
Доброго дня! В статье расскажу как можно пользователям обычного хостинга отловить IP адреса генерирующие излишнюю нагрузку на сайт и затем блокировать их при помощи средств хостинга, будет «чуть-чуть» php кода, несколько скриншотов.
Вводные данные:
То как выглядела примерная нагрузка по базам данных хостинга
В топе находится сайт о котором идёт речь, чуть ниже другие сайты которые имеют ту же cms и примерно такую же посещаемость, но создают меньше нагрузки.
Всё, теперь 94.242.55.248 — не имеет доступа к сайту и не генерирует нагрузку на БД
Но каждый раз так руками копировать не очень праведное занятие, да и к тому же код задумывался как автономный
Добавим файл, который будет исполняться по CRON каждые 30 минут:
В итоге после начала действия такого кода можно увидеть результат в хостинг панели:
PS: Материал авторский, хоть его часть я и публиковал на своём сайте но на Habre получилась более расширенная версия.
Как удалить фейковый трафик с вашего сайта
Очень часто мы отмечаем всплеск трафика на сайте, анализируя данные, собранные Google Analytics. Это воспринимается как интерес к ресурсу. И, разумеется, такой рост посещаемости не может не радовать.
Но это не всегда повод для радости. Позже мы обнаруживаем, что большая часть этого реферального трафика была отправлена от спамеров. Именно спам стал большой проблемой в последнее время.
Реферальный спам происходит, когда ваш сайт получает поддельные направления трафика от спам-ботов. Эта подделка трафика и записывается Google Analytics. Если вы замечаете в Аналитике трафик, полученный из спам источников, вам необходимо выполнить определенные действия, чтобы устранить эти данные из статистики.
Что такое бот?
Ботами принято называть программы, задача которых – выполнение повторяющихся задач с максимальной скоростью и степенью точности.
Пример хорошего бота — «Googlebot», используемый Google для сканирования и индексации веб-страниц в интернете.
Большинство ботов (будь то безопасные или опасные), не выполняют сценарии JavaScript, но некоторые это делают.
Поисковые боты, которые выполняют сценарии Javascript (как код аналитики Google) проявляются в отчетах Google Analytics и искажают показатели трафика (прямой трафик, реферальный трафик) и прочих метрических данных на основе сессий (показатель отказов, коэффициент конверсии и др).
Поисковые боты, которые не выполняют JavaScript (например, Googlebot), не искажают вышеуказанные данные. Но их посещения все равно записываются в логи сервера. Они также потребляют ресурсы сервера, ухудшают пропускную способность и способны негативно повлиять на скорость загрузки сайта.
Безопасные боты, в отличие от опасных, подчиняются директиве robots.txt. Они способны создавать поддельные учетные записи пользователей, рассылать спам, собирать адреса электронной почты и могут обходить CAPTCHA.
Опасные боты используют различные методы, усложняющие их обнаружение. Они могут влиять на веб-браузер (например, Chrome, Internet Explorer и т.д.), а также на трафик, поступающий от нормального сайта.
Невозможно сказать наверняка, какие опасные боты могут исказить данные аналитики Гугл, а какие — нет. Поэтому стоит рассматривать все опасные боты как угрозу целостности данных.
Спам-боты
Как понятно из названия, главная задача этих ботов – спам. Они посещают огромное количество веб-ресурсов ежедневно, отправляя HTTP запросы на сайты с поддельными заголовками реферера. Это позволяет им избежать обнаружения в качестве ботов.
Подделанный заголовок реферера содержит адрес веб-сайта, который спамер хочет продвигать, либо получать обратные ссылки.
Когда ваш сайт получает запрос HTTP от спам-бота с поддельным заголовком реферера, он сразу же записывается в журнале сервера. Если ваш журнал сервера имеет открытый доступ, то он может быть просканирован и проиндексирован Google. Система обрабатывает значение реферера в журнале сервера как обратную ссылку, которая в итоге влияет на ранжирование веб-сайта, продвигаемого спамером.
В последнее время алгоритмы индексации Google построены таким образом, чтобы не учитывать данные из логов. Это нивелирует старания создателей подобных ботов.
Спам-боты, имеющие возможность выполнять сценарии JavaScript, способны обходить методы фильтрации, используемые Google Analytics. Благодаря этой способности этот трафик отражается в аналитических отчетах Google.
Ботнет
Когда спам-бот использует ботнет (сеть зараженных компьютеров, расположенных локально или по всему миру), он может получить доступ к веб-сайту с помощью сотен различных IP-адресов. В этом случае черный список IP адресов или rate limiting (rate of traffic sent or received) становятся в значительной степени бесполезными.
Способность спам-бота искажать трафик на ваш сайт прямо пропорциональна размеру ботнета, который использует спам-бот.
При большом размере ботнета с отличающимися друг от друга IP-адресами, спам-бот может получать доступ к вашему веб-сайту без блокирования брандмауэром или другим традиционным механизмом безопасности.
Не все спам-боты отправляют заголовки реферера.
В этом случае трафик от таких ботов не появится как источник реферального трафика в отчетах Google Analytics. Он выглядит как прямой трафик, что делает его еще более трудным для обнаружения. Иными словами, всякий раз, когда реферер не передается, этот трафик обрабатывается в Google Analytics как прямой.
Spambot может создать десятки поддельных заголовков рефереров.
Теперь вы знаете, что не все спам-боты являются опасными. Но некоторые из них действительно опасны.
Очень опасные спам-боты
Цель действительно опасных спам-ботов — не только исказить трафик вашего веб-ресурса, очистить содержимое или получить адреса e-mail. Их цель — заразить чужой компьютер вредоносным ПО, сделать вашу машину частью бот-сети.
Как только ваш компьютер интегрируется в сеть ботнета, он начинает использоваться для пересылки спама, вирусов и других вредоносных программ на другие компьютеры в сети Интернет.
Есть сотни и тысячи компьютеров по всему миру, которые используются реальными людьми, одновременно являясь частью ботнета.
Существует высокая вероятность, что ваш компьютер является частью ботнета, но вы не знаете об этом.
Если вы решили заблокировать ботнет, вы, скорее всего, блокируете трафик, поступающий от реальных пользователей.
Существует вероятность, что как только вы заходите на подозрительный сайт из вашего отчета реферального трафика, ваша машина заражается вредоносным ПО.
Поэтому не посещайте подозрительные сайты из отчетов аналитики, не установов надлежащей защиты (антивирусных программ, установленных на вашем компьютере). Предпочтительно использование отдельной машины специально для посещения таких сайтов. Как вариант, можно обратиться к системному администратору, чтобы справиться с этой проблемой.
Умные спам-боты
Некоторые спам-боты (как darodar.com) могут посылать искусственный трафик даже без посещения вашего сайта. Они делают это путем воспроизведения HTTP запросов, которые исходит от кода отслеживания Google Analytics, используя при этом ваш идентификатор веб-ресурса. Они не только могут отправить вам поддельный трафик, но также и поддельных рефереров. Например, bbc.co.uk. Так как BBC является законным сайтом, то когда вы видите этот реферер в своем отчете, вы даже не думаете, что трафик, поступающий с уважаемого сайта, может быть фальшивкой. На самом же деле никто с BBC не посещал ваш сайт.
Этим умным и опасным ботам не нужно посещать ваш веб-сайт или выполнять сценарии JavaScript. Поскольку они фактически не посещают ваш сайт, эти посещения не записываются в журнал сервера.
И, раз их посещения не записываются в журнал сервера, вы не можете заблокировать их с помощью любых средств (блокирование IP, пользователя, реферального трафика и т.д.).
Умные спам-боты сканируют ваш сайт в поисках идентификаторов веб-собственности. Люди, которые не используют Google Tag Manager, оставляют код отслеживания Google Analytics на своих веб-страницах.
Код отслеживания Google Analytics содержит ваш идентификатор веб-ресурса. Идентификатор крадется умным спам-ботом и может передаваться в использование другим ботам. Никто не станет гарантировать, что бот, укравший ваш идентификатор веб-ресурса и бот, посылающий вам искусственный трафик, — одно и то же «лицо».
Вы можете решить эту проблему, воспользовавшись Google Tag Manager (GTM).
Используйте GTM для отслеживания Google Analytics на вашем сайте. Если ID вашего веб-ресурса уже был заимствован, то решать эту проблему, скорее всего, уже слишком поздно. Все, что вы можете сделать сейчас, — использовать другой ID или ждать решения проблемы со стороны Google.
Не любой сайт попадает под атаку спам-ботов.
Изначально задача спам-ботов — обнаружение и использование уязвимых сторон веб-ресурса. Они атакуют слабо защищенные сайты. Соответственно, если вы разместили страничку на «бюджетном» хостинге или с помощью пользовательского CMS, у него велики шансы подвергнуться нападению.
Иногда сайту, который часто попадает под атаку опасных ботов, достаточно сменить свой веб-хостинг. Этот простой способ действительно может помочь.
Следуйте инструкциям ниже, чтобы обнаружить источники спама
1) Перейдите к отчету реферального трафика в вашем аккаунте Google Analytics и отсортируйте отчет по проценту отказов в порядке убывания:
2) Посмотрите на рефереров с 100% или 0% показателем отказов, а также на тех, у кого 10 или более сессий. Скорее всего, это спамеры.
3) Если один из ваших подозрительных рефереров принадлежат к списку нижеперечисленных сайтов, то это реферальный спам. Вам можно не проверять это самостоятельно:
Как найти и обезвредить фейкового гуглбота
В прошлом месяце агентство Incapusla Security представило отчет о состоянии гуглботов и их вредоносных близнецов. И надо сказать, для тех, чей бизнес зависит от статистики сайта, новости не очень хорошие.
Из 24 посещений сайта гуглботами одно обязательно совершает фейк. При этом более 34% фейковых гуглботов используются для DDoS-атак, взломов, спама и других вредоносных действий.
Методология
Эксперты Incapusla проанализировали:
«. более 400 млн посещений роботами поисковых систем 10 тысяч сайтов, в результате которых было проиндексировано 2,19 млрд страниц в течение 30 дней.
Информация о гуглботах-самозванцах (фейковых гуглботах) получена вследствие проверки более 50 млн посещений гуглботов-самозванцев, а также из отчета DDoS Threat Landscape, опубликованного ранее в этом году».
Выводы Incapusla
Когда Incapusla обратили внимание на стандартного гуглбота, то заметили некоторые интересные моменты.
Для начала следует отметить, что гуглботы сканируют больше страниц, чем роботы всех других поисковых систем вместе взятые, — 60,5%.
То, что Incapusla обнаружили при анализе этих посещений, также было немного неожиданно:
Известно, что Google — крупнейший генератор посещений ботов и что эти посещения инициируются чем-то иным, нежели активностью сайта или SEO, и что он прислушивается к мнению пользователей.
В целом, довольно неплохо. Но беспокойство вызывает не Google, а его «злые» близнецы, с которыми следует быть осторожнее (их очень много — и некоторые их них отлично сделаны).
Юзер-агенты
Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:30.0) Gecko/20100101 Firefox/30.0
Эта информация говорит, что кто-то использует Mozilla/Firefox 30 на MacIntoch с операционной системой Mavericks. Она также может рассказать о пауках, программах и ботах, то есть о тех, кто «бегает» по нашим сайтам.
Имитация Google — жизнь бота
В ходе исследования Incapusla обнаружили, что «более 4% ботов, представляющихся гуглботом, на самом деле им не являются». И здесь победителем становится Бразилия с долей фейковых гуглботов почти 14%.
Плохие боты
Зачем кому-то создавать фейковых гуглботов?
Это что-то вроде того, как иметь поддельные документы в 18 лет. Иногда вы просто хотите потусоваться, но чаще они нужны вам, потому что вы делаете что-то такое, о чем лучше не знать вашей маме.
Не все боты плохие
Примите во внимание, что не все боты плохие и созданы со злым умыслом. Иногда фейковых гуглботов используют только для того, что посмотреть на ваш сайт глазами Google.
Поэтому прежде чем блокировать бота, обратите внимание на его поведение. Может, он всего лишь просматривает сайт? Заходит ли он снова и снова, имеют ли его перемещения случайный характер?
И только после того как вы определите, что это плохой бот, можно закрыть ему доступ. Будьте осторожны, так как вы можете заблокировать доступ и для роботов Google.
Как узнать, что посещения фейковые?
Одним из ключевых показателей, указывающих на то, что есть проблемы с фейковыми гуглботами, является страна происхождения бота.
На американские сайты чаще всего заходят боты из 6 стран, показанных на картинке справа. А вот боты, чья родина указана на изображении слева, должны заставить владельца ресурса насторожиться. Однако если вы работаете со странами из списка слева, то нет ничего странного в том, что ваш сайт будут посещать их гуглботы.
Если вы увидели что-то подозрительное, то не забудьте просмотреть логи сервера и юзер-агенты и проверить, совершаются ли на вас атаки. Если это так, и у вас нет доступа к серверам, свяжитесь с компанией, которая может заблокировать их за вас.
Определить плохого бота не слишком трудно
Хорошей новостью является то, что идентифицировать плохого бота не так уж сложно. И как только это будет сделано, вы можете заблокировать его и больше не пускать на свой сайт. Но это в том случае, если у вас есть такие возможности, права и доступы. У большинства владельцев сайтов всего этого нет, и им приходится полагаться на свою хостинговую компанию, поэтому очень важно выбрать надежного и осведомленного подрядчика.
Если у вас есть доступы, вы можете предпринять необходимые меры, чтобы убедиться, что боты действительно осуществляют какую-то деструктивную деятельность, а затем заблокировать их.
Как определить плохого бота?
Иногда выявить плохих ботов может быть достаточно проблематично: некоторые из них очень сложно устроены, особенно, те, которые имитируют Google. Вот некоторые шаги, которые помогут определить фейковых ботов.
Incapusla исходя из собственного опыта сформулировала 4 шага для выявления фейковых ботов:
Шаг 1. Посмотрите на данные в заголовке
Даже если боты использовали юзер-агент Google, остальные данные заголовка будут совсем «не как у Google». Этого достаточно, чтобы забить тревогу, но не торопитесь блокировать его, потому что зарегистрированы случаи, когда Google отклоняется от обычной структуры заголовка.
Шаг 2. Проверка IP и ASN
Далее проведите проверку IP и ASN. Здесь стоит обратить внимание на несколько моментов, в том числе на личности владельцев IP-адресов и ASN, которые производят подозрительный трафик.
В случае с фейковыми гуглботами ни IP, ни ASN не будут связаны с Google. Таким образом, с помощью параллельной проверки этой информации и сомнительных заголовков можно с высокой степенью уверенности сказать, что мы имеем дело с потенциально опасными двойниками.
Шаг 3. Контроль действий
Тем не менее «потенциально опасный» это не всегда «злой». Например, некоторые SEO-инструменты пытаются выдать себя за гуглботов, чтобы получить «гуглоподобное» видение контента сайта и ссылочного профиля.
Именно поэтому следующий пункт поиска — поведение посетителей. Оно поможет нам понять их намерения, ключ к которым часто лежит в самом запросе, так как они представлены в WAF (Web Application Firewall). В этом случае самого показателя посещений достаточно, чтобы завершить картину, сразу определив DDoS-атаки и повысив автоматизированную защиту от них.
Шаг 4. Репутация IP и новая низкоуровневая подпись
Хотя Incapusla регулярно сталкивается с гуглботами, вариант подписи, появившийся во время последней атаки, отраженной системой, не был частью существующей базы данных. После смягчения атаки собранные данные использовались, чтобы создать новую запись низкого уровня, которая затем будет добавлена к десятимиллионному пулу записей и разведена через сеть, чтобы защитить всех клиентов Incapusla.
В результате при следующем посещении этими ботами сайта они будут немедленно заблокированы. Более этого, репутация атакующих IP также будет записана и добавлена в другую базу данных, где хранятся потенциально опасные адреса.
Проще говоря, вы должны знать, что юзер-агенты могут быть фейками, IP-адреса могут быть подделаны, а заголовки реконструированы и т.д. И для обеспечения безопасности, нужно раскрыть «истинное лицо» и намерения посетителей.
Итоги
Следите за своим органическим трафиком, особенно за страной его происхождения. А когда кто-то или что-то путешествует по вашему сайту, узнайте, каковы его намерения, и не держите в страхе «хороших ребят».
Недавно для обеспечения удобства пользователей Google Analytics запустил фильтр ботов и пауков. Подробнее об этом можно прочитать здесь.

















