WeBinstruments

Инструментарий для веб-мастеров

 

на сайте на всех сайтах для веб разработчиков везде
 
 Скрипты
  PHP скрипты   
  Flash скрипты   
  Javascript скрипты   

 Софт
  Инструменты SEO   
  Разработка сайтов   
  Серверное ПО   

 Документация
  MySQL   
  PHP   
  HTML   
  Протоколы и сервисы Internet   

 Статьи
  PHP   
  MySQL   
  Сервер   
  еще...   

 Услуги и сервисы
  Домены   
  Хостинги   
  Блоки для сайта   

 Новости


 Контакты
  icq: 158325531
  email:
  все контакты: здесь




Atom все поступления
Раздел Файлы
Раздел Услуги и сервисы
Раздел Новости
Раздел Статьи
комментарии



 Партнеры


Главная / Статьи / SEO / Как представляются индексирующие роботы поисковых систем


Как представляются индексирующие роботы поисковых систем

10.05.2007

N.B. Указанные в этой статье строки передаются роботами через поле User-Agent заголовка запроса и сохраняются сервером в логах. Как следствие, можно отлавливать роботов как "на лету", так и анализировать их поведение постфактум.

Почти всегда роботы не имеют возможность вычислять и передавать серверу поле Referer.

Яндекс использует несколько роботов для разных случаев:

  1. Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот.
    Посещает сайт примерно раз в месяц;
  2. Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок.
    Заходит только на файлы картинок. Для своей работы использует результаты работы робота (1);
  3. Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов.
    Нерегулярно посещает страницы сайта, которые подозревает на предмет дублирования информации. Изредка посещает уже "склеенные" страницы для проверки на предмет убирания дублирования.
    Важно! Если главные страницы двух сайтов признаются дублями, с большой долей вероятности робот считает все страницы сайта дублями (что не всегда верно);
  4. Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму "Добавить URL".
    Ходит только по команде человека (при сабмите формы "Добавить URL"). Каждый вносимый адрес посещает дважды (почему?). Иногда в один из разов представляется как AddUrl;
  5. Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова».
    Заходит на страницы сайта асинхронно каждый раз, как человек в результатах поиска нажмет ссылку "показать найденные слова" напротив адреса этой страницы.
    Хитрость: Поисковую фразу, по которой найден сайт, и номер страницы результатаов поиска можно узнать, если анализировать Referer картинок, которые показываются на этой странице;
  6. Bond, James Bond (version 0.07) — робот, заходящий на сайты из подсети Яндекса.
    Официально никогда не упоминался. Ходит выборочно по страницам и очень аккуратно (на одном из сайтов за период октябрь-декабрь 2004 г. запросил всего 71 страницу; за один сеанс запрашивал не более 7-и страниц). Referer не передает. Картинки не загружает. Судя по повадкам, робот занимается проверкой сайтов на нарушения - клоакинг и пр.
    Примечательно, что робот с 15-го июля 2005 г. резко сменил тактику. В 11:57 он запросил по методу HEAD корневую страницу сайта с необычного для него адреса из подсети Яндекса. Следующий запрос был также к корневой странице в тот же день в 14:04, но уже с обычного адреса. После пошли регулярные обращения к корневой странице сайта раз в сутки. После 18-го июля робот не подавал признаков жизни;
  7. Yandex/2.01.000 (compatible; Win16; Dyatel; C) — робот, заходящий на сайты из подсети Яндекса.
    Впервые замечен 19.07.2005. Официально пока не упоминался. Раз в сутки запрашивает корневую страницу сайта по методу HEAD. Предположительно занимается определением доступности сайта для посетителей. Предположительно робот является переименованным и модифицированным по функциональности роботом Bond, James Bond (version 0.07).

IP-адреса роботов Яндекса со временем меняются. Смысла их отслеживать практически нет.

У Google есть на данный момент два робота:

  1. Googlebot/2.1 (+http://www.google.com/bot.html) - основной индексирующий робот.
    Ходит с разных адресов (если быть совсем точным, ходит сразу много роботов).
  2. Mozilla/4.0 (MobilePhone SCP-5500/US/1.0) NetFront/3.0 MMP/2.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) - индексирующий робот поисковой машины по WAP-сайтам.



Комментарии

RSS комментарии


Добавить свой комментарий


Ваше имя(* обязательно)


Текст сообщения(* обязательно)









 
 
  запомнить

 
Copyright © 2003-2024 WeBi Constructor
Rambler's Top100