РОБОТЫ ПОИСКОВЫХ СИСТЕМ
Что такое роботы поисковых систем (рейтинг поисковых систем) и какие функции они выполняют ?
В английском языке существует несколько вариантов названий роботов поисковых систем: robots, spiders, web bots. В русском языке наиболее распространенное название - «роботы» или просто «боты».
На сайте www.robotstxt.org приведено следующее определение поискового робота:
«Веб-робот - это программа, которая обходит гипертекстовую структуру WWW, рекурсивно запрашиваяи извлекая документы»
Большинство роботов поисковых систем имеют свои уникальные имена (кроме тех, которые маскируются под пользовательские браузеры).
Имя робота можно увидеть в поле «User-agent» серверных лог - файлов или отчетах систем серверных статистик. Робот Яндекса называют - Yandex, робот Рамблера - StackRambler и т.п.
Какие же функции выполняют роботы поисковых систем ?
В поисковой системе несколько роботов у которых разные функции. Вот некоторые функции, выполняемые поисковыми роботами :
- обработка запросов и извлечение документов
- проверка ссылок
- проверка обновлений
- проверка доступности сайта
- анализ содержимого веб-страниц
- обзор содержимого веб-страниц в альтернативных форматах (графика, данные в форматах RSS и пр.)
Но наиболее распространенные роботы - это те, которые запрашивают, получают и архивируют документы для последующей обработки другими механизмами поисковой системы (например, индесными роботами).
Поисковый робот обходит сайты и получает документы по своему внутренниму списку адресов. Поисковый робот может выполнять базовый анализ документа и пополнять список адресов. Дальнейшей обработкой документов и
построением индекса поисковой системы занимается индесный робот.
Чем отличается поведение робота поисковой системы от поведения обычного пользователя ?
- УПРАВЛЯЕМОСТЬ. Робот должен прежде всего запросить с сервера файл robots.txt с инструкциями по индексации.
- ВЫБОРОЧНОЕ ВЫКАЧИВАНИЕ. При запросе документа робот поисковой системы четко указывает типы запрашиваемых данных, в отличии от обычного браузера, который принимает все подряд.
- НЕПРЕДСКАЗУЕМОСТЬ. Невозможно предсказать или отследить путь робота по сайту.
- СКОРОСТЬ. Малое время между запросами разных документов. Здесь речь идет о долях секунды между запросами разных документов.