Как работает поисковая система, или как искать в сети.
Вначале мы расскажем об устройстве поисковой системы. При обращении к поисковику пользователь видит лишь его интерфейс, при этом самое главное, схема его работы, остаётся вне видимости.
Первая часть поисковой системы – это «паук», он же crawler, он же поисковый робот. Он занимается тем, что путешествует по Сети, просматривая все страницы, перемещаясь по всем ссылкам, и при этом не останавливается ни на минуту. Путешествует не просто так –каждую просмотренную страницу «паук» заносит в индекс поисковой машины в виде встречающихся на этой странице значащих слов.
Таким образом, набирается это огромнейшая база данных, с помощью которой можно быстро узнать, на какой именно странице в Сети можно встретить то или иное слово. Это и есть индекс поисковой машины. К примеру, объем индекса поисковой системы Google составляет 8 миллиардов страниц (по данным за в ноябрь 2001).
Третья часть, после индекса – это собственно поисковая машина. Занимается она тем, что ищет нужное слово – или слова – в индексе. Ее стоит полагать, что ищет она по всему Интернету. Если б это действительно было так, тому же Google, после того, как вы ввели запрос, пришлось бы загружать и просматривать все 8 миллиардов страниц. Представьте себе, сколько дней ему потребовалось бы, чтобы ответить ваш запрос.
А теперь можно сделать вывод, что раз поисковая машина ищет только в своем индексе, значит, если она чего-то не нашла, это вовсе не значит, что этого нет в Сети. И потом, поисковые системы различаются не только внешним видом, но и, например, индексом и способом его составления. Поэтому если вы не нашли что-то в одной поисковой системе, есть смысл поискать в другой.
Поисковый робот, составляющий индекс, обходит сайты «кругами», посещая их регулярно – таким образом, индекс поисковой системы отражает регулярные изменения, происходящие на сайте. Новые сайты «паук» находит либо сам, либо придя по ссылке с другого сайта. Есть еще третий вариант – вы можете самостоятельно направить его на свой сайт. А наилучшего результата вы достигнете совместив все три способа.
Последняя часть поисковой системы – это ее WWW-сервер. Это ее лицо, это как раз тот интерфейс, который видит пользователь задавая свои вопросы.
Пожалуй это весь минимум, который необходимо знать об устройстве поисковых машин. А чтобы правильно с ними общаться нужны специальные правила и специальный язык. Для того чтобы задавать вопросы поисковой машине нет необходимости формулировать их в литературной форме. Достаточно ввести в строке поиска ключевые слова, то есть те два-три слова, которые наиболее полно характеризуют объект ваших поисков. Вы будете удивлены, узнав, что многие пользователи вводят для поиска. На «Яндексе» есть так называемый «прямой эфир» - страница, на которой вы можете увидеть 20 последних запросов. http://www.yandex.ru/last20.html Смотреть на неё можно часами и при этом множество противоречивых чувств будут посещать вас ежеминутно. И если не принимать в расчет запросы, вроде «бесплатное порно», то вы сможете составить представление о том, как не следует формулировать запрос.
Есть множество важных деталей о которых следует помнить, задавая вопрос. Если вы набрали слово с маленькой буквы, то будут найдены слова с маленькой и большой буквы; если вы набрали слово с большой – то будут найдены слова только с большой буквы. Например, на запрос «лебедь» поисковая система выдаст упоминания о птицах и о генерале. Поэтому правило: не набирайте без особой нужны слово с большой буквы! Иначе вам останется только изучать биографии персон с подобной фамилией.
Знаки «-» и «+». Используя эти знаки, вы можете принудительно исключать слово из поиска, либо делать слово обязательным.
Если вы ввели просто несколько слов, разделенных пробелами, то для поисковика это будет означать, что надо найти страницы, где эти слова входят в одно предложение.
Для поиска документа, содержащего любое из перечисленных слов, надо использовать знак «|». Это очень удобно, если к слову имеется много синонимов.
Для поиска устойчивых словосочетаний нужно ввести фразу для поиска в кавычках. (Во всех остальных случаях кавычки не нужны). Очень помогает, когда вам нужно, к примеру, найти слова стихов, а вы помните всего одну строчку. Введите эту строку с кавычками в поисковую систему и сразу же узнаете, чьему перу она принадлежит.
В принципе, существуют три-четыре поисковые системы, которые должны удовлетворить практически все нужны. Это уже упоминавшийся «Яндекс» (www.yandex.ru), «Рамблер» (www.rambler.ru) и «Апорт» (www.aport.ru) – все это русскоязычные поисковики. Из них мне волне хватает «Яндекса». Из зарубежных – всем известная AltaVista (www.altavista.com) , Google (www.google.com) и Yahoo (www.yahoo.com).
Тем не менее, есть обширный ряд задач, удовлетворить который известные и посещаемые поисковики не смогут., поскольку как все крупные поисковые системы, они рассчитаны на то, чтобы обхватить как можно больший объем информации. Когда же вам необходимо найти что-то особо специфичное – есть смысл воспользоваться специализированными поисковиками. О них – в следующей статье.



