Сбор первичной базы данных. На первом этапе поисковая система занимается сканированием информационного пространства
World Wide Web. Для этого используют специальные агентские программы —
черви. Не следует путать агентов поисковых систем с разновидностью сетевых компьютерных вирусов, тоже именуемых
червями. Черви поисковых систем совершенно безобидны для серверов и клиентов WWW. По своей сути это очень эффективные малоразмерные браузеры. Им не надо выполнять функции просмотра и воспроизведения содержимого — их задача состоит только в том, чтобы автоматически разыскивать Wei-ресурсы, следуя по гиперссылкам, и, убедившись, что этот ресурс системе еще не известен, копировать его

9,3. Поиск информации в World Wide Web
в свою базу данных. Так же происходит и обновление ранее принятых документов, но измененных за время после предыдущего копирования.
Индексация базы данных. Собрать базу данных сетевых Weu-ресурсов — еще не значит получить функционирующую поисковую систему. Поиск ключевых слов, введенных пользователем, в обширной базе — это весьма продолжительная операция. Чтобы не задерживать клиента более чем на доли секунды, собранные базы данных проходят предварительную обработку, называемую
индексацией. На этапе индексации создаются специализированные документы —
поисковые указатели.Рафинирование результирующего списка. Это третий этап работы, в ходе которого осуществляется взаимодействие с пользователем. На этом этапе создается список ссылок, который будет передан пользователю в качестве результирующего. Пользовательское представление о качестве работы поисковой системы напрямую зависит от технологий, использованных на этом этапе.
Рафинирование заключается в фильтрации и ранжировании результатов поиска.

Под фильтрацией понимается отсев ссылок, которые выдавать пользователю нецелесообразно. Прежде всего проверяется наличие дубликатов. Если система в одном списке выдает множество ссылок, ведущих к одному и тому же We^-pecypcy, это говорит о том, что ее средства добросовестно отработали два первых этапа, но ничего не сделали на третьем этапе. Дублирующиеся ссылки перегружают результирующий список и затрудняют выбор действительно полезных ресурсов.
Ранжирование заключается в создании специального порядка представления результирующего списка, при котором наиболее «полезные» (с точки зрения поисковой системы) ссылки приводятся в вершине списка, а наименее полезные — в его конце. Понимание критерия «полезности» для клиента той или иной ссылки может быть самым разнообразным. Именно поэтому разные поисковые системы, даже работающие с одинаковыми базами ресурсов, выдают разные результаты поиска.
Новые поисковые технологии
Автоматическая каталогизация. Для поисковых каталогов вопрос несоответствия между размерами исследованного и неисследованного 1Уе6-пространства стоит особенно остро. Перспективные направления развития основаны на внедрении так называемых 5М/4.КГ-технологий автоматической каталогизации.

Существует множество теоретических изысканий в области ^МЛЯГ-технологий, но наиболее перспективной является модель векторного информационного пространства. Представим себе эксперта в какой-то области, например в физике. Если ему поставить задачу, то, наверное, он сможет составить словари, характерные для таких областей, как Механика, Термодинамика, Оптика и т. п. Проанализировав множество документов, относящихся к этим научным областям, он сможет не только указать характерные термины и понятия, но и дать им весовые оценки. Так, например, достаточно очевидно, что слово «перемещение» имеет больший вес в механике, чем в термодинамике. Комбинируя термины и весовые коэффициенты, можно строить многомерные системы координат, в которых различные области знания описывались бы разными многомерными векторами.

Глава 9. Получение информации из Интернета
Автоматически получив новую Wei-страницу, поисковая система может построить для нее математический вектор, основанный на формальном анализе содержания. Сравнивая этот вектор с уже рассчитанными векторами для различных областей знания, система может без участия человека предположить, к какой категории, теме и разделу относится тот или иной документ.

При таком подходе не обязательно хранить копии всех известных Wei-страниц, как не надо хранить и их поисковые указатели. Вполне достаточно для каждого Wei-документа хранить лишь его Ш?1-адрес и число, соответствующее вектору. В настоящее время конкретные алгоритмы 5МА#Г-технологий не публикуются, но можно предположить, что они уже работают, например в поисковых системах реального времени.
Поисковые системы реального времени. Это новое направление в технологиях поиска. Для работы с такой службой пользователь должен подключиться к ее центральному серверу, получить оттуда и установить на своем компьютере клиентскую программу. Эта программа подключается к браузеру и работает как дополнительная панель.
При каждом запуске браузера клиентская программа устанавливает соединение со своим центральным сервером и далее работает с ним в паре. Она передает серверу копии всех Web-страниц, которые посещает пользователь, то есть выполняет те же функции, что и автоматический червь, копирующий Web-ресурсы на сервер традиционной поисковой системы. Однако при этом есть два существенных различия:
• во-первых, человек в ходе навигации в WWW руководствуется не теми прин-ципами, что автоматическая программа, поэтому сервер получает копии не всех Wei-ресурсов, а только тех, что заинтересовали кого-то из его клиентов;
• во-вторых, если поставкой Web-ресурсов занимаются несколько миллионовпостоянных клиентов, индексация Web-пространства происходит намного быстрее.

В свою очередь, пользователь тоже имеет важное преимущество. На какой бы Weiстранице он ни находился, система всегда готова предложить ему список других Wei-страниц, имеющих близкое по тематике содержание. Она готовит этот список на основании предшествующего опыта, полученного в работе с другими людьми. Так можно получить рекомендации, которые было бы очень трудно (а зачастую и невозможно) разыскать в WWWTpaflHHHOHHbiMH поисковыми средствами (рис. 9.7).
Рекомендации по приемам эффективного поиска

При проведении первичного реферативного поиска, когда тема задана достаточно широко, целесообразно использовать поисковые каталоги. Это позволит быстро установить местоположение основных первоисточников. При ознакомлении с первоисточниками следует, прежде всего, уделять внимание понятийной базе. Знание основных понятий и терминов позволит перейти к углубленному поиску в поисковых указателях с использованием ключевых слов, наиболее точно характеризующих тему.
9.3. Поиск информации в World Wide Web

аналогичной тематики

При наличии первичных сведений по теме поиска документы можно разыскивать в поисковых указателях. При этом следует различать приемы
простого,расширенного, контекстного и
специального поиска.•

Под
простым поиском понимается поиск We6-peeypcoB по одному или нескольким ключевым словам. Недостаток простого поиска заключается в том, что обычно он выдает слишком много документов, среди которых трудно выбрать наиболее подходящие.
•

При использовании
расширенного поиска ключевые слова связывают между собой операторами логических отношений. Расширенный поиск применяют в тех случаях, когда приемы простого поиска дают слишком много результатов. С помощью логических отношений поисковое задание формируют так, чтобы более точно детализировать задание и ограничить область отбора, например по дате публикации или по типу данных.
•
Контекстный поиск — это поиск по точной фразе. Он удобен для реферативного поиска информации, но доступен далеко не во всех поисковых системах. Прежде всего, чтобы обеспечивать такую возможность, система должна работать не только с индексированными файлами, но и с полноценными образами
Webстраниц. Эта операция достаточно медленная, и ее выполняют лишь немногие поисковые системы.