Смекни!
smekni.com

Технологии поиска информации в сети Интернет (стр. 4 из 5)

По умолчанию находятся только те документы, в которых встретились все заданные нами ключевые слова, то есть пробел между словами воспринимается как логическая операция AND. Однако это значение пробела можно переопределить таким образом, чтобы он соответствовал логической операции OR (как это имеет место по умолчанию в Yahoo или Alta Vista). Для этого в бланке расширенного поиска нужно выбрать опцию “Слова запроса: любое”.

Чтобы исключить документы, содержащие те или иные слова, последние нужно указать на соответствующем поле бланка расширенного поиска.

6.2. Яндекс (http://www.yandex.ru)

Поисковая система Яndex выделяется своими мощными средствами расши-ренного поиска, а также целым рядом технологических достижений, например, наличием интеллектуального механизма морфологического разбора слов, что особенно важно для русского языка. Независимо от того, в какой форме написали ключевое слово в запросе, Яndex будет учитывать все его формы. Например, если ключевым является слово идти, находятся ссылки на Web-документы, содержащие слова идти, идет, и даже шёл. Однако существует возможность поиска и по точной словоформе, для чего перед этой словоформой надо поставить восклицательный знак “!”.

Несколько набранных в запросе слов, разделенных пробелами, означает, что все они должны входить в одно предложение искомого документа (то есть пробел работает как знак логической операции AND).

Следует иметь ввиду, что в ПС Яndex операцию AND можно указать и в явной форме с помощью символа “&” (но не с помощью слова AND !). Удвоение же этого знака, т. е. использование символа “&&”, приводит к распространению действия операции AND на весь документ (т. е. связанные с помощью && слова должны обязательно присутствовать в пределах всего документа). Символом же операции OR в рассматриваемой поисковой системе служит знак “|” (но не само слово OR).

В ПС Яndex можно регулировать расстояние, на котором находятся друг от друга заданные ключевые слова в Web-документе. Например, запрос

физическое/(-2 4) образование

означает, что слово физическое может находиться как слева от слова образование (на расстоянии максимум двух слов от него), так и справа (на расстоянии максимум четырех слов от него).

Создавшая ПС Яndex компания CompTek бесплатно предоставляет для корпоративных клиентов (организаций) облегченную версию программы Яndex.Site, которая выполняет индексацию содержимого Web-узла. Это удобно владельцам тех Web-узлов, которые хотели бы организовать локальную систему для поиска информации в пределах своего собственного узла.

Поисковая система Яndex имеет очень хорошее описание в разделе “Помощь”, который настоятельно рекомендуется посмотреть перед использованием этой системы.

7. Поиск файлов

Для обмена файлами (это могут быть текстовые файлы или файлы с программами) в сети Internet существует специальный протокол FTP (File Transfer Protocol — протокол передачи файлов). Поскольку на многих серверах есть файлы, которыми их хозяева готовы поделиться с кем угодно, существует универсальное соглашение: зайдя почти на любой FTP-сервер, можно ввести вместо входного имени слово "anonymous", а вместо пароля — свой электронный адрес. Если у владельцев этого узла есть файлы, которые они распространяют без ограничений, мы получим к ним доступ. Такой способ обмена файлами называется "анонимным FTP". Программное обеспечение, которое можно получить таким образом, относится либо к бесплатным (freeware), либо к условно бесплатным (shareware) программам, или же представляет собой демонстрационные версии коммерческих программ с ограниченными возможностями.

Среди специальных систем поиска файлов в Интернете существуют аналоги уже рассмотренных ранее тематических каталогов (типа Yahoo) и автоматических индексов (типа Alta Vista). Разумеется, эти поисковые системы предоставляют клиенту не сами файлы, а лишь списки ссылок на них.

Одной из самых популярных поисковых служб типа тематических каталогов для поиска файлов является shareware.com по адресу http://www.shareware.com. Эта система классифицирует файлы только по одному признаку: для какой операционной системы они предназначены, но она хранит описания всех файлов, составленные людьми. Заглавная страница shareware.com устроена аналогично страницам уже рассмотренных нами поисковых систем. Она предлагает клиенту различные виды поиска, причем, ключевые слова могут содержать символ *, соответствующий последовательности любых символов. Поиск производится как в именах, так и в описаниях файлов. Можно указать нижний временной порог поиска, чтобы получить ссылки на файлы, созданные не раньше заданной даты, и выбрать способ сортировки результатов—по дате или по алфавитному порядку имен файлов. Щелкнув на имени файла в списке результатов, получим ряд ссылок на узлы Internet, на которых хранятся копии этого файла с указанием надежности работы этих серверов и времени, необходимого для скачивания файла в зависимости от пропускной способности нашего канала.

В отличие от каталога shareware.com, поисковая система Archie является автоматическим индексом аналогичным Alta Vista. Список анонимных узлов для Archie приходится вести людям (его можно найти по адресу http://hoohoo.ncsa.uiuc.edu/ftp/). Поиск в базе данных сервера Archie производится с помощью ключевых слов, которые в данном случае представляют собой просто имена файлов или фрагменты имен.

Время ожидания связи с популярными FTP-узлами (такими, например, как богатое собрание программ для Windows (ftp://ftp.winsite.com)) может оказаться весьма большим, в силу чего в Интернете обычно имеются их точные копии или "зеркальные отражения" (mirrors), а поисковые системы выдают адреса всех этих зеркал.

Каталог, содержащий общедоступные файлы, почти всегда называется pub. В большинстве архивов в каждом каталоге имеется специальный файл с краткими—обычно не длиннее одной строки—описанием каждого файла этого каталога. Такой файл может называться 0index, 00index и т. п. (нолики приписываются к имени файла, чтобы он всегда попадал на первое место в отсортированном по алфавиту списке файлов).

8. Источники специализированной информации

Существуют информационные компании, обеспечивающие ин­формационное электронное обслуживание. Например, Knight-Ridder (KR) — это крупнейшая в мире информационная компания, предоставляющая доступ к своим службам в интерактивном режиме. Здесь объединились такие всемирно известные службы, как DialogInformationService из США и DataStar из Европы. Используя Ин­тернет в качестве среды для распространения своих услуг, KR суме­ла автоматизировать ключевые моменты своей деятельности, улуч­шить обслуживание клиентов и, самое главное, расширить рынок своих услуг. Все это в конечном счете привело к тому, что KR стала мировым лидером в области доставки электронных документов и информационного сервиса.

Имеет собственную систему информационного поиска в Интер­нете фирма IBM — InfoMarket. В ней сочетаются средства получения информации и управления платежами с правами доступа.

Однако на начальной стадии освоения пространства Интернета не обойтись без самостоятельного поиска информации. Здесь весь­ма полезными могут оказаться адреса Web-узлов, хорошо зареко­мендовавшие себя источники деловой информации:

www.kentis.com— это сервер компании KentInformationSystem, сотрудники которой помогают профессионалам в области бухгалте­рии и финансов использовать компьютерные технологии, особенно Интернет;

http://www.promotion.aha.ru— on-line журнал по маркетингу в сети Интернет;

http://www.inter.net.ru— журнал «Интернет», регулярно публи­кующий материал по маркетингу и рекламе в сети Интернет;

http://clickz.com— журнал, полностью посвященный вопросам Интернет-маркетинга.

9. Поиск отдельных людей в сети Internet

Наиболее просто найти информацию о человеке, если у него имеется в сети Internet своя личная страница (personal home pages), на которой обычно имеется его фотография, e-mail и почтовый адрес, телефон и т. д. Нередко такая страница содержит краткую биографию автора, его хобби и т. д. Одна из крупнейших систем для поиска личных страниц называется Who’sWho и расположена по адресу http://web.city.ac.uk/citylive/pages.html.

Существуют также обширные каталоги электронных адресов различных людей, которые пользуются электронной почтой (e-mail). Лидерство здесь, по-видимому, принадлежит каталогу Four11 по адресу http://www.four11.com.

Отметим также каталог WhoWhere (http://www.whowhere.com), который производит поиск даже по схожести звучания или написания фамилий (например, “Kirsanov”, “Kirsanoff” и т. д.).

Отечественный каталог электронных адресов располагается по адресу http://www.botik.ru/~intermap/form.html.

Совершенно уникальным является всеамериканский адресный справочник по адресу http://www.databaseamerica.com, который выдает координаты любого из 90 млн. жителей США и любой из 10 млн. американских компаний.

10. Метапоиск

Базы данных разных поисковых систем в значительной мере не пересекаются. Поэтому для поиска достаточно редкой информации целесообразно обращаться не к одной, а к нескольким ПС. Однако правила оформления запросов для разных ПС, вообще говоря, отличаются друг от друга. Для того, чтобы не обращаться поочередно к разным поисковым системам и не думать о специфических правилах оформления запроса для каждой из них, были созданы так называемые метапоисковые системы.

Приняв заказ клиента, заданный с помощью ключевых слов в соответствие со своими собственными правилами его оформления, метапоисковая система сама пропишет его в бланках разных поисковых систем, разошлет эти бланки и будет ждать ответа. Когда все поисковые системы пришлют результаты поиска, метапоисковая программа сведет их в один документ и отправит пользователю. К таким метапоисковым системам относится MetaCrawler расположенный по адресу (http://metacrawler.cs.washington.edu:8080), который рассылает запрос на 9 различ-ных поисковых систем (в их число входит: Yahoo, Alta Vista, Lycos, Excite и т. д.). На случай разной интерпретации одних и тех же по смыслу опций в разных поисковых системах MetaCrawler предусматривает даже возможность проверки результатов поиска: прежде чем дать ссылку пользователю, он самостоятельно посмотрит на документ и проверит, соответствует ли он условиям запроса — так как их понимает MetaCrawler. Разумеется, этот режим проверки сильно задерживает получение результатов, но зато позволяет защититься как от неработоспособных ссылок, так и от бессмысленных результатов. Заметим, что на бланке запроса MetaCrawler можно задать время ожидания: в список будут включены только те результаты, которые успеют прийти с различных поисковых систем к этому моменту.