Система файловых архивов FTP, системы поиска в FTP-архивах глобального и регионального охвата. Ресурсы этого типа не отступили так безоговорочно под натиском Web-технологий, как большинство остальных. Одна из причин в огромном количестве информации, накопленной в FTP-архивах за десятилетия эксплуатации компьютерных систем, которая по-прежнему ценна для специалистов. Социального заказа на ее перенос в Web-пространство в полном объеме не существует. Другая причина кроется в простоте доступа, навигации и передачи файлов по FTP. Так или иначе, сегодня FTP-ресурсы востребованы и даже характеризуются развитием не только своей единственной глобальной поисковой системы Archie (адрес одного из стабильно доступных Web-шлюзов к ней - http://ftpsearch.ntnu.no), но и региональных систем, в частности российской - http://ftpsearch.city.ru , охватывающей более 2000 серверов.
FTP-архивы - это в первую очередь источники программного обеспечения, успешно конкурирующие с Web-узлами, которые специализируются на продаже и представлении коллекций программ. В отличие от Web-узлов на них гораздо чаще можно столкнуться с нарушением авторских прав в виде пиратских копий программ и отдельных материалов, продаваемых на других узлах за деньги. Как следствие теневых сторон FTP-сервиса - опасность заражения вирусом из непроверенного источника. Поиски, какой же информации стоит начинать с поисковой системы FTP? Универсальный ответ прост: поскольку ключевым словом при оформлении запроса является текст, входящий в название файла или каталога на FTP-сервере, то наибольшего успеха можно добиться в поиске информации, которая, будучи оформлена в виде файла, либо уже имеет определенное кем-либо имя, либо существует реальная возможность его угадать. Известных автору случаев делового применения FTP-поиска немало. Один из них следующий. Поисковик, разыскивающий один из американских стандартов ASTM по материаловедению с помощью поисковой системы HotBot быстро локализовал головной Web-сервер. Там ему удалось выяснить точное название стандарта. Полное описание стандарта предоставлялось за плату, а краткая аннотация - бесплатно. По техническим причинам аннотация на сервере была не доступна. Человек принял решение исследовать FTP-архивы с помощью поисковой системы и использовать алфавитно-цифровую последовательность, кодирующую название материала. Вскоре была найдена версия стандарта, близкая к полной, что исчерпало проблему. Достоверность информации вызывала у поисковика некоторые сомнения, однако была легко установлена специалистами.
Базы данных Gopher и поисковая система Veronica, сканирующая ресурсы Gopher-пространства на текущий момент перестали играть сколько-нибудь существенную роль в информационном поле Интернета. Тем не менее, мать Гоферов всего мира - сервер, на котором зарегистрировано большинство gopher-серверов Сети (gopher://gopher2.tc.umn.edu), остается в рабочем состоянии и по сей день. Выйти на тот или иной gopher-сервер случается и через коллекции ссылок на Web-страницах, и через "бумажные" Желтые страницы. Как правило, если gopher-сервер еще работает, то в одном из файлов на нем указан адрес Web-узла, на который перенесена информация.
2.2 Интерфейс Web-приложений при работе в сети Internet
Гипертекстовая информационная система World Wide Web (WWW) и ее технологии на сегодняшний день наиболее значительны в Сети и продолжают свой подъем. По своей навигационной картине WWW фактически скопировала Gopher-ресурсы, но следствия одной мелкой детали, мало кто мог предугадать. Эта деталь - использование Web-страницы как легко создаваемого составного объекта, в тело которого монтируется более простые объекты, предназначенные для одновременного отображения. То, что сегодня в списке последних присутствуют текст, гиперссылки, графика, мультимедиа, программный код, диалоговые формы и многое другое в конечном итоге и предопределило широкое коммерческое использование WWW. Паутина заставила поисковые системы Web-пространства тонко подстроиться под себя и фактически обозначила ключевую тенденцию их развития. Речь идет с одной стороны о том, что при индексировании ресурсов все более детальной проработке поисковыми системами подвергаются поля Web-страниц, формируемые контейнерами языка HTML. С другой стороны интенсивно развиваются те элементы информационно-поисковых языков, которые поддерживают поиск внутри этих полей. Сегодня можно констатировать глубокую интеграцию поисковых систем и ресурсов WWW на базе единой технологии. Помимо этого чудовищный объем информационной базы WWW впервые с особой остротой поставил вопрос о необходимости параллельного существования целого ряда идентичных поисковых сервисов, обслуживающих интересы пользователей.
Каталоги ресурсов - глобальные, локальные, специализированные (в среде WWW); представляют собой размещаемые в Сети базы данных с адресами ресурсов и самым разным масштабом накопленной информации и охватом тематики. Обычно они имеют иерархическую структуру, перемещаясь по которой, можно локализовать нужный объект. Скорость накопления информации такими системами оказывается сравнительно низкой, поскольку в классификации ресурсов предполагается непосредственное участие человека. Для поисковика получение информации о ресурсе из известного каталога всегда является некоторой гарантией достоверности. При решении более или менее стандартной поисковой задачи именно каталог, а не поисковая машина оказываются стартовой площадкой для начала поиска.
Поисковые машины, или автоматические индексы - глобальные, локальные, специализированные (в среде WWW) представляют собой мощные информационно-поисковые системы, размещаемые на серверах свободного доступа. Их специальные программы-роботы, или пауки, в автоматическом режиме непрерывно сканируют информацию Сети на основе заданных алгоритмов, проводя индексацию документов. В последующем на основе созданных индексных баз данных поисковые машины предоставляют пользователю доступ к распределенной на узлах Сети информации. Это реализуется через выполнение поисковых запросов в рамках соответствующего интерфейса. Последние исследования возможностей поисковых машин, даже самых мощных из них, таких как AltaVista, или HotBot, показывают, что реальная полнота охвата ресурсов Всемирной Паутины отдельной такой системой не превышает 30%. Планирование поисковой процедуры в пространстве WWW является нетривиальным, и его, безусловно, следует рассмотреть отдельно.
Баннерные системы (в среде WWW) предполагают различные варианты размещения специальных объектов - баннеров, обычно небольших графических изображений с рекламной целью на Web-узле, принимающем рекламу. Баннеры отсылают пользователя по гиперссылке на сервер рекламодателя и зачастую могут не иметь вообще никакого отношения к основному содержимому страницы. Баннеры не используются напрямую при проведении поиска, но являются неплохими индикаторами состояния информационного рынка Сети.
Активные информационные каналы (в среде WWW) представляют собой специализированные Web-сервера, предназначенные для поступления данных прямо на рабочее место пользователя. Ресурсы этого типа принято связывать с push-технологией (технология проталкивания информации). Фактически активный Web-канал является информационным источником периодически обновляемых данных. Можно как подписаться на канал, так и остановить подписку, что многим напоминает работу со списками рассылки. Методика поддержки каналов основными на сегодняшний день браузерами Netscape Communicator и Internet Explorer оказывается различной. С информацией каналов после ее обновления можно позднее ознакомиться в автономном режиме. Сама технология не получила ожидаемого широкого распространения и в контексте проблемы поиска не играет заметной роли.
Страницы World Wide Web по функциональному назначению можно разделить на несколько типов: информационные страницы, навигационные страницы, страницы обмена данными. Во многих случаях эти функции можно объединить в одной странице.
Информационные страницы – это последовательное изложение информации с возможностью гипертекстовых контекстных переходов. Пользователь просматривает их последовательно. Гипертекстовые ссылки обычно применяют для создания сносок, примечаний или отсылок к спискам литературы и других ассоциативных материалов. Типичными примерами таких страниц являются подсказки, руководства, описание компаний, исторические справки и т.п.
Навигационные страницы – это совокупность гипертекстовых ссылок, которые позволяют ориентироваться в материалах Web-узла. Типичный пример такой страницы – Home page. Как правило, на ней нет пространных текстовых описаний и иллюстраций, она состоит из совокупности различных меню. Эти меню можно реализовать через списки, таблицы ссылок или imagemap.
Страницы обмена данными позволяют передать на сервер некоторый объем информации, отличные от стандартного адреса (URL) ресурса. При просмотре и навигации пользователь просто выбирает гипертекстовые ссылки, по которым загружаются новые страницы. При обмене данными на сервер передается не только адрес ресурса, но и дополнительная информация, которую вводит пользователь.
В зависимости от функционального назначения страниц изменяется вид интерфейса ресурса, с которым пользователь имеет дело. В первых двух случаях достаточно манипулятором “мышь” выбрать гипертекстовую ссылку, как тут же загрузится новая страница. В случае страниц обмена данными следует заполнить поля HTML – форм и отправить данные на сервер.При этом формы обеспечивают практически все необходимые виды полей ввода и меню. Единственное, чего не позволяют реализовать HTML – формы, так это вложенные в меню. Формы можно применять не только при обмене данными. Достаточно развитые механизмы обработки форм присутствуют в JavaScript.
Заключение
Произошедшие в последние годы перемены – стремительный рост интернет-аудитории, переход от версии 1.0 протокола HTTP к версии 1.1 с более широкими возможностями, изменение вэб-контента и расширение его мультимедийной части (видео, музыка), появление новых технологий вэб-дизайна (баннеры, динамическое создание страниц и т. д.), применение пользователями менеджеров загрузки – требуют качественного и количественного анализа изменений в вэб-трафике, а также внедрения новых механизмов транспортного протокола TCP. Проанализировав полученные результаты, можно сказать, что, во-первых, рассмотренные методы позволяют значительно ускорить передачу небольших объемов данных, а во-вторых, наибольший выигрыш в сокращении времени передачи обеспечивают методы, использующие информацию о состоянии сети и размере передаваемого файла (TCP/SPAND, медленный запуск TCP, адаптированный к сети).