Смекни!
smekni.com

Организация хранения и поиска информации в сети Internet (стр. 2 из 4)

Дальнейшее рассмотрение мне хотелось бы обратить к межплатформенным форматам, принятым в Internet в качестве стандарта де-факто: JPEG, GIF, PNG.

Сразу хочу заметить, что формату PNG (Portable Network Graphic) не будет уделено много внимания, хотя, возможно, он его и заслуживает. Это является следствием того, что формат этот появился не так давно и несмотря на все свои достоинства еще не получил всеобщего признания.

Итак, фактически перед человеком или компанией, которая намерена размещать на своих дисках большое количество изображений и, возможно, предоставлять их для использования в Internet, встает дилемма: что выбрать GIF или JPEG.

Формат GIF, разработанный компанией CompuServe, и изначально предлагавшийся именно как формат для обмена изображениями в сети является форматом с достаточно высокой степенью сжатия изображения. Кроме того, GIF обладает дополнительными возможностями, которые делают его использование в сети привлекательным. Первая – это возможность изменения порядка вывода на экран строк изображения, с заполнением промежутков между ними временной информацией. Визуально это выглядит так, что по мере загрузки из сети (что происходит нередко с катастрофически низкой скоростью) изображение на экране появляется как бы «в низком качестве», а затем, по мере подгрузки дополнительной информации, восстанавливает пропущенные строки изображения. Таким образом, пользователь еще до окончания процесса загрузки может получить представление о содержимом изображения и прервать загрузку ненужного файла большого размера. Вторая возможность заключается в хранении в одном файле боле чем одного изображения, что делает возможной элементарную покадровую анимацию. Еще одной отличительной особенностью GIF является то, что один из цветов можно объявить «прозрачным», и тогда при выводе изображения те его части, которые выкрашены этим цветом не будут выводиться на экран и под ними будет виден фон, на который изображение накладывается. Самым же большим недостатком GIF является то, что он может хранить изображение, состоящее максимум из 256 цветов, что в последнее время становиться все менее и менее приемлемым. Вместе с этим, пользователей GIF преследует такая же неприятность, что и в случае с форматом TIFF: GIF также использует LZW-сжатие, а следовательно, каждое изображение может распространяться только при наличии соответствующего лицензионного соглашения.

Формат JPEG является TrueColor-форматом, то есть может хранить изображения с глубиной цвета 24 бит/пиксел. Такой глубины цвета достаточно для практически точного воспроизведения изображений любой сложности. Более глубокое представление цвета (например 32 бит/пиксел) реально оказывается практически неотличимым от данного при просмотре на современных мониторах и при распечатке на большинстве доступных принтеров. Такая глубина цвета может оказаться полезной разве только в издательской деятельности. JPEG в общем обладает более высокой степенью сжатия изображений, нежели GIF (подробнее этот аспект описан в главе «Практики использования JPEG»), но не обладает возможностью хранить несколько изображений в одном файле. Недавно была разработана модификация формата JPEG, получившая название Progressive JPEG, что приблизительно можно перевести на русский язык как «постепенный JPEG», который предназначен для тех же задач, что и чересстрочное отображение GIF-изображений. Это сделало формат JPEG еще более привлекательным в качестве сетевого стандарта. Однако, и в JPEG присутствуют свои недостатки. В отличие от GIF, который может эффективно сжимать изображения практически любого содержания, JPEG ориентирован прежде всего на реалистичные изображения, то есть изображения фотографической направленности, и качество сжатия значительно ухудшается при обработке изображений с четко очерченными линиями и границами цветов.

Таким образом, нельзя до сих пор сделать окончательного выбора в пользу одного или другого формата. Однако, мне формат JPEG представляется более интересным с точки зрения оригинального алгоритма сжатия и больших возможностей для развития в перспективе. Также формат JPEG следует считать однозначно более гибким: он позволяет выбирать между хорошим качеством изображения или хорошей степенью сжатия и находить приемлемый компромисс для каждого конкретного случая. Поэтому все дальнейшее исследование посвящено именно этому формату.

1.3 Поисковые системы и правила поиска информации

Удобство Интернета в том, что в нем можно найти практически любую информацию, даже когда мы не знаем точно, где она находиться. Если адрес страницы с интересующим нас материалом неизвестен и страницы с подходящими ссылками тоже нет, приходиться разыскивать материалы по всему Интернету. Для этого применяют поисковые системы Интернета – специальные web-узлы, позволяющие найти нужный документ.

Существует два основных метода поиска в Интернете. В первом случае вы ищите web-страницы, относящиеся к определенной теме. Поиск производится путем выбора тематической категории и постепенным ее сужением. Подобные поисковые системы называют поисковыми каталогами.Они удобны, когда вам нужно вые познакомиться с новой для себя темой или добраться до широко известных «классических» ресурсов по данной теме. Второй способ поиска используется, когда тема носит узкий, специфический характер или нужны редкие, малоизвестные ресурсы. В этом случае вы должны представлять себе, какие ключевые слова должны встретиться в документе по интересующей вас теме. Эти слова надо выбрать таким образом, чтобы они, скорее всего, имелись в нужных документах, не имеющих отношения к выбранной теме. Системы, позволяющие выполнять подобный поиск, называют поисковыми указателями. Поисковые каталоги отличаются от поисковых указателей не только методом поиска, но и способом формирования. Любая поисковая система Интернета состоит из двух частей. Специализированная web-страница, доступная всем желающим и позволяющая выполнять поиск, опирается на большую, постоянно пополняемую и обновляемую базу данных, которая содержит сведения о ресурсах Интернета.

Способ пополнения этой базы данных зависит от типа поисковой системы, поисковых каталогов самое главное – это точность отбора. Каждый найденный ресурс должен быть полезным. Тематика страницы определяется или проверяется вручную. Из-за этого объем поисковых каталогов относительно невелик. Когда объем приближается к миллиону страниц, объем ручного труда настолько велик, что дальнейший рост каталога останавливается.

Поисковые указатели, напротив, ориентированы на широту охвата. С определением слов, имеющихся на web-странице, вполне справляется автоматика, данных поискового указателя может охватывать многие миллионы web-страниц. При этом выполнять поиск в указателе труднее, чем в каталоге, потому что одни те же ключевые слова могут встречаться на web-страницах, посвященным разным темам.

Информационно-поисковые системы размещаются в Интернете на общедоступных серверах. Основой поисковых систем являются так называемые поисковые машины, или автоматические индексы. Специальные программы-роботы (известные также как пауки) в автоматическом режиме периодически обследуют Интернет на основе определенных алгоритмов, проводя индексацию найденных документов. Созданные индексные базы данных используются поисковыми машинами для предоставления пользователю доступа к размещенной на узлах Сети информации. Пользователь в рамках соответствующего интерфейса формулирует запрос, который обрабатывается системой, после чего в окно браузера выдаются результаты обработки запроса. Механизмы обработки запросов постоянно совершенствуются, и современные поисковые системы не просто перебирают огромное число документов. – Поиск ведется на основе оригинальных и весьма сложных алгоритмов, а его результаты анализируются и сортируются таким образом, чтобы представленная пользователю информация в наибольшей степени соответствовала его ожиданиям.
В настоящее время в развитии поисковых систем наблюдается тенденция объединения автоматических индексных поисковых машин и составляемых вручную каталогов Интернет-ресурсов. Ресурсы этих систем удачно дополняют друг друга, в объединение их возможностей вполне логично.

Тем не менее исследования возможностей поисковых машин, даже самых мощных из них, таких как AltaVista или HotBot, показывают, что реальная полнота охвата ресурсов Всемирной паутины отдельной такой системой не превышает 30%. Поэтому не стоит ограничиваться использованием какой-либо одной из них. Если вам не удалось отыскать интересующую вас информацию с помощью одной системы, попробуйте воспользоваться другой.

Каждая поисковая Система имеет свои особенности и, и качество полученного результата зависит от предмета поиска и точности формулировки запроса. Поэтому, приступая к поиску информации, прежде всего, нужно четко представлять себе, что именно и где вы хотите найти. Например, зарубежные системы поражают числом проиндексированных документов. Для поиска в области профессиональных знаний, особенно информации на иностранном языке, такие системы, как AltaVista, HotBot или Northern, подходят наилучшим образом.

Однако для поиска информации на русском языке, особенно в российской части Интернета, лучше приспособлены русские поисковые машины. Во-первых, они специально ориентированные именно на русскоязычные ресурсы Сети и, как правило, отличаются большей полнотой охвата и глубиной исследования эти ресурсов. Во-вторых, российские системы работают с учетом морфологии русского языка, то есть в поиск включаются все формы искомых слов. Российские системы лучше учитывают и такую исторически сложившуюся особенность российских Интернет-ресурсов, как сосуществование нескольких кодировок кириллицы.