Считается, что редкий человек слышит звук частотой более 20 000Гц (20кГц). Поэтому для высококачественного воспроизведения звука верхнюю границу обычно с некоторым запасом принимают равной 22кГц. Отсюда немедленно следует, что частота звукозаписи в таких случаях должна быть не ниже 44кГц. Названная частота используется, в частности, при записи музыкальных компакт-дисков. Однако часто такое высокое качество не требуется, и частоту дискретизации можно значительно снизить. Например, при записи речи вполне достаточно частоты дискретизации 8кГц. Заметим, что результат при этом получается хотя и не блестящий, но легко разборчивый – вспомните, как вы слышите голоса своих друзей по телефону.
Во-вторых, АЦП производит дискретизацию амплитуды звукового сигнала. Это следует понимать так, что при измерении имеется "сетка" стандартных уровней (например, 256 или 65 536 – это количество характеризует глубину кодирования), и текущий уровень измеряемого сигнала округляется до ближайшего из них. Напрашивается линейная зависимость между величиной входного сигнала и номером уровня. Иными словами, если громкость возрастает в 2 раза, то интуитивно ожидается, что и соответствующее ему число возрастет вдвое. В простейших случаях так и делается, но, как показывает более детальное изучение, это не самое лучшее решение. Проблема в том, что в широком диапазоне громкости звука человеческое ухо не является линейным. Например, при очень громких звуках, увеличение или уменьшение интенсивности звука почти не дает эффекта, в то время как при восприятии шепота очень незначительное падение уровня может приводить к полной потере разборчивости. Поэтому при записи цифрового звука, особенно при 8 - битном кодировании, часто используют различные неравномерные распределения уровней громкости, в основе которых лежит логарифмический закон.
Итак, в ходе оцифровки звука мы получаем поток целых чисел, представляющих собой стандартные амплитуды сигналов через равные промежутки времени.
На рисунке представлен процесс "оцифровки" зависимости интенсивности звукового сигнала I от времени t. Отчетливо видна дискретизация по времени (равномерные отсчеты на горизонтальной оси) и по интенсивности сигнала (требуемое при этом округление схематически изображено "изломами" горизонтальных линий разметки). Подчеркнем, что на рисунке степень дискретизации для наглядности сознательно утрирована: реально различие между соседними уровнями дискретизации по обеим осям значительно меньше и, следовательно, форма сигнала передается гораздо точнее.
Мы рассмотрели лишь наиболее общие принципы записи цифрового звука. На практике для получения качественных звуковых файлов используется целый ряд дополнительных технических приемов.
Изложенный метод преобразования звуковой информации для хранения в памяти компьютера в очередной раз подтверждает уже неоднократно обсуждавшийся ранее тезис: любая информация для хранения в компьютере приводится к цифровой форме и затем переводится в двоичную систему.
Остается рассмотреть обратный процесс – воспроизведение записанного в компьютерный файл звука. Здесь имеет место преобразование в противоположном направлении – из дискретной цифровой формы представления сигнала в непрерывную аналоговую, поэтому вполне естественно соответствующий узел компьютерного устройства называется ЦАП – цифро-аналоговый преобразователь. Процесс реконструкции первоначального аналогового сигнала по имеющимся дискретным данным нетривиален, поскольку никакой информации о форме сигнала между соседними отсчетами не сохранилось. В разных звуковых картах для восстановления звукового сигнала могут использоваться различные способы.
Наиболее наглядный и понятный из них состоит в том, что по имеющимся точкам рассчитывается степенная функция, проходящая через заданные точки, которая и принимается в качестве формы аналогового сигнала. Чтобы понять, как это делается, возьмем, например, интерполяцию параболой I = at 2 + bt + c по трем заданным точкам. Подставив в эту формулу известные значения времени и приравняв их к сохраненным в файле значениям интенсивности звука I, получим три линейных уравнения с тремя неизвестными a, b и c.
Качественный вид результата представлен на рисунке:
Видно, что на интерполируемом участке даже для параболы совпадение получается вполне удовлетворительное. Кроме того, технические возможности современных микросхем позволяют значительно увеличить степень полинома (многочлена), а вместе с ней и точность реконструкции формы сигнала.
Следует четко представлять, что обработка видеоинформации требует очень высокого быстродействия компьютерной системы, причем не только процессора, но и CD-ROM, с которого считываются данные, конечно, видеосистемы, а также всех информационных шин, по которым данные передаются от одного устройства к другому.
В частности, когда при весьма скромном размере окна видеоизображения 360x240 и 16 битах цветовой информации на каждый пиксел скорость передачи данных превышает один мегабайт в секунду. То есть за десять минут должно быть передано более 600 Мбайт данных, что эквивалентно немного немало почти целому диску CD-ROM!
Таким образом, если для прочих видов информации сжатие лишь повышает удобства работы, то для видеоинформации технологии сжатия имеют поистине жизненно важное значение.
Что представляет собой фильм с точки зрения информатики? Прежде всего, это сочетание звуковой и графической информации. Кроме того, для создания на экране эффекта движения используется дискретная по своей сути технология быстрой смены статических картинок. Исследования показали, что если за одну секунду сменяется более 10-12 кадров, то человеческий глаз воспринимает изменения на них как непрерывные. В любительской киносъемке использовалась частота 16 кадров/сек., в профессиональной – 24.
Традиционный кадр на кинопленке "докомпьютерной" эпохи выглядел так, как показано на рисунке. Основную его часть, разумеется, занимает видеоизображение, а справа сбоку отчетливо видны колебания на звуковой дорожке. Имеющаяся по обоим краям пленки периодическая система отверстий (перфорация) служит для механической протяжки ленты в киноаппарате с помощью специального механизма. | |
Казалось бы, если проблемы кодирования статической графики и звука решены, то сохранить видеоизображение уже не составит труда. Но это только на первый взгляд, поскольку, как показывает разобранный выше пример, при использовании традиционных методов сохранения информации электронная версия фильма получится слишком большой. Достаточно очевидное усовершенствование состоит в том, чтобы первый кадр запомнить целиком (в литературе его принято называть ключевым), а в следующих сохранять лишь отличия от начального кадра (разностные кадры).
Принцип формирования разностного кадра поясняется на следующем рисунке, где продемонстрировано небольшое горизонтальное смещение прямоугольного объекта. Отчетливо видно, что при этом на всей площади кадра изменились всего 2 небольшие зоны: первая сзади объекта возвратилась к цвету фона, а на второй – перед ним, фон перекрасился в цвет объекта. Для разноцветных предметов произвольной формы эффект сохранится, хотя изобразить его будет заметно труднее. | |
Конечно, в фильме существует много ситуаций, связанных со сменой действия, когда первый кадр новой сцены настолько отличается от предыдущего, что его проще сделать ключевым, чем разностным. Может показаться, что в компьютерном фильме будет столько ключевых кадров, сколько новых ракурсов камеры. Тем не менее, их гораздо больше. Регулярное расположение подобных кадров в потоке позволяет пользователю оперативно начинать просмотр с любого места фильма: "если пользователь решил начать просмотр фильма с середины, вряд ли он захочет ждать, пока программа распаковки вычислит все разности с самого начала". Кроме того, указанная профилактическая мера позволяет эффективно восстановить изображение при любых сбоях или при "потере темпа" и пропуске отдельных кадров на медленных компьютерных системах.
Заметим, что в современных методах сохранения движущихся видеоизображений используются и другие типы кадров.
Существует множество различных форматов представления видеоданных. Рассмотрим некоторые из них:
Формат | Характеристика |
AVI | В среде Windows, например, уже более 10 лет (начиная с версии 3.1) применяется формат Video for Windows, базирующийся на универсальных файлах с расширением AVI (Audio Video Interleave – чередование аудио и видео). Суть AVI файлов состоит в хранении структур произвольных мультимедийных данных, каждая из которых имеет простой вид, изображенный на рисунке. Файл как таковой представляет собой единый блок, причем в него, как и в любой другой, могут быть вложены новые блоки. Заметим, что идентификатор блока определяет тип информации, которая хранится в блоке.Внутри описанного выше своеобразного контейнера информации (блока) могут храниться абсолютно произвольные данные, в том числе, например, блоки, сжатые разными методами. Таким образом, все AVI-файлы только внешне выглядят одинаково, а внутри могут различаться очень существенно. |
Quick Time | Еще более универсальным является мультимедийный формат Quick Time, первоначально возникший на компьютерах Apple. По сравнению с описанным выше, он позволяет хранить независимые фрагменты данных, причем даже не имеющие общей временной синхронизации, как этого требует AVI. В результате в одном файле может, например, храниться песня, текст с ее словами, нотная запись в MIDI-формате, способная управлять синтезатором, и т.п. Мощной особенностью Quick Time является возможность формировать изображение на новой дорожке путем ссылок на кадры, имеющиеся на других дорожках. Полученная таким способом дорожка оказывается несоизмеримо меньше, чем если бы на нее были скопированы требуемые кадры. Благодаря описанной возможности файл подобного типа легко может содержать не только полную высококачественную версию видеофильма, но и специальным образом "упрощенную" копию для медленных компьютеров, а также рекламный ролик, представляющий собой "выжимку" из полной версии. И все это без особого увеличения объема по сравнению с полной копией. |
MPEG | Все большее распространение в последнее время получают системы сжатия видеоизображений, допускающие некоторые незаметные для глаза искажения изображения с целью повышения степени сжатия. Наиболее известным стандартом подобного класса служит MPEG (Motion Picture Expert Group), который разработан и постоянно развивается созданным в 1988 году Комитетом (группой экспертов) международной организации ISO/IEC (International Standards Organization/International Electrotechnical Commission) по стандартам высококачественного сжатия движущихся изображений. Методы, применяемые в MPEG, непросты для понимания и опираются на достаточно сложную математику. Укажем лишь наиболее общие приемы, за счет которых достигается сжатие. Прежде всего, обрабатываемый сигнал из RGB-представления с равноправными компонентами преобразуется в яркость и две "координаты" цветности. Как показывают эксперименты, цветовые компоненты менее важны для восприятия и их можно проредить вдвое. Кроме того, производится специальные математические преобразования (DCT – дискретно-косинусное преобразование), несколько загрубляющее изображение в мелких деталях. Опять таки из экспериментов следует, что на субъективном восприятии изображение это практически не сказывается. Наконец, специальными методами ликвидируется сильная избыточность информации, связанная со слабыми отличиями между соседними кадрами. Полученные в результате всех описанных процедур данные дополнительно сжимаются общепринятыми методами, подобно тому, как это делается при архивации файлов. |
DivX | В последнее время все большее распространение получает технология под названием DivX (происходит от сокращения слов Digital Video Express, обозначающих название видеосистемы, которая "прославилась" неудачной попыткой взимать небольшую оплату за каждый просмотр видеодиска; к собственно технологии DivX это никакого отношения не имело). Благодаря DivX удалось достигнуть степени сжатия, позволившей вмесить качественную запись полнометражного фильма на один компакт-диск – сжать 4,7Гб DVD-фильма до 650Мб. И хотя это достижение, к сожалению, чаще всего используется для пиратского копирования, сам по себе этот факт не умаляет достоинств новой технологии. Как и то, что самая первая версия сжатия DivX была сработана французскими хакерами из MPEG-4 – современные версии DivX уже не имеют к этому событию никакого отношения. |
кодеки | Наиболее популярные программы проигрывания видеофайлов позволяют использовать замещаемые подсистемы сжатия и восстановления видеоданных – кодеки (от англ. compression/decompression – codec).Такой подход позволяет легко адаптировать новые технологии, как только те становятся доступными. Замещаемые кодеки хороши как для пользователей, так и для разработчиков программного обеспечения. Тем не менее, большое разнообразие кодеков создает определенные трудности для производителей видеопродукции. Часто в качестве выхода из создавшегося положения необходимые кодеки помещают на компакт-диск с фильмами или даже поставляют видеоматериалы в нескольких вариантах, предоставляя тем самым возможность выбрать подходящий. Все больше распространяется автоматизация распознавания, когда плейер, обнаружив информацию об отсутствующем кодеке, загружает его из Интеренет. |