- Microsoft Cabinet (CAB). Формат cab широко используется в последних версиях программного обеспечения компании Microsoft. Спецификация формата доступна, но, несмотря на это, существует только одна полноценная реализация. Вне своей ниши (распространение программного обеспечения в среде Microsoft Windows) формат практически не используется.
- Bzip2. Является форматом компрессии, функционально сходным с Gzip, но, как правило, обеспечивающим большую степень сжатия. Удовлетворяет требованиям открытости, но из-за гораздо меньшей степени распространения и поддержки рынком не может быть рекомендован для использования в рамках электронного государства.
Ниже представлена сводная таблица оценки рассмотренных форматов по первичным критериям соответствия требованиям АПО.
Наименование | ZIP | GZIP | RAR | CAB | BZIP2 |
Стабильность | +/- | +/- | ? | + | + |
Доступность | + | + | - | + | + |
Отсутствие ограничений | +/- | + | ? | ? | + |
Отсутствие роялти | + | + | ? | ? | + |
Здесь и далее в таблицах используются следующие условные обозначения:
+ - соответствует требованиям, имеет соответствующий показатель;
- - явно не соответствует требованиям (например, текст спецификации содержит прямое отрицание данного требования или условия);
? – информация недоступна или не позволяет вынести окончательное заключение (например, в тексте спецификации нет прямых ограничений на ее использование, однако и не установлен явно ее свободный статус, а практика использования говорит о возможных патентных проблемах);
+/- - частично соответствует требованиям (имеются отдельные положения, которые не вполне удовлетворяют требованию, но не противоречат ему);
* - используется для критериев оценки, рассматриваемых сравнительно (см. раздел 1), указывает на спецификации, имеющие наилучшие показатели по данному критерию по сравнению с прочими рассмотренными.
В следующей таблице приведен сравнительный анализ форматов и их спецификаций по основным критериям.
Наименование | ZIP | GZIP | RAR | CAB | BZIP2 | Примечания |
Полнота | + | +/- | + | + | + | См. описание форматов выше. |
Соответствие содержания | + | +/- | + | +/- | + | |
Ориентация на открытые системы | + | + | ||||
Согласованность с принципами АПО | + | + | + | Форматы RAR и CAB являются частными | ||
Отсутствие дискриминации и расширения требований | + | + | ? | ? | + | |
Зрелость | * | Все рассмотренные форматы являются стабильными и не предполагают существенного развития. | ||||
Современность | * | |||||
Перспективность | ||||||
Рыночная поддержка | * | * | Формат компрессии GZIP используется в протоколе HTTP | |||
Практическое использование | * | * | ||||
Наличие свободных реализаций | + | + | - | - | + | |
Адаптивность и гибкость | + | - | + | + |
Как видно из таблицы, ни один из дополнительно рассмотренных форматов компрессии также не удовлетворяет всем требованиям АПО, в связи с чем было принято решение сохранить в Локальном профиле форматы ZIP и GZIP, придав им статус рекомендованных.
2.2 Форматы текстовых документов
Под текстовыми документами в данном разделе понимаются все виды документов без строгой структуры, при этом предполагается, что некоторые документы могут включать также иллюстрации, таблицы, сведения о внешнем оформлении текста, шрифтах и т.п. В разделе выделяются следующие виды документов в зависимости от их основного назначения:
Формат представления документов для последующей обработки (редактирования). Основной формат обмена текстовыми документами, предполагающий возможность использования универсальных текстовых процессоров с развитыми средствами редактирования и форматирования. Должен обеспечивать, как минимум:
o Возможность задания шрифтов, начертаний, стилей основных структурных элементов документа, выравнивания абзацев и иных параметров оформления.
o Возможность представления документа для печати путем задания логических параметров вывода страниц – формата бумаги, взаимного расположения абзацев, колонтитулов и т.п.
o Возможность включения в текст иллюстраций, таблиц, элементов автоматизации (оглавлений, индексов, автонумерации страниц и т.п.).
o Возможность включения в файл метаданных документа.
o Возможность отслеживания и сохранения исправлений.
Независимый от устройства вывода формат для представления документов с сохранением разметки страниц (аппаратно-независимый формат, формат для печати). Должен обеспечивать задание точных физических параметров вывода страниц. Применяется:
o Для документов, которые по юридическим основаниям должны представляться в виде твердой (бумажной) копии, т.е. когда юридически значимым является постраничная разбивка текста и расположение на страницах иных содержательных элементов (иллюстраций, колонтитулов и т.п.), которое не может быть обеспечено средствами формата обработки.
o Для документов, где значимым является точное взаиморасположение (верстка) содержательных элементов, которое невозможно обеспечить средствами формата для обработки (чертежи и схемы, сложные таблицы, руководства пользователей и учебные материалы, макеты книг и т.п.).
В зарубежных источниках для представления текстовых документов указаны следующие форматы:
PDF (Portable Document Format). Разработчиком является компания Adobe[4], в качестве стандарта де-юре принят ISO (ISO 15930-5:2003 - PDF/X-2). Документы в формате PDF имеют одинаковый вид как при печати, так и при отображении на экране мониторов вне зависимости от разрешающей способности (разумеется, при правильной реализации формирующей и отображающей программы). При этом обеспечивается корректное сохранение разметки страниц, взаимного расположения текстовых и графических элементов документа. Документы в формате PDF успешно индексируются поисковыми системами в Интернете. Формат ориентирован преимущественно на предпечатную подготовку документов. Его использование для представления при редактировании документов затруднено (практически невозможно) в связи с тем, что формат оперирует такими низкоуровневыми понятиями, как строка символов, отображаемая тем или иным шрифтом, линия и т.д. в противовес таким понятиям, как абзац, заголовок, колонтитул. Ограничены также возможности по использованию в документах интерактивных и мультимедийных элементов. В связи с этим в дальнейшем данный формат рассматривается только как аппаратно-независимый формат.
HTML различных версий (стандарт W3C). Формат сам по себе не обеспечивает представления документов для печати, однако может использоваться для работы с гипертекстовыми документами, предназначенными исключительно для использования в электронной форме.
Форматы файлов текстового процессора Microsoft Word (.doc). Формат является закрытым, официальные спецификации отсутствуют, легальное использование формата ограничено решениями единственного поставщика. Однако с функциональной точки зрения формат удовлетворяет всем требованиям, предъявленным к формату для обработки, а большое количество унаследованных документов MS Word диктуют необходимость его поддержки в статусе выбывающего.
Rich Text Format (RTF). Разработан фирмой Microsoft как переносимый формат для обмена документами между текстовыми процессорами различных производителей. Спецификация формата доступна[5], но её поддержка и развитие является исключительно в компетенции разработавшей его компании. В связи с этим формат не может быть оценен, как стабильный, кроме того, существует несколько ограниченно совместимых версий формата, что делает его малоприменимым для полноценного обмена информацией. Формат в значительной степени человекочитаем, однако встроенные объекты хранятся в кодировке base64[6]. Поскольку RTF разрабатывался для текстового представления документов Microsoft Word, им унаследовано большое количество особенностей старых версий двоичного формата этого текстового процессора. Формат в настоящее время не развивается, и в целом не может быть оценен, как перспективный и современный. В то же время он широко поддержан рынком и является единственным открытым способом обмена документами с текстовым процессором Microsoft Word.
Сводная оценка соответствия форматов первичным критериям приведена в таблице.
Наименование | RTF | .doc | |
Стабильность | + | - | - |
Доступность | + | + | - |
Отсутствие ограничений | +/- | - | - |
Отсутствие роялти | + | +/- | - |
В связи с тем, что форматы RTF и .doc не удовлетворяют первичным требованиям, формат PDF не может быть использован в качестве основного формата для обработки, а формат HTML – для аппаратно-независимого представления, в список для расширенного рассмотрения был дополнительно включен формат Open Office XML Основан на формате, используемом текстовым процессором из пакета OpenOffice.org[7].
Формат обеспечивает полноценный и традиционный для текстовых процессоров общего назначения (таких как Microsoft Word) набор выразительных средств. Формат полностью открыт, свободен от лицензионных выплат и, кроме того, удобен для обработки в автоматизированных системах, не являющихся текстовыми процессорами и даже не имеющих пользовательского интерфейса.