Крупенева И.Г.

ПРОБЛЕМЫ ВЫБОРА ФОРМАТА ХРАНЕНИЯ
ДЛЯ ДОКУМЕНТОВ ЭЛЕКТРОННОГО АРХИВА

Рост объемов информации, необходимость ее оперативного поиска и компактного хранения делает необходимым создание электронных библиотек. При создании таких библиотек чрезвычайно важен выбор формата хранения документов. Выбор формата в первую очередь обуславливается задачами, стоящими перед цифровым архивом, но очень часто ограничивается техническими возможностями предприятия или компании.

Данные в электронной библиотеке хранятся в основном в виде текста и изображений.

Наиболее распространенные текстовые форматы – TXT, HTML, в последнее время получают все более широкое распространение форматы PDF и XML. Все перечисленные форматы имеют возможность для пакетной обработки документов: записи и редактирования последовательности большого количества файлов.

При таких плюсах, как простота и удобочитаемость, главным недостатком TXT является невозможность изменять внешний вид документа (шрифты, вставка таблиц, картинок и т.д.). Эти возможности предоставляют форматы XML, HTML и PDF и позволяют дополнительно вставлять в документы гиперссылки, мультимедиа, и т.д. PDF-формат, помимо прочих положительных характеристик, позволяет сохранять исходный вид документа. Однако на данном этапе большим минусом этого формата являются “размытые” шрифты, и, как следствие, неудобство восприятия документов периферическим зрением. Главным недостатком HTML является трудоемкость процесса создания и редактирования документов. Формат XML дает возможность обработки данных новыми способами: после преобразования информации в этот формат, она становится доступной другим приложениям либо напрямую, если они поддерживают синтаксический анализатор XML, либо путем преобразования в формат, понятный программе.

Изображения обычно хранятся в формате TIF (TIFF), GIF, JPEG и PDF.

Данные форматы являются картинками, без возможности их редактирования (в режиме просмотра). Все форматы подвергаются пакетной обработке, а также оптимизации с целью компрессии (с различными коэффициентами сжатия). Multi-TIF и PDF позволяют создавать многостраничные документы. Неоспоримыми достоинствами формата GIF являются поддержка сжатия без ущерба качеству изображения, анимация и прозрачность цвета, однако палитра GIF ограничена 256 цветами. При полноцветных изображениях предпочтение следует отдать формату JPEG. TIF позволяет создавать изображения высокого качества, однако размеры изображений бывают достаточно большими, особенно по сравнению с JPEG и GIF.

В процессе деятельности компании “Гарант” возникла необходимость в более эффективном и оперативном обслуживании юристов, а также возможности пользования архивом фирмы без помощи библиотекаря, поэтому было решено перевести в электронный вид весь имеющийся массив документов. Документы планируется перевести в электронные графические образы (изображения) без распознавания текста, часть документов (около 30%) в ходе дальнейших работ планируется распознавать.

Архив состоит из документации по юридической тематике и смежным областям знаний. Общее количество документов – около 5 млн. страниц. В состав документов входят периодические издания, книги, нормативно-техническая документация, непубликуемые и неопубликованные документы. Часть архива (около 50%) представляет собой листы формата А4, 50% – книги (различных форматов), газеты, журналы. Полноцветные документы отсутствуют: весь массив документов в черно-белой палитре. База графических образов будет подключена к системе “Архивариус”, которая представляет собой программу для внутренней обработки юридической документации, впоследствии включаемой в справочную правовую систему “Гарант”. Документы, обрабатываемые с помощью “Архивариуса” получают набор атрибутов, по которым впоследствии можно проводить поиск (например, тип документа, номер документа, исходящий орган, дата регистрации в Минюсте и т.д.).Электронные образы также будут снабжаться набором атрибутов, который, по вполне понятным причинам, исключает контекстный поиск. Выбор графических файлов в качестве основы базы данных объясняется задачами, стоящими перед электронным архивом и нуждами его пользователей-профессиональных юристов.

В соответствии с поставленными задачами необходимо выбрать наиболее оптимальный формат для хранения электронных образов документов в базе данных. Основное требование к формату графического файла: высокое качество изображения и возможность создания многостраничных документов. В процессе изучения графических форматов выбор предлагалось сделать между форматами TIF и PDF. В связи с техническими особенностями программы “Архивариус”, к которой будет подключаться база данных, наиболее подходящим был признан формат Multi-TIF.Таким образом, база данных будет состоять из файлов платформонезависимого формата, т.е. поддерживаемого практически всеми программами на PC и Mac. Выбранный формат позволяет проводить пакетную обработку изображений, а компрессия уменьшает конечный размер электронного образа без потери качества.

Hosted by uCoz