Пименов Е.Н.
ФОРМАТ MARC И НЕКОТОРЫЕ РАЗЛИЧИЯ В ТЕХНОЛОГИЯХ
КРУПНЫХ И МАЛЫХ ДОКУМЕНТАЛЬНЫХ СИСТЕМ
Технологию документальных систем определяют многие факторы и условия работы. Особенно много различий имеется между технологиями крупных универсальных библиотечно-информационных систем (АБИС) и небольшими по объемам документального ввода, работающими с простыми научно-техническими текстами узкоспециализированными проблемно-ориентированными ИПС. Хорошего русского термина для данного класса систем, по-видимому, не имеется. Поэтому далее будем пользоваться сокращением SSDB от английского более или менее соответствующего термина ”small scale date base". Наиболее существенным при разработке и эксплуатации рассматриваемых двух классов систем являются следующие особенности в их технологии:
Общее назначение баз данных. SSDB предназначены в первую очередь для проведения тематических поисков информации преимущественно по ключевым словам (КС) и тезаурусу, по индексам рубрикаторов или для подготовки с использованием компьютера библиографических указателей (в некоторых SSDB). Поиски и получение текстовых файлов по другим полям документов, кроме полей КС и ”Внутрисистемная рубрика", в отличие от АБИС, проводятся редко. Эти различия в общей ориентации и назначении SSDB и АБИС во многом влияют на частные технологические решения.
Состав обрабатываемых документов. В SSDB основная часть информации приходится на аналитические записи, а количество обрабатываемых книг чаще всего является весьма небольшим. Составление аналитических МАRС-описаний, как правило, проще, чем библиографическое описание книг, и это накладывает свой отпечаток на форматные особенности SSDB.
Особенности комплектования БД. В АИБС информация обрабатывается или должна обрабатываться ”de visu". В SSDB очень часто работают со вторичными источниками информации в виде библиографических указателей, списков и карточек разного, иногда не высокого качества.
Степень детальности, трудоемкость и качество библиографического описания. В условиях SSDB часто отсутствует простая физическая возможность составления библиографического описания произведений печати с той степенью полноты и качества, которая требуется для АБИС. Отсюда различия в технологии и форматах, используемых для ввода данных.
Форматы и квалификация персонала. Крупные ИПС или библиотечно-информационные центры имеют или, по крайней мере, должны иметь возможность включать в свои штаты необходимое число специалистов высокой квалификации (программистов, операторов подготовки данных, каталогизаторов, систематизаторов, специалистов по индексированию и разработке тезаурусов). В малых системах ситуация иная. Здесь все работы по комплектованию, вводу, систематизации, подготовке данных, редактированию и распечатке оригинал-макетов библиографических указателей иногда выполняет один человек, причем предпочтение отдается специалистам в предметной области, а не библиографам или каталогизаторам.
К факторам, не влияющим на форматы или влияющим на них косвенным образом, относятся также следующие характеристики и параметры, отличающие SSBD от АБИС:
ценность источников информации, доступность первоисточников. Так, в базе данных БАН по реставрации и консервации документов значительная часть информации является малодоступной для пользователей. Информация по данной тематике такова, что, с одной стороны, она чрезвычайно рассеяна и ”размыта" по крупным библиотекам, музеям, архивам и отчасти закрыта по соображениям секретности. С другой зарубежные книжные публикации по этой тематике поступали и поступают в Россию в очень небольшом количестве и, скорее, случайно, чем систематически. Для каталогов, в том числе электронных, проблема доступности или ценности первоисточников является, видимо, не актуальной;
время разработки системы. Для SSDB это время не должно превышать, по всей видимости, от нескольких месяцев до 25 лет. При больших сроках работы многие причины могут практически свести на нет все усилия и затраты по разработке БД. Быстрее всего, а именно за 1,52 месяца в БАН была сформирована ретроспективная (до середины 30-х гг.) подборка документов объемом около 1 тыс. единиц по одному из узких направлений физики твердого тела. На сколько-нибудь детальное изучение и освоение формата UNIMARC потребовалось бы большее время;
”время жизни" БД. Электронные каталоги, как и обычные каталоги, предназначены для использования в течение длительного времени. Срок службы SSDB в редких случаях превышает 1015 лет. Отсюда разные требования к форматам, в библиотеках более жесткие;
форматы и стоимость ввода. По литературным данным, средняя стоимость каталогизации одной книги в Библиотеке Конгресса США оценивается в 50 долл., а общие затраты на каталогизацию сравнимы с затратами на комплектование. В SSDB затраты на ввод информации должны быть заведомо много меньше;
необходимость работы с редкими алфавитами и диакритикой. В локальных системах БАН диакритические знаки чаще всего игнорируются;
наличие достаточно широкого круга пользователей, в том числе платежеспособных пользователей, если система работает на принципах самоокупаемости. В АБИС количество пользователей больше, чем в обычных документальных БД;
использование ИПЯ, адекватного информационным потребностям пользователей;
количество поисковых признаков в поисковых образах документов.
В 19931998 гг. в БАН разрабатывалось около 20 небольших SSDB разного типа и назначения. Они использовались преимущественно не для решения поисковых задач, а для компьютерной подготовки оригинал-макетов библиографических указателей. На стадии проектирования АС БАН предполагалось, что ЭК и локальные базы данных будут использовать одни и те же входные форматы, и это должно было обеспечивать двухсторонний обмен информацией.
В последующем обмен информацией между SSDB и ЭК стал видеться односторонним, а общая схема комплектования локальных систем приняла вид: (1) собственный ввод, (2) электронный каталог БАН => локальные SSDB, (3) информация из ВИНИТИ, РКП, ИНИОН и др. крупных центров производителей машиночитаемой информации => локальные SSDB, (4) другие документальные ИПС => SSDB. Эта возможность комплектования при помощи выгрузки из ЭК или из внешних источников информации на практике оказалась реальной тогда, когда экспорт данных осуществляется по какому-то общему признаку или индексу, имеющемуся в лингвистическом обеспечении БД источнике выгружаемых записей. Таким образом с участием БАН была сформирована, например, БД по русской литературе ИРЛИ, имеющая 170 тыс. библиографических записей. Для выгрузки информации из внешних источников в интересах малых систем в российских библиотеках и центрах-генераторах машиночитаемой НТИ пока еще, видимо, нет ИПЯ, адекватного описанию информационного профиля узкоспециализированных документальных БД. Эта задача особенно усложняется, когда речь идет о БД, имеющих междисциплинарный характер, как, например, БД БАН ”Вредные вещества", ”Реставрация и консервация документов". В этих условиях выгрузка данных из каких-либо крупных внешних БД ставит больше проблем, чем дает какие-то видимые технологические преимущества. Что касается выгрузки информации из ЭК в SSDB, то вопрос, что является более технологичным обработать в локальной БД 1050 книг в год, чем с заведомыми и очень существенными потерями выгружать эти записи из ЭК, решается однозначно.
Вышесказанное можно рассматривать как экскурс в область исследования по типологии документальных систем. Название ”small scale date bases" достаточно часто используется в литературе, но оно не является термином с четко очерченным содержанием, хотя потребность в нем явственно ощущается. Возможно, что SSDB и АБИС представляют собой разные классы документальных систем по назначению и особенностям технологии. Для практической стороны разработки систем разного типа и назначения существенно, чтобы на малые базы данных не ”переносились" без соответствующей адаптации ”большие", более трудоемкие, технологии крупных ИПС.