Пименов Е.Н.

ФОРМАТ MARC И НЕКОТОРЫЕ РАЗЛИЧИЯ В ТЕХНОЛОГИЯХ
КРУПНЫХ И МАЛЫХ ДОКУМЕНТАЛЬНЫХ СИСТЕМ

Технологию документальных систем определяют многие факторы и условия работы. Особенно много различий имеется между технологиями крупных универсальных библиотечно-информационных систем (АБИС) и небольшими по объемам документального ввода, работающими с простыми научно-техническими текстами узкоспециализированными проблемно-ориентированными ИПС. Хорошего русского термина для данного класса систем, по-видимому, не имеется. Поэтому далее будем пользоваться сокращением SSDB ­ от английского более или менее соответствующего термина ”small scale date base". Наиболее существенным при разработке и эксплуатации рассматриваемых двух классов систем являются следующие особенности в их технологии:

  1. Общее назначение баз данных. SSDB предназначены в первую очередь для проведения тематических поисков информации преимущественно по ключевым словам (КС) и тезаурусу, по индексам рубрикаторов или для подготовки с использованием компьютера библиографических указателей (в некоторых SSDB). Поиски и получение текстовых файлов по другим полям документов, кроме полей КС и ”Внутрисистемная рубрика", в отличие от АБИС, проводятся редко. Эти различия в общей ориентации и назначении SSDB и АБИС во многом влияют на частные технологические решения.

  2. Состав обрабатываемых документов. В SSDB основная часть информации приходится на аналитические записи, а количество обрабатываемых книг чаще всего является весьма небольшим. Составление аналитических МАRС-описаний, как правило, проще, чем библиографическое описание книг, и это накладывает свой отпечаток на форматные особенности SSDB.

  3. Особенности комплектования БД. В АИБС информация обрабатывается или должна обрабатываться ”de visu". В SSDB очень часто работают со вторичными источниками информации в виде библиографических указателей, списков и карточек разного, иногда не высокого качества.

  4. Степень детальности, трудоемкость и качество библиографического описания. В условиях SSDB часто отсутствует простая физическая возможность составления библиографического описания произведений печати с той степенью полноты и качества, которая требуется для АБИС. Отсюда различия в технологии и форматах, используемых для ввода данных.

  5. Форматы и квалификация персонала. Крупные ИПС или библиотечно-информационные центры имеют или, по крайней мере, должны иметь возможность включать в свои штаты необходимое число специалистов высокой квалификации (программистов, операторов подготовки данных, каталогизаторов, систематизаторов, специалистов по индексированию и разработке тезаурусов). В малых системах ситуация иная. Здесь все работы по комплектованию, вводу, систематизации, подготовке данных, редактированию и распечатке оригинал-макетов библиографических указателей иногда выполняет один человек, причем предпочтение отдается специалистам в предметной области, а не библиографам или каталогизаторам.

К факторам, не влияющим на форматы или влияющим на них косвенным образом, относятся также следующие характеристики и параметры, отличающие SSBD от АБИС:

  1. ценность источников информации, доступность первоисточников. Так, в базе данных БАН по реставрации и консервации документов значительная часть информации является малодоступной для пользователей. Информация по данной тематике такова, что, с одной стороны, она чрезвычайно рассеяна и ”размыта" по крупным библиотекам, музеям, архивам и отчасти закрыта по соображениям секретности. С другой ­ зарубежные книжные публикации по этой тематике поступали и поступают в Россию в очень небольшом количестве и, скорее, случайно, чем систематически. Для каталогов, в том числе электронных, проблема доступности или ценности первоисточников является, видимо, не актуальной;

  2. время разработки системы. Для SSDB это время не должно превышать, по всей видимости, от нескольких месяцев до 2­5 лет. При больших сроках работы многие причины могут практически свести на нет все усилия и затраты по разработке БД. Быстрее всего, а именно за 1,5­2 месяца в БАН была сформирована ретроспективная (до середины 30-х гг.) подборка документов объемом около 1 тыс. единиц по одному из узких направлений физики твердого тела. На сколько-нибудь детальное изучение и освоение формата UNIMARC потребовалось бы большее время;

  3. ”время жизни" БД. Электронные каталоги, как и обычные каталоги, предназначены для использования в течение длительного времени. Срок службы SSDB в редких случаях превышает 10­15 лет. Отсюда разные требования к форматам, в библиотеках более жесткие;

  4. форматы и стоимость ввода. По литературным данным, средняя стоимость каталогизации одной книги в Библиотеке Конгресса США оценивается в 50 долл., а общие затраты на каталогизацию сравнимы с затратами на комплектование. В SSDB затраты на ввод информации должны быть заведомо много меньше;

  5. необходимость работы с редкими алфавитами и диакритикой. В локальных системах БАН диакритические знаки чаще всего игнорируются;

  6. наличие достаточно широкого круга пользователей, в том числе платежеспособных пользователей, если система работает на принципах самоокупаемости. В АБИС количество пользователей больше, чем в обычных документальных БД;

  7. использование ИПЯ, адекватного информационным потребностям пользователей;

  8. количество поисковых признаков в поисковых образах документов.

В 1993­1998 гг. в БАН разрабатывалось около 20 небольших SSDB разного типа и назначения. Они использовались преимущественно не для решения поисковых задач, а для компьютерной подготовки оригинал-макетов библиографических указателей. На стадии проектирования АС БАН предполагалось, что ЭК и локальные базы данных будут использовать одни и те же входные форматы, и это должно было обеспечивать двухсторонний обмен информацией.

В последующем обмен информацией между SSDB и ЭК стал видеться односторонним, а общая схема комплектования локальных систем приняла вид: (1) собственный ввод, (2) электронный каталог БАН => локальные SSDB, (3) информация из ВИНИТИ, РКП, ИНИОН и др. крупных центров производителей машиночитаемой информации => локальные SSDB, (4) другие документальные ИПС => SSDB. Эта возможность комплектования при помощи выгрузки из ЭК или из внешних источников информации на практике оказалась реальной тогда, когда экспорт данных осуществляется по какому-то общему признаку или индексу, имеющемуся в лингвистическом обеспечении БД ­ источнике выгружаемых записей. Таким образом с участием БАН была сформирована, например, БД по русской литературе ИРЛИ, имеющая 170 тыс. библиографических записей. Для выгрузки информации из внешних источников в интересах малых систем в российских библиотеках и центрах-генераторах машиночитаемой НТИ пока еще, видимо, нет ИПЯ, адекватного описанию информационного профиля узкоспециализированных документальных БД. Эта задача особенно усложняется, когда речь идет о БД, имеющих междисциплинарный характер, как, например, БД БАН ”Вредные вещества", ”Реставрация и консервация документов". В этих условиях выгрузка данных из каких-либо крупных внешних БД ставит больше проблем, чем дает какие-то видимые технологические преимущества. Что касается выгрузки информации из ЭК в SSDB, то вопрос, что является более технологичным ­ обработать в локальной БД 10­50 книг в год, чем с заведомыми и очень существенными потерями выгружать эти записи из ЭК, решается однозначно.

Вышесказанное можно рассматривать как экскурс в область исследования по типологии документальных систем. Название ”small scale date bases" достаточно часто используется в литературе, но оно не является термином с четко очерченным содержанием, хотя потребность в нем явственно ощущается. Возможно, что SSDB и АБИС представляют собой разные классы документальных систем по назначению и особенностям технологии. Для практической стороны разработки систем разного типа и назначения существенно, чтобы на малые базы данных не ”переносились" без соответствующей адаптации ”большие", более трудоемкие, технологии крупных ИПС.

Hosted by uCoz