Пименов Е.Н., Ильин А.Н.
НЕКОТОРЫЕ ОСОБЕННОСТИ РАЗРАБОТКИ ТЕЗАУРУСА ПО ПРОБЛЕМАМ 
СОХРАННОСТИ ДОКУМЕНТОВ

        Для имеющейся в БАН базы данных по обеспечению сохранности документов (БД ОСД) создается дескрипторный англо-русский словарь, или информационно-поисковый тезаурус (ИПТ), в котором дескрипторы, т. е. словарные статьи ИПТ в соответствии с требованиями ГОСТ 7.25.80 представлены в следующем виде (алфавитного лексико-семантического указателя):

CLEANINGc Clean Removing of stains Stains removing Очистка Чисткав RESTORATION  CHEMICAL CLEANING DRY CLEANING ENZYME CLEANING WET CLEANING а DIRTSPOTSSTAINS

        Связи между ключевыми словами в тезаурусе обозначаются символами «с». Это синонимы, включая сюда, помимо обычных синонимов, также эквивалентные или близкие по их основному значению термины русского и английского языков; «в» – вышестоящие, родовые дескрипторы по отношению к каким-либо более частным понятиям; «н» – нижестоящие, видовые, подчиненные более общему термину ключевые слова; «а» - ассоциативные связи, имеющие разное содержание, как БИБЛИОТЕКИ а. КНИГИ, COLORANTS a. PAINTINGS; «см» – отсылки от синонимов к дескрипторам – «Очистка см. CLEANING».
        В настоящее время – по состоянию на декабрь 2000 г. – описываемый тезаурус имеет следующие количественные характеристики: общее количество терминов – 4566, дескрипторов – 1499, синонимов – 3067, однословных терминов (унитермов) – 3597, словосочетаний – 969, нижестоящих дескрипторов – 967; вышестоящих понятий – 1005, ассоциативные связи – 89. Количество уровней иерархии связей дескрипторов характеризуется следующим образом: слова и словосочетания, у которых имеется только 1 уровень соподчиненности терминов – 1021, 2 уровня иерархии связей – 858, 3 уровня – 603, 4 уровня – 340, 5 уровней иерархии связей – 147, 6 уровней связей – 83, 7 уровней – 38.
Тезаурус разработан как база данных в программной среде ППП CDS/ISIS и выводится для дальнейшей его обработки в формате алфавитного лексико-семантического указателя. Из данной формы специальной программой, написанной в БАН, выводятся также такие возможные представления ИПТ: иерархический указатель дескрипторов, ANY-классы (аналоги дескрипторов в ППП ISIS), словарь идентификации и замены при автоматическом индексировании словосочетаний-синонимов на соответствующие им дескрипторы, отсылки от синонимов к дескрипторам, отсылки от вышестоящих к нижестоящим понятиям и от нижестоящих к вышестоящим дескрипторам, когда в ИПТ эти связи отсутствуют. Программными средствами также ведется контроль информации «на дубль» – неоднократный ввод терминов в ИПТ – и выводятся статистические данные о составе тезауруса.
        Дескрипторы часто определяют как классы условной эквивалентности терминов, поскольку имеется поисковая и обычная (общеязыковая) эквивалентность языковых единиц, и эти два вида лексической равнозначности терминов в дескрипторных словарях могут не полностью совпадать. Так, например, у лексических единиц, входящих в дескриптор «DERATISATION c. Дератизация, н. MICE, RATS», содержание понятий «мыши» и «крысы» относятся к семантическим категориям «живые организмы», «биологический фактор», а понятие «дератизация» – к лексической категории «операции». Но поскольку при проведении поиска информации различия в категориальном значении указанных слов являются не очень существенными и более важным является их информационно-поисковая эквивалентность, в тезаурусе по сохранности документов понятия «мыши» и «крысы» являются нижестоящими по отношению к термину «deratisation».
        Основным языком индексирования и тезауруса в БД ОСД (и в некоторых других базах данных, имеющихся в БАН) является английский язык. Такое решение обосновывается главным образом прагматическими или общими технологическими установками разработчиков базы данных, такими, как соображения простоты и удобства (технологичности) работы с лексическим материалом системы, основу которого составляют английские документы и ключевые слова. Ориентация на английский язык как на главный рабочий язык базы данных имеет свои преимущества и недостатки, которые заключаются в следующем. Так как в БД ОСД индексирование информации и перевод поисковых образов документов с русского и на английский язык осуществляется программными средствами, использование английских КС иногда усложняет, но не в критической степени (а чаще всего упрощает) работу по индексированию документов. Преимущество такой обработки заключается главным образом в том, что при выдаче информации пользователям русские библиографические записи выводятся вместе с английскими ключевыми словами, а именно в следующем виде:

        Влияние замораживания на грибостойкость бумаги / З.А.Загуляева, А.А. Галушкин // Долговечность документа - Л.: Наука, 1981. - C. 77-79. KEY WORDS:  IMPACT; FREEZE DRYING; FUNGIPROOFNESS; PAPER. 

        Новая длинноволокнистая реставрационная бумага для дублирования документов / К.И. Андреева, Д.М. Фляте // Сохранность документов: Сб. ст./ ЛКРД. - Л.: Наука, 1987. - C. 92-102. KEY WORDS: LONGFIBRED PAPER; RESTORATION PAPER; BACKING; DOCUMENTS. 

        При указанном способе вывода информации на просмотр и печать английские ключевые слова приобретают особое назначение или роль, в какой-то степени эквивалентную подстрочному переводу русских заглавий и аннотаций БЗ на английский язык, что обеспечивает доступ к системе специалистам, не говорящим по-русски и не знакомым с российскими публикациями по ОСД. Появляется, таким образом, перспектива избежать трудоемкой работы по переводу русских заглавий и аннотаций на английский язык, расширяется область использования имеющейся в БД информации (в том числе через сеть Интернет) и может осуществляться обмен информацией с зарубежными базами данных аналогичного или близкого профиля.
        Основой недостаток использования английского языка как рабочего языка базы данных больше всего проявляется при обработке информационных запросов. В настоящее время при проведении поисков в поисковых выражениях запросов можно использовать только английские термины, представленные в ИПТ как дескрипторы, но не синонимы (русские и английские ключевые слова), и это существенным образом затрудняет работу с системой. Для устранения данного недостатка в последующем предполагается разработка специального поискового интерфейса, с применением которого содержание запросов можно будет описывать как английскими, так русскими терминами, и не только дескрипторами, но и синонимами, и компьютер, с использованием ИПТ базы данных, сформирует необходимые поисковые выражения (машинные представления) запросов.

Hosted by uCoz