Для имеющейся в БАН базы
данных по обеспечению сохранности документов (БД ОСД) создается дескрипторный
англо-русский словарь, или информационно-поисковый тезаурус (ИПТ), в котором
дескрипторы, т. е. словарные статьи ИПТ в соответствии с требованиями ГОСТ
7.25.80 представлены в следующем виде (алфавитного лексико-семантического
указателя):
CLEANINGc Clean Removing of stains Stains removing Очистка Чисткав
RESTORATION CHEMICAL CLEANING DRY CLEANING ENZYME CLEANING WET CLEANING
а DIRTSPOTSSTAINS
Связи между ключевыми словами
в тезаурусе обозначаются символами «с». Это синонимы, включая сюда, помимо
обычных синонимов, также эквивалентные или близкие по их основному значению
термины русского и английского языков; «в» – вышестоящие, родовые дескрипторы
по отношению к каким-либо более частным понятиям; «н» – нижестоящие, видовые,
подчиненные более общему термину ключевые слова; «а» - ассоциативные связи,
имеющие разное содержание, как БИБЛИОТЕКИ а. КНИГИ, COLORANTS a. PAINTINGS;
«см» – отсылки от синонимов к дескрипторам – «Очистка см. CLEANING».
В настоящее время – по состоянию
на декабрь 2000 г. – описываемый тезаурус имеет следующие количественные
характеристики: общее количество терминов – 4566, дескрипторов – 1499,
синонимов – 3067, однословных терминов (унитермов) – 3597, словосочетаний
– 969, нижестоящих дескрипторов – 967; вышестоящих понятий – 1005, ассоциативные
связи – 89. Количество уровней иерархии связей дескрипторов характеризуется
следующим образом: слова и словосочетания, у которых имеется только 1 уровень
соподчиненности терминов – 1021, 2 уровня иерархии связей – 858, 3 уровня
– 603, 4 уровня – 340, 5 уровней иерархии связей – 147, 6 уровней связей
– 83, 7 уровней – 38.
Тезаурус разработан как база данных в программной среде ППП CDS/ISIS
и выводится для дальнейшей его обработки в формате алфавитного лексико-семантического
указателя. Из данной формы специальной программой, написанной в БАН, выводятся
также такие возможные представления ИПТ: иерархический указатель дескрипторов,
ANY-классы (аналоги дескрипторов в ППП ISIS), словарь идентификации и замены
при автоматическом индексировании словосочетаний-синонимов на соответствующие
им дескрипторы, отсылки от синонимов к дескрипторам, отсылки от вышестоящих
к нижестоящим понятиям и от нижестоящих к вышестоящим дескрипторам, когда
в ИПТ эти связи отсутствуют. Программными средствами также ведется контроль
информации «на дубль» – неоднократный ввод терминов в ИПТ – и выводятся
статистические данные о составе тезауруса.
Дескрипторы часто определяют
как классы условной эквивалентности терминов, поскольку имеется поисковая
и обычная (общеязыковая) эквивалентность языковых единиц, и эти два вида
лексической равнозначности терминов в дескрипторных словарях могут не полностью
совпадать. Так, например, у лексических единиц, входящих в дескриптор «DERATISATION
c. Дератизация, н. MICE, RATS», содержание понятий «мыши» и «крысы» относятся
к семантическим категориям «живые организмы», «биологический фактор», а
понятие «дератизация» – к лексической категории «операции». Но поскольку
при проведении поиска информации различия в категориальном значении указанных
слов являются не очень существенными и более важным является их информационно-поисковая
эквивалентность, в тезаурусе по сохранности документов понятия «мыши» и
«крысы» являются нижестоящими по отношению к термину «deratisation».
Основным языком индексирования
и тезауруса в БД ОСД (и в некоторых других базах данных, имеющихся в БАН)
является английский язык. Такое решение обосновывается главным образом
прагматическими или общими технологическими установками разработчиков базы
данных, такими, как соображения простоты и удобства (технологичности) работы
с лексическим материалом системы, основу которого составляют английские
документы и ключевые слова. Ориентация на английский язык как на главный
рабочий язык базы данных имеет свои преимущества и недостатки, которые
заключаются в следующем. Так как в БД ОСД индексирование информации и перевод
поисковых образов документов с русского и на английский язык осуществляется
программными средствами, использование английских КС иногда усложняет,
но не в критической степени (а чаще всего упрощает) работу по индексированию
документов. Преимущество такой обработки заключается главным образом в
том, что при выдаче информации пользователям русские библиографические
записи выводятся вместе с английскими ключевыми словами, а именно в следующем
виде:
Влияние замораживания на
грибостойкость бумаги / З.А.Загуляева, А.А. Галушкин // Долговечность документа
- Л.: Наука, 1981. - C. 77-79. KEY WORDS: IMPACT; FREEZE DRYING;
FUNGIPROOFNESS; PAPER.
Новая длинноволокнистая реставрационная
бумага для дублирования документов / К.И. Андреева, Д.М. Фляте // Сохранность
документов: Сб. ст./ ЛКРД. - Л.: Наука, 1987. - C. 92-102. KEY WORDS: LONGFIBRED
PAPER; RESTORATION PAPER; BACKING; DOCUMENTS.
При указанном способе вывода
информации на просмотр и печать английские ключевые слова приобретают особое
назначение или роль, в какой-то степени эквивалентную подстрочному переводу
русских заглавий и аннотаций БЗ на английский язык, что обеспечивает доступ
к системе специалистам, не говорящим по-русски и не знакомым с российскими
публикациями по ОСД. Появляется, таким образом, перспектива избежать трудоемкой
работы по переводу русских заглавий и аннотаций на английский язык, расширяется
область использования имеющейся в БД информации (в том числе через сеть
Интернет) и может осуществляться обмен информацией с зарубежными базами
данных аналогичного или близкого профиля.
Основой недостаток использования
английского языка как рабочего языка базы данных больше всего проявляется
при обработке информационных запросов. В настоящее время при проведении
поисков в поисковых выражениях запросов можно использовать только английские
термины, представленные в ИПТ как дескрипторы, но не синонимы (русские
и английские ключевые слова), и это существенным образом затрудняет работу
с системой. Для устранения данного недостатка в последующем предполагается
разработка специального поискового интерфейса, с применением которого содержание
запросов можно будет описывать как английскими, так русскими терминами,
и не только дескрипторами, но и синонимами, и компьютер, с использованием
ИПТ базы данных, сформирует необходимые поисковые выражения (машинные представления)
запросов. |