Пименов Е.Н., Левашова Л.Г., Ильин А.Н.
ТЕЗАУРУС ПО ПРОБЛЕМАМ СОХРАННОСТИ ДОКУМЕНТОВ: СПЕЦИФИКА ПОИСКА С ПРИМЕНЕНИЕМ ТЕЗАУРУСА

         Кроме лексико-семантического алфавитного указателя к ИПТ базы данных по обеспечению сохранности документов (обязательной формы его представления в соответствии с ГОСТ 7.25-80), в БД ОСД программными средствами формируется также иерархический указатель – факультативная, но во многом полезная форма его представления, когда речь идет о тезаурусах с семантически сложной, развернутой логической иерархией понятий. Данная форма выводится (для просмотра и распечатки тезауруса) в таком виде:

INSECT CONTROL 
 – ANTS 
– BEETLES 
–– CARPET BEETLES 
–– FURNITURE BEETLES 
–– POWDERPOST BEETLE 
–– SMIRNOV BEETLE 
– BOOKLICE 
– CLOTHES MOTHS 
– COCKROACHES 
– PHEROMONS 
– REPELLENTS 
– SILVERFISHES 
– TERMITES 
– WORMS 

Используя иерархический указатель, можно легко контролировать и редактировать родовидовые связи дескрипторов. При проведении поисков информации в поисковое выражение запроса включаются все ключевые слова, которые входят в дескриптор, являющийся темой запроса, кроме вышестоящих и ассоциативных понятий. Эти дескрипторы вводятся в поисковое предписание тогда, когда выдача информации небольшая, и в таких случаях может потребоваться расширение содержания запроса. 
        Специфика поиска информации по тезаурусу заключается также в том, что поисковые выражения запросов могут включать в себя комбинацию двух или более дескрипторов, раскрывающих тему запроса. Таково содержание логически сложных информационных запросов-ана-логов сложных предметных рубрик в каталогах и рубрикаторах информации, как, например: «Исследование (хранение, консервация, сушка, состав, свойства и др.) бумаги (длинноволокнистой бумаги, кожи, картона, печатных изданий, рукописей и др.) в Британской библиотеке (в национальных архивах, музеях, муниципальных библиотеках и др.; в России, Японии; СНГ, странах ЕС и т.д.)». Указанным выше путем, т. е. при помощи логической комбинации терминов могут быть образованы многие тысячи потенциальных информационных запросов к БД. Последним определяется преимущество (одно из имеющихся преимуществ) автоматизированного поиска информации с применением тезауруса по сравнению, например, с тематическим поиском по рубрикаторам, где количество индексов тематических рубрик, или потенциальных запросов, не может быть столь же большим, как в дескрипторных документальных системах.
        Самым крупным и семантически наиболее сложным дескриптором в ИПТ по сохранности документов является PRESERVATION (обеспечение сохранности) документов, включающий в настоящее время 308 понятий – нижестоящих дескрипторов. Вместе с русскими и английскими терминами, представленными в ИПТ как синонимы, это понятие выражается 927 ключевыми словами. В данном дескрипторе стандартизованы на уровне действующих ГОСТ только нижестоящие термины, в основном 2-го и 3-го уровня иерархии понятий, как, например, «консервация», которое в соответствии с ГОСТ 7.48-90 включает в себя понятия «реставрация», «стабилизация» и «условия хранения». На понятие «обеспечение сохранности» документов ГОСТа пока не имеется, и поэтому общую схему дескриптора PRESERVATION составители ИПТ разрабатывали самостоятельно и на основе фасетной (категориальной) классификации понятий и терминов, выбранных из 12 тыс. обработанных в БД документов. В результате такой обработки был получен дескриптор, где на первом уровне иерархии понятий представлены такие дескрипторы: PRESERVATION н. (ниже) ACCIDENT CONTROL (аварии и несчастные случаи), CONSERVATION (консервация), CRIME ENCROACHMENT CONTROL (преступные посягательства), DISASTER CONTROL (стихийные бедствия), FIRE CONTROL (пожары),  PRESERVA-TION EQUIPMENT (оборудование для хранилищ), SECURITY AND PROTECTION (охрана и системы защиты), WARFARE (военные действия). 
        Для дескрипторов этого уровня связей понятий были выбраны, где было возможно, словосочетания с категориальным значением «действия», «операции», «мероприятия», «процессы», т. е. формы с таким же широким категориальным процессным значением, как у дескриптора PRESERVATION. Синонимы этих дескрипторов, а также нижестоящие к ним 2-го, 3-го и т.д. уровня иерархии терминов, по правилам разработки тезауруса по ОСД, не обязательно должны быть словами процессной семантики, и значения таких единиц могут быть самыми разнообразными. 
        Особенность обсуждаемого нами понятия (дескриптора) заключается также в том, что само по себе, без сочетания с другими словами в поисковых выражениях запросов оно, вероятней всего, не будет использоваться. Поскольку БД ОСД в основном комплектуется информацией по проблемам сохранности документов, объем информации, выдаваемой при поиске по дескриптору PRESERVA-TION, является чрезмерно большим для работы с ней пользователей, и поэтому данные поиски могут потребоваться в основном для тестирования и «отладки» тезауруса, а не для обычной работы системы по информационному обслуживанию пользователей. Широта содержания понятия «обеспечение сохранности» документов имеет следствием то, что чем далее какой-либо термин отстоит от рассматриваемого в логической иерархии понятий, тем более он теряет с ним понятийную связь и в конечном итоге соотносится с ним лишь в порядке условной эквивалентности терминов. Так, дескриптор CHLO-RINE DIOXIDE прямо не связан с понятием «обеспечение сохранности». Связь между данными терминами устанавливается через 5 степеней логических связей понятий, а именно в следующей иерархии терминологических единиц: CHLORIDE DIOXIDE => BLEACHING AGENTS (отбеливающие вещества) => BLEACHING (отбеливание) => RESTORATION => CONSERVATION=> PRESERVATION. Аналогичная отдаленная связь с PRESERVATION имеется также у термина ENZYMES => ENZYME CLEANING => CLEANING => RESTORATION => CONSERVATION => PRESERVATION и многих других, содержание которых прямо не входит в концепт «обеспечение сохранности» документов. 
        Несмотря на отмеченную отдаленность или даже отчасти искусственность связей отдельных лексических единиц с PRESERVATION в БД ОСД, поиски по такому дескриптору (в сочетании с другими словами) чаще всего не дают «шумовой» информации, т. е. выдачи не отвечающих на запрос документов. Возможность информационного шума «снимает» лексический или информационный контекст, в котором понятие «обеспечение сохранности” входит в запросы или представлено в документах, обрабатываемых в БД ОСД.

Hosted by uCoz