Пименов Е

Пименов Е.Н, Вершинин М.И., Левашова Л.Г., Захаров В.П.

ОСОБЕННОСТИ ИНДЕКСИРОВАНИЯ ИНФОРМАЦИИ

В ЛОКАЛЬНЫХ СИСТЕМАХ БАН:

АВТОМАТИЗИРОВАННОЕ ИНДЕКСИРОВАНИЕ ИНФОРМАЦИИ

Для индексирования информации в локальных документальных системах БАН обычно используют внутрисистемные тематические рубрикаторы, в остальном обычно осуществляется слабо нормированное или свободное индексирование документов. В системе по обеспечению сохранности документов (БД ОСД) разработано более совершенное лингвистическое обеспечение, в состав которого, в частности, входит разработанный в БАН информационно-поисковый тезаурус по консервации и реставрации (ИПТ) и программа автоматизированного индексирования информации (АИ). В этой работе описываются назначение и функции программы АИ и рассматривается наполнение словаря неинформативных лексических единиц (СНЛ).

В основу программы АИ был положен прагматический подход, суть которого в том, чтобы:

·освободить индексатора от рутинной работы по формированию поля КС на основе текста документа;

·выделять в документах информативную лексику, используя как формальный (частотные словари, словари местоимений, предлогов и др.), так и неформальный подходы;

·предоставить возможность ручного пополнения и редактирования словарей в режиме, удобном для пользователей;

·дать возможность индексации документов русскими ключевыми словами при работе с иноязычными текстами.

Реализация обозначенных выше задач включает такие этапы:

·создание частотного файла;

·формирование на основе частотного файла с использованием формальных критериев (длина, частотность лексических единиц /ЛЕ/ – слишком высокая или низкая) и неформальных (выбор индексатора) словарей дескрипторов и СНЛ;

·корректировка файла дескрипторов с вводом синонимов, объединением дескрипторов в гнезда и т.п.;

·собственно индексирование информации, включающее морфологический анализ, исключение неинформативных ЛЕ, нормализацию лексики и замену синонимов на дескрипторы.

Программа работает непосредственно с базами данных в формате ППП CDS/ISIS и, имея дружественный интерфейс, практически не требует специального обучения пользователей.

Процесс индексирования включает в себя, как известно, рассмотрение содержания документа (content analysis, subject analysis) и нормализацию лексических единиц. Программа АИ почти в полном объеме выполняет работу по нормализации ЛЕ и в значительной степени – через тезаурус – автоматизирует содержательную сторону индексирования. Так, операция определения в текстах наиболее важных при поиске (информативных) лексических единиц реализуется отбором значимой лексики через ИПТ и отсеиванием незначащей лексики с применением словаря СНЛ (в настоящее время насчитывающем около 2 тыс. ЛЕ), слова которого удаляются из поисковых образов документов, и таким образом в них остаются КС, имеющие ценность при поисках.

При “ручном” индексировании в БД ОСД используется обобщенная схема анализа документов, состоящая из 5 смысловых элементов (фасетов): предметов анализа информации – S (в этой функции в основном выступают слова, называющие материалы и вид документов); Attr – характеристик предметов, как “поврежденный”, “ветхий”, “влажный” и др.; P – аспектов, какими являются главным образом термины с обобщенным значением “процесс”, “операция”, “свойства”; Instr – названия методов, способов и технологий; Loc – локализаторов места и времени.

В словаре СНЛ выделяется 6 классов неинформативных ЛЕ. Пять классов сопоставимы с пятью выше указанными категориями лексики. (так, характеристики – это слова, как AUXILIAR$, IMPORTANT$, SIMULTANEOUS$, аспекты – ACCOMPLISH$, CHANG$, КОМПЕНС$ и т.д. Символом “$” обозначено правое усечение терминов). Шестым и наиболее крупным из классов неинформативных ЛЕ является собственно неинформативная лексика, распадающаяся на многие “мелкие” группировки ЛЕ без отчетливо выраженной содержательной характеристики позитивного свойства. Последняя категория ЛЕ определяется главным образом негативно – тем, что такие слова не “укладываются” в приведенную выше пятичленную абстрактную схему, на основе которой в БД ОСД ведется (и регламентируется) процесс индексирования информации. Данная лексика в словаре СНЛ представлена следующими разновидностями:

·артикли, предлоги, союзы, другая служебная лексика и близкие к ней единицы, как ALS, ALSO, ТАКЖЕ, ПРОТЯЖЕН$, СЛЕДСТВИ$ и т.п.;

·числительные, обозначения мер и размерностей;

·слова со значением разнообразных оценок и, в частности, модальных оценок того, о чем сообщается в документе (NEED$, POSSIBL$, FACT$, ВЕРОЯТН$, ГИПОТЕЗ$), оценки предметов и факторов как положительных, благоприятных (EXELENT$, GOOD$, AMIS, БОГАТ$, ДРУЖ$, СОКРОВИЩ$, ХОРОШ$), пейоративных оценок (ENEM$, $HEDACH$, ГОРЬК$, КАТОРГ$), оценки меры и степени качеств и свойств (GROSS, FEW, МЕНЕЕ, МЕНЬШ$ и т.п.), другие оценки, как SERIOUS$ и ЛЮБОПЫТН$;

·обозначения некоторых частей и характера документов, как EINFURHUNG$, FINAL$, CONCLUS$, CHAPT$ и другие;

Приведенные выше классификация НЛ полезна, как нам представляется, в первую очередь в повседневной работе по анализу и индексированию информации как в ручном, так и алгоритмическом режиме. При всем ее несовершенстве эта общая рубрикация НЛ является все же более предпочтительной, чем обычная практика определения НЛ по чисто интуитивным критериям и основаниям.