Пименов Е

Пименов Е.Н., Финогенова С.П.

ОПТИМИЗАЦИЯ ПОИСКА ИНФОРМАЦИИ

В БД ПО ЭВОЛЮЦИИ ОРГАНИЧЕСКОГО МИРА

Библиографическая база данных (БД) “Вопросы эволюции органического мира” ориентирована на научных сотрудников академических и других институтов биологического профиля. База данных содержит на настоящий момент около 21 тыс. документов (с ежегодным приростом в 2 тыс. записей) по эволюционной биологии, биофизике, биохимии, физиологии, генетике и молекулярной биологии. Система работает под управлением ППП CDS/ISIS.

Основными средствами поиска информации в БД являются тематический рубрикатор и ключевые слова. Рубрикатор системы содержит 121 деление с буквенно-цифровыми обозначениями и 4-мя степенями соподчинения рубрик, хорошо покрывающих рассматриваемую биологическую проблематику. Фрагмент рубрикатора БД:

2.2. Эволюционная морфология
2.2.в.02. Мышечная система
2.2.в.02.б/п. Беспозвоночные
2.2.в.02.поз. Позвоночные
2.2.в.03. Пищеварительная система

Поскольку для проведения некоторых поисков (с достаточной степенью их релевантности) одного рубрикатора недостаточно, документы еще индексируется ключевыми словами (КС). Средняя глубина индексирования в настоящее время оценивается в 5,3 термина на один документ. При индексировании информации используется 11016 КС, около половины которых приходится на латинские обозначения организмов, как, например, Vertebrata, Mollusca, Carassius auratus и др. Другие КС обозначают структуры, функции, процессы.

Для работы с данным объемным и разнородным по содержанию лексическим материалом вначале предполагалось использовать известный тезаурус MeSH (Medical Subect Headings. Vol.38. – Wash.: National library of medicine, 1997. – 1432 c.) как наиболее авторитетный поисковый словарь в области биологии. Анализ MeSH показал, однако, что, с одной стороны, он является слишком большим, излишне детализированным и поэтому неудобным в использовании в рассматриваемой БД небольшого объема. С другой – в нем представлено относительно мало понятий и терминов, отражающих собственно эволюционный аспект биологической проблематики. Поскольку “доработка” тезауруса MeSH являлась бы слишком сложной и заведомо невыполнимой задачей для небольшого штата сотрудников, разработка и оптимизация ее лингвистических средств осуществлялась на следующих двух основных положениях, имеющих компромиссный характер. Компромисс в данном случае состоит между известным (приемлемым для разработчиков) уровнем сложности лингвистических средств и технической эффективностью поисков, то есть их точностью и полнотой.

Было признано перспективным делать БД с “мягкой нормализацией” лексики. При указанном способе индексирования для контроля его результатов используются не словарные средства (или не только они), но правила нормализации КС, имеющиеся в ГОСТах на разработку тезаурусов. В обсуждаемой БД к числу таких правил, регламентирующих процесс индексирования, относятся, в частности, следующие. Наименования организмов – латинские. Исключение составляют названия организмов, широко распространенных в качестве модельных, использующихся в эксперименте, такие, как rats, cats, chickens, yeasts и др. Остальные слова индексируются по-английски. Обозначения структурных единиц употребляются во множественном числе (plasmids, bioglicans, blood cells, sequences и др.), процессов и функций – в единственном (selection, speciation, metabolism, competition и др.). Словосочетаниями индексируются понятия, принятые в таком виде в научной биологической литературе, например, origin of life, factors of evolution, phylogenetic trees и т.д. Другие словосочетания расчленяются на составляющие их элементы. Хотя приведенные выше правила нормализации КС (описана только часть этих правил) не равноценны использованию при индексировании семантически сильных тезаурусов, они все же существенным образом упорядочивают процесс индексирования и более или менее обеспечивают единообразие в этой работе.

Признано также целесообразным дать некоторым категориям лексических единиц (ЛЕ) более углубленную содержательную обработку, чем выше описанный уровень “мягкой нормализации” КС. Имеются в виду категории КС, которые чаще всего представлены в индексируемых документах и, предположительно, могут часто использоваться при проведении поисков информации. К числу таких категорий относятся прежде всего наименования систем органов, например, circulatory system, respiratory system, digestive system и т.д. Для этих понятий в системе разработаны специальные классы условной эквивалентности терминов (аналоги дескрипторных словарных статей), называемые в ISISе ANY-классами и имеющие следующий вид:

any circulatory system blood
any circulatory system blood serum
any circulatory system coronary arteries

В данных словарных статьях тезаурусные отношения синонимии, род, вид и ассоциативные связи сведены по сути дела к одному отношению ANY – любая связь между терминами. При проведении поиска информации, например, по запросу ANY CIRCULATORY SYSTEM в выдаче будут представлены документы, в которых имеются ключевые слова из правой части приведенного списка.

При описанной выше конфигурации лингвистических средств БД имеется 5 вариантов и способов проведения тематических поисков: по рубрикатору, по КС (в том числе по словам, программными средствами эксплицируемыми из тематических рубрик), по названиям ANY-классов; комбинированные поиски информации (например, комбинация индекса рубрикатора и ANY-класса в запросах такого типа, как 2.2.в.08.поз + any circulatory system) и контекстные поиски по свободному тексту. Представляется, что на какой-то период работы описанных лингвистических средств информационно-поисковых систем (ИПС) будет достаточно для ее более или менее эффективной промышленной эксплуатации. Перспективу развития системы мы видим в том, что описанной выше дескрипторизации КС будут в последующем подвергаться многие нужные для проведения поисков классы и категории ЛЕ. Иначе говоря, в ИПС будет иметься система автономных или взаимосвязанных микротезаурусов, создаваемых исходя из реальных и особенно массовых информационных потребностей пользователей.