Харченко Л.Т., Климова Е.В.

ОПТИМИЗАЦИЯ СТРАТЕГИИ ПОИСКА В БАЗЕ ДАННЫХ "АГРОС"

"Агрос" - библиографическая, аннотированная и реферативная документальная база данных (БД) объемом свыше 1,3 млн. документов. Тематический охват "Агрос" - сельское хозяйство, экономика и организация АПК, охота и охотничье хозяйство, лесное хозяйство, рыбное хозяйство, аквакультура, охрана окружающей среды, пищевая и перерабатывающая промышленность, домоводство и другие смежные науки и отрасли.

Документом БД является описание источника информации - монографии, автореферата диссертации, патентного документа, статьи из журнала или сборника, материалов конференции и др. Документ БД "Агрос" имеет вид библиографической записи, которая состоит из библиографического описания (БО), реферата (ими снабжены около 20% документов) и поискового образа документа.

Поиск в БД "Агрос" осуществляется средствами информационно-поисковой системы (ИПС) "Артефакт" - продукта, разработанного компанией Integrum. ИПС "Артефакт" осуществляет поиск документов, написанных на естественном языке и включающих в свою структуру описание его основного содержания средствами ИПЯ - рубрикаторов и тезауруса. Алгоритм поиска реализует все поисковые возможности, предоставляемые структурированием текста, и учитывает порядок следования слов в пределах предложения. Кроме того, проводится сложный морфологический анализ, что позволяет находить документы по терминам, имеющим одинаковый корень со словом запроса, и по терминам, введенным с опечатками.

Поисковые возможности ИПС позволяют формулировать сложные запросы из слов и словосочетаний. Используя разные операторы, можно задавать условия вхождения терминов в различные фрагменты документа - поля, отдельные предложения, учитывать при этом расстояние между словами, порядок следования слов и т.п.

Поиск нужной информации можно проводить по элементам БО (автор, название источника, шифр хранения и др.), по терминам текста (заглавие источника, реферат, аннотация), по терминам, кодам и индексам ИПЯ, а также по комбинации, логическому сочетанию поисковых признаков документа.

Поиск информации в БД - это процесс решения поисковой задачи, состоящей из нескольких этапов и шагов. Для успешного решения ее пользователь, в идеале, должен быть знаком с языком запросов конкретной ИПС, обладать пониманием концептуальной схемы предметной области, знать структуру документа БД, особенности использованных при обработке документов ИПЯ и, конечно, обладать навыками работы с компьютером. Выбор стратегии поиска определяется в основном субъективными наклонностями пользователя (тип мышления, творческие способности и др.) и целями поиска. Например, поиск с целью предварительного знакомства с проблемой и поиск с целью тщательного изучения проблемы с учетом различных ограничений (автор, география, язык, вид источника и др.) требует разного подхода к составлению поискового предписания запроса и программы поиска. Решение некоторых проблем может быть упрощено с помощью интерфейса пользователя.

Интерфейс, разработанный для пользователя БД "Агрос" - это совокупность правил, методических указаний, примеров, корректирующих подсказок, программных и аппаратных средств. Интерфейс должен быть понятным, эргономичным, позволять достаточно просто изменять сценарий поиска, оперативно получать справочную информацию и в целом обеспечивать пользователю возможность самостоятельно, без помощи профессионала-посредника, осуществлять поиск. Учитывая заведомо неодинаковую подготовленность пользователей к работе с ИПС, разные информационные потребности и цели поиска, созданы визуально различающиеся варианты интерфейса - формы, предназначенные для составления запросов разной степени сложности. Для создания поисковых предписаний сравнительно простых запросов используется форма "Простой поиск", для сложных запросов, включающих информацию из нескольких полей - "Сложный поиск", для запросов, формулируемых в виде, определяемом исходной версией программных средств "Артефакта", - форма "Поиск по правилам "Артефакта".

В начале поиска пользователю предлагается отметить в открытом меню интересующие его виды источников и вид поиска. Сформулировав в полях выбранной формы поисковое предписание и задав команду "Искать", пользователь получит на экране статистику запроса - количество найденных документов, отсортированных по видам источников и дате ввода в БД. При просмотре выбранных групп документов (заглавия и поля документа с поисковыми терминами выделены цветом), пользователь может переходить по ссылкам к просмотру полного описания найденных документов, а при желании - заказать из хранения и получить первоисточники.

В форме "Простой поиск" только два поисковых поля: "Термины" и "Автор(ы)". Поле "Термины" включает все текстовые поля документа, в том числе коды рубрик и термины тезауруса. Поиск по этим полям, как правило, дает большое количество документов, многие из которых не будут соответствовать запросу. Проанализировав большую выборку документов, пользователь может или отобрать какое-то количество нужных и закончить поиск или, используя результаты анализа, более точно сформулировать запрос и провести его в этой же форме либо перейти к "Сложному поиску". Тематический поиск по полю "Термины" можно ограничить поиском документов определенного автора (поле "Автор(ы)"), или сразу осуществить поиск всех документов данного автора.

В форме "Сложный поиск" на экран выведен набор библиографических полей документа БД "Агрос", что создает большие комбинационные возможности при построении поисковых предписаний, например, при необходимости включения в запрос ограничений, например, поиска не только по автору, но и по языку, стране издания и другим элементам БО. Кроме того, поиск в полях "Рубрики ГРНТИ" и "Тезаурус" позволяет достигнуть более точных результатов, чем, например, по составному текстовому полю "Термины", так как именно в этих полях содержится информация, отражающая основное содержание документа.

Форма "Поиск по правилам "Артефакта"" предоставляет все возможности ИПС "Артефакт". Только в этом виде поиска можно дифференцированно и в любой комбинации использовать весь набор поисковых полей документа и все логические операторы. Поисковое предписание, записанное в любой другой форме интерфейса, преобразуется программными средствами в формулу, определяемую правилами "Артефакта" - она включает имена задействованных полей документа, необходимые разделители, парные скобки, логические операторы между полями как составными частями запроса и др. Анализируя формулу запроса, выведенную в этой форме, можно устранить формальные и логические ошибки в случае неудачного поиска.

Нами проведено исследование по выявлению факторов, влияющих на релевантность поиска в БД "Агрос". К ним относятся как особенности самой ИПС "Артефакт", так и качество индексирования, и уровень подготовки пользователя.

Поисковый образ документов БД "Агрос" создается средствами ИПЯ, которые позволяют кратко, точно и единообразного отразить содержание документов. В нашем случае это рубрики Отраслевого рубрикатора и термины Тезауруса по сельскому хозяйству и продовольствию. Их использование в запросах повышает результативность поиска.

Термины тезауруса (около 24 тыс.) - это частотная лексика, используемая в научной литературе, а также общезначимая лексика. Терминами тезауруса специалисты отражают (индексируют) основное содержание документа. Одной из функций тезауруса является использование установленных в нем иерархических связей между терминами для автоматического приписывания узким терминам их вышестоящих, более широких терминов. Это позволяет не перечислять в запросах, например, по зерновым культурам, все конкретные культуры. Благодаря присутствию в тезаурусе синонимичной связи между терминами, поиск возможен по любому известному термину-синониму. Сегодня наш пользователь имеет возможность просмотреть Тезаурус (в электронном виде), чтобы определить, какие слова естественного языка являются его терминами, а какие - нет. Представлены также два микротезауруса - по ветеринарии и по пищевой промышленности. Планируется разработка микротезаурусов по другим отраслям сельского хозяйства.

Основой рубрикатора БД "Агрос" являются рубрики Государственного рубрикатора научно-технической информации. Рубрикатор имеет глубину детализации рубрик до 5 уровней, что позволяет проводить поиск по запросам разной степени тематического охвата. Пользователь может провести поиск рубрик Рубрикатора ГАСНТИ по любым словам естественного языка, а затем использовать найденные индексы в качестве поискового предписания. Дополнительным удобством является автоматическое приписывание рубрикам ГАСНТИ соответствующих им индексов УДК.

Таким образом, стратегия поиска в БД "Агрос" зависит в основном от цели поиска и уровня подготовки пользователя, а удобный интерфейс и возможности ИПС "Артефакт" позволяют добиться максимального удовлетворения информационных потребностей читателей.

Hosted by uCoz