Яшина Н.Г.

ПРОБЛЕМА ЛИНГВИСТИЧЕСКОГО ОБЕСПЕЧЕНИЯ
ИНФОРМАЦИОННОГО ПОИСКА
В ПОЛНОТЕКСТОВЫХ БАЗАХ ДАННЫХ

Перед информационными работниками стоит задача разработки оптимальных технологий информационного поиска и доступа к информационным ресурсам в электронной форме. Традиционные методы информационного поиска по ключевым словам часто не приводят к отбору релевантных документов. Причина этого кроется не только в сложности формирования небольшого по объему списка слов, адекватного поисковому образу. Недостаточно эффективно само использование в качестве критерия отбора информации просто наличия в ней определенных слов, включенных в поисковый образ. Проблематичен и альтернативный подход – априорная, не ориентированная на конкретного пользователя смысловая индексация текстов, среди которых выполняется поиск.

В работах, посвященных проблемам поиска информации в электронной среде большое внимание уделяется применению гипертекстовых и интеллектуальных технологий смыслового поиска, анализа и индексирования текстовой информации с использованием естественного языка, алгоритмов вычислительного синтеза смыслового образа текста, а также навигации в информационных массивах с помощью различных языков взаимодействия с системой. Нас же в первую очередь интересует практическая реализация современных технологий информационного поиска при работе с полнотекстовыми информационными ресурсами в электронной форме. Наиболее яркими примерами являются разработки в области юридических информационных систем.

Ориентироваться в информационных ресурсах профессиональных юридических систем “Кодекс” предприятия “Центр компьютерных разработок” позволяет группировка информационных разделов по содержанию в поисковые ветви. Например, любой раздел, содержащий документы по законодательству России, включен в ветвь “Законодательство РФ”. Поисковые ветви, в свою очередь, объединены в группы по видам правовой информации (например, “Законодательство” или “Нормативы и стандарты”).

При атрибутивном поиске документа в БД “Кодекс” используются такие лингвистические средства, как словарь словоформ и классификатор.

Начиная с версии 4.0 “Кодекса” важное значение отводится тематическому классификатору. По сути дела он превращен в толковый тематический словарь с комментариями к каждой из тематических рубрик. По своему устройству тематический классификатор является иерархической многоуровневой гипертекстовой системой. Узлами гипертекста являются наименования тематик. К каждой тематике предусмотрен комментарий, содержащий нужную для пользователя информацию по данной теме. Кроме того, к каждой тематической рубрике прилагается список документов по данной теме. При работе в системе тематический классификатор может быть представлен в двух видах: как гипертекстовая система и в виде единого линейного списка, выстроенного по алфавиту.

При интеллектуальном поиске также используется словарь словоформ, и список шумовых слов. Шумовые слова – это часто встречающиеся, не информативные слова. В целях уменьшения объема базы данных они не включаются в индексы, и контекстный поиск по ним невозможен.

В системе предусмотрены и другие справочники и словари. Раздел “Справочная информация” содержит более 300 материалов справочно-информационного характера. “Юридический словарь” содержит определения около 4000 известных юридической науке и законодательной практике терминов и выражений. В нем представлены все основные отрасли российского, международного и зарубежного права, а также теоретические и прикладные юридические дисциплины. Статьи словаря расположены в алфавитном порядке и содержат в необходимых случаях ссылки на конкретные нормативно-правовые акты. Раздел “Библиография: право и экономика” представляет собой электронную картотеку, содержащую библиографическое описание более 14 тыс. выпущенных в России изданий на темы права и экономики. В юридической справочной системе “Консультант плюс” основное средство для поиска документов в информационном банке – карточка реквизитов. Она представляет собой некоторое количество поименованных полей (реквизитов документа). Затем система просматривает все имеющиеся в информационном банке документы. Если содержимое всех заполненных полей из карточки реквизитов совпадает с реквизитами документа, то документ считается найденным и заносится в список. Сформированный список обладает следующим свойством – содержимое всех заполненных полей карточки реквизитов идентично соответствующим реквизитам каждого документа из списка. Каждое поле карточки реквизитов снабжено словарем. Словарь включает в себя все возможные способы заполнения выбранного поля и автоматически корректируется после каждого пополнения информационного банка новыми документами. Работа со словарями разных полей организована единым образом.

Существует два способа поиска по тексту документов: 1) поиск по словарю (нужные слова выбираются из словаря поля “Текст документа” и потом связываются логическими условиями); 2) сложный поиск по тексту (нужные слова набираются на клавиатуре и связываются логическими условиями).

Если документ связан с другими, то в справке приведены их названия в полях прямых и обратных ссылок с расшифровкой юридической взаимосвязи. Режим гипертекста обеспечивает мгновенный переход в любой документ из поля прямых или обратных ссылок. Для облегчения учета юридической взаимосвязи между документами в информационном банке введены понятия прямых и обратных ссылок. Прямые ссылки – это документы, на которые действует просматриваемый документ (респонденты документа). Обратные ссылки – это документы, которые действуют на просматриваемый (корреспонденты документа).

Как показал анализ, лингвистические средства информационного поиска в полнотекстовых базах данных функционируют в тесной взаимосвязи с текстами документов, составляющих информационный массив. Кроме того, следует отметить тенденцию сближения лингвистического и программного обеспечения в условиях этих информационных систем. В результате объединения информационных ресурсов системы, лингвистических средств и программного обеспечения формируется единое информационно-поисковое пространство. Таким образом, ориентация в крупных информационных массивах на персональном компьютере перестает казаться неразрешимой проблемой. Для ее решения необходимо, во-первых, разработать технологию структурирования информации (группировки информационных разделов); во-вторых, предоставить пользователю возможность атрибутивного поиска (по всем атрибутам характеристики документа) и смыслового (интеллектуального) поиска (с использованием тематического рубрикатора или тезауруса).

Hosted by uCoz