Вершинин М.И., Вершинина Л.П.
|
|
Качество инвертированного файла как основы эффективного доступа к базам данных (БД) в формате CDS/ISIS, несомненно, играет важную, если не основную, роль. Каковы же основные факторы, влияющие на эффективность применения инвертированных файлов? Перечислим некоторые, наиболее важные из них. Представительность. Очевидно, что чем больше информации в инвертированном файле, тем он полезнее для поиска. Существенную роль также играет правильное структурирование и сегментация данных. Размер. Чем меньше размер, тем легче ориентироваться в словаре БД и тем быстрее идет поиск. Здесь имеет место конфликт с предыдущим фактором. Семантическая определенность. Повышается релевантность результатов поиска. Мультибазовость. Обеспечивается одновременный поиск в нескольких БД, что уменьшает время поиска. Гибкость. Возможность пополнения инвертированного файла при расширении связанных с ним БД без полной реорганизации. Каким же образом можно влиять на эти факторы? Самое очевидное решение для повышения представительности – полное инвертирование всех полей БД. Разумеется, это не выход. Остается другое – выбор информативных полей и подполей и их инвертирование. Но и после этого в инвертированном файле остается немало «мусора» – неинформативной лексики (НИЛ). Это не только так называемые стоп-слова, но и термины, не несущие информации в контексте той или иной базы данных. Так, например, термин «археологический» в контексте проблемно-ориентированной базе данных (ПОБД) по археологии не является информативным. Подобных примеров можно привести много. Таким образом, необходимо каким-либо образом «фильтровать» инвертированный файл при его создании. Аналогичные функции выполняет файл стоп-слов в ППП CDS/ISIS, но ограничения, накладываемые на его состав и размер, сужают возможности его применения. Следовательно, необходимо формировать специальный файл НИЛ без подобных ограничений. Его применение позволяет сократить объем инвертированного файла и повысить релевантность поиска. Устранить семантическую неопределенность можно, определив источник ее происхождения. Как правило, это совпадение терминов или аббревиатур из различных полей. Таким образом, разделение информации из различных полей позволяет во многом решить эту проблему. Использование индексов для разделения терминов, тем более в режиме ручного ввода, на наш взгляд, не является естественным решением. Анализ состава создаваемых ISIS’ом инвертированных файлом с помощью разработанных средств показал неэффективность использования дисковой памяти. Решение этих задач находится на пути использования другого формата инвертированного файла. При разработке программного комплекса создания электронного каталога БАН и организации доступа к нему был выбран именно этот путь. Задача решается в несколько этапов. Настройка (обязательный этап). На этом этапе следует связать локальные базы данных (ЛБД) в единую систему. Добавлять ссылки на ЛБД в список можно по мере перехода к новым БД. Загружая те или иные конфигурационные файлы, можно работать с разными сочетаниями ЛБД. Создание файла НИЛ (необязательный этап). На этом этапе пользователь на основе анализа частотного файла создает файл НИЛ, который в дальнейшем используется при отбраковывании лексических единиц (ЛЕ) в процессе создания инвертированного файла. В общем случае каждое поле может иметь свой файл НИЛ, но можно создать единый файл НИЛ для всех ЛБД и всех полей. На самом деле инвертирование может происходить и без файла НИЛ. Например, поля интеллектуальной ответственности, как правило, не содержат НИЛ. Как известно, в общем случае наименее информативны высокочастотные и низкочастотные термины. Ранжирование всех терминов в частотной таблице позволяет выделить неинформативные термины и таким образом создать в интерактивном режиме файл НИЛ для последующего использования. Уже на этапе формирования таблицы НИЛ ощутимо проявляется преимущество раздельного формирования инвертированных файлов по отдельным полям, так как можно для любого поля сформировать свою таблицу НИЛ и использовать ее при инвертировании данного поля. Учитывая то, что объем БД может быть весьма значителен, имеется возможность создания частотной таблицы на основе интервальной или случайной выборки из БД. Создав таблицу НИЛ и сохранив ее в обычном текстовом файле, можно переходить к основному этапу – созданию инвертированных файлов. Источниками формирования инвертированного файла являются выбранное поле ЛБД, файл НИЛ (не обязательно) и условия, накладываемые на процесс сегментации поля, совпадающие с условиями формирования соответствующих полю частотной таблицы и таблицы НИЛ. Помимо этого можно задать объединение подполей и префиксы для каждого подполя. В этом случае подполе рассматривается как одна ЛЕ. Например, можно объединить через пробел подполе фамилии и подполе инициалов, либо снабдить префиксом подполе. При этом одно и то же подполе можно отразить в инвертированном файле разными способами как с помощью префиксов и объединения, так и путем задания разных наборов разделителей. Одно и то же поле можно инвертировать несколько раз с разными условиями, при этом вся информация накапливается в одном и том же файле. Для придания большей гибкости процессу создания инвертированных файлов и улучшения качества инвертированных файлов в программе VerInvert присутствует возможность корректировки инвертированных файлов. В процессе корректировки можно удалить неактуальные ссылки и создать дополнительные термины с теми же ссылками или заменить термины, не меняя ссылок. Можно также создать новый термин и приписать ему ссылки нескольких других, что уменьшает объем инвертированного файла и облегчает работу с ним. В процессе корректировки можно одновременно просматривать поля или записи, на которые есть ссылки, что облегчает принятие правильного решения. Следующий этап – слияние инвертированных файлов ЛБД в единую систему общих инвертированных файлов. Слияние заключается в добавлении к общим инвертированным файлам инвертированных файлов ЛБД. Процесс автоматизирован, и пользователь должен только пометить в списке инвертированных файлов сливаемые файлы и запустить процесс слияния. Поиск в БД с использованием инвертированного файла такого формата обеспечивает поисковый интерфейс БАН – программа VerSearch. Программы VerInvert и VerSearch разработаны в среде Delphi 4, опробованы на БД, содержащих от 3 тыс. до 400 тыс. записей. Программы работают в среде Windows 9x с любыми БД в формате CDS/ISIS и требуют наличия только файла документов и таблицы определения полей. С целью дальнейшего повышения эффективности доступа к системе ЛБД с привлечением уже имеющейся методики автоматического индексирования разработана программа VerIndex. |