Вершинин М.И.
ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ ПОИСКА В БИБЛИОГРАФИЧЕСКИХ БАЗАХ ДАННЫХ
Общепризнанна неизбежность ошибок в библиографических базах данных (ББД). В то же время внимание, уделяемое средствам поиска, учитывающим их наличие, явно недостаточно.
Традиционные методы поиска и исправления ошибок в ББД требуют наличия больших словарей, таблиц n-грамм, достаточной статистики ошибок и постоянного вмешательства оператора. Для решения проблемы поиска и коррекции ошибок, а также поиска с учетом наличия ошибок предлагается метод нечеткого сравнения строк, основанный на использовании аппарата теории нечетких множеств.
В задачах сравнения строк, поиска и коррекции ошибок нечеткость может быть формализована различными способами. Существуют следующие основные классификационные признаки способов формализации нечеткости: по виду представления нечеткой субъективной оценки какой-либо величины (нечеткого множества); по виду области значений функции принадлежности (ФП); по виду области определения ФП; по виду соответствия между областью определения и областью значений (однозначное, многозначное); по признаку однородности или неоднородности области значений ФП.
Возникающее при этом разнообразие видов нечетких множеств открывает широкие возможности их применения в задачах коррекции ошибок и сравнения строк.
Обзор различных способов формализации нечеткости показал, что в этом направлении развиваются два основных подхода. Первый базируется на обобщении понятия принадлежности элемента множеству, приводящему к размыванию границ множества, а в предельном случае к появлению объекта с неопределенными границами – полумножества. Второй подход предполагает описание нечеткости с помощью иерархии – семейства упорядоченных четких множеств.
Существует ряд методов построения ФП нечеткого множества по экспертным оценкам. Можно выделить две группы методов: прямые и косвенные методы. Прямые методы определяются тем, что эксперт непосредственно задает правила определения значений ФП. Примером прямых методов являются непосредственное задание ФП таблицей, формулой, примером. В косвенных методах значения ФП выбираются таким образом, чтобы удовлетворить заранее сформулированным условиям. Экспертная информация является только входной информацией для дальнейшей обработки. Дополнительные условия могут налагаться как на вид получаемой информации, так и на процедуру обработки.
Очевидно, что при построении ФП по экспертным оценкам мы рискуем допустить ошибки, которые существенным образом могут отразиться на решении, так как исходная неопределенность задачи, по существу, переходит в неопределенность, неоднозначность задания ФП. Именно субъективная природа ФП (независимо от их интерпретации) приводит к известному скептицизму и ставит под сомнение эффективность применения нечетких методов на практике.
Актуальной задачей является развитие различных методологических подходов к формализации нечетких понятий, которые позволят повысить надежность результатов распознавания ошибок.
Методы нечеткой логики позволяют работать в условиях недостатка статистических данных и сравнивать строки с учетом возможного наличия ошибок без коррекции строк и вмешательства оператора. В предлагаемом методе учитываются как характер возможных ошибок, так и их ранжирование по частоте появления и другим критериям. Он позволяет успешно находить ошибочные БЗ, которые в противном случае оставались бы недоступными.
Метод включает следующие этапы: формирование нечеткого образа символа; всякий символ представляется своей функцией принадлежности, при этом “размывание” происходит с учетом ошибок ввода или распознавания; формирование нечеткого образа символьной строки в виде матрицы.
Результат сравнения получаем в виде числа R (0£ R£ 1). Величину R сравниваем с двумя пороговыми значениями: r0 – нижним и R0 – верхним. Если R³ R0, то строки считаются совпадающими, если R£ r0, то несовпадающими, если r0<R<R0, то принятие решения требует дополнительной информации. Пороговые значения r0 и R0 определяются, исходя из особенностей конкретной БД, и корректируются по мере накопления статистики.
Подобный подход позволяет эффективно сравнивать строки с ошибками, например, поисковый образ документа и поисковый образ запроса, устанавливая их совпадение или несовпадение.