Абдуллаева Р.А.

АВТОМАТИЧЕСКИЙ ПОИСК В INTERNET

СРЕДСТВАМИ TEXT MINING

Интернет открывает новые возможности для решения ряда проблем библиотечного обслуживания, обусловленных кризисом. Эти решения во многих случаях связаны с информационным поиском документов. Однако более 80% используемых в сфере образования документов и материалов находятся в неструктурированной форме – тексты на естественном языке (ЕЯ), поиск и обработка которых средствами дескрипторного индексирования малоэффективна. Серьезным ограничением дескрипторной схемы поиска в Интернет оказались трудно преодолимые проблемы с полнотой и точностью информационного поиска. Новые возможности для решения этих проблем и повышения эффективности использования Интернет открывают интеллектуальные технологии, развиваемые в рамках направления Text Mining (обработка ЕЯ текстов, ориентированная на задачи on-line поиска в различного рода хранилищах (электронная почта, Интернет, электронный документооборот и т.д.).

Предлагается интеллектуальная система автоматического поиска ЕЯ-документов, в основе которой лежит концепция автоматической реконструкции понятий по текстам обсуждающих их ЕЯ-документов. Компьютерная реконструкция понятий текстов осуществляется по схеме: “контекст + лингвистическая трансформация + машинное обучение”.

Данный подход объединяет машинное обучение, основанное на дометрическом анализе примеров и контрпримеров, и традиционный лингвистический анализ (морфологический, синтаксический и семантический анализ, использование специальных словарей). Принципиальной особенностью предлагаемой схемы, отличающей ее от обычно используемых в лингвистическом анализе вариантов обработки текстов, является роль прагматического компонента: из всего множества семантических структур, релевантных каждому конкретному тексту, выделяются лишь те характеристические признаки, которые имеют отношение к цели анализа. При этом отношение релевантности текста и семантических структур само уточняется в ходе машинного обучения на прецедентах. Речь идет о порождении контекстно-синтагматического каркаса для каждого понятия, релевантного цели анализа. Ключевую роль в предлагаемом механизме компьютерной реконструкции понятий играют конкретные механизмы машинного обучения на примерах, используемых для тематической категоризации документов.

Все основные варианты технической формализации процедуры соотнесения текстов и тематических категорий (иерархическая/неиерархическая кластеризация, индуктивное обучение правилам, поиск аналогов) основаны на идее формализации и автоматического анализа сходства ЕЯ-документов, а также тематической классификации новых документов с учетом выделенных на этапе обучения “формальных носителей” этого свойства. Потенциальные возможности подхода иллюстрируются рядом экспериментальных результатов. Представлены три примера использования предложенного подхода в задачах интеллектуального текст- процессинга:

1) автоматическая тематическая классификация специальным образом индексированных русскоязычных текстов,

2) автоматическое индексирование и тематическая классификация полнотекстовых тюркоязычных документов,

3) построение тематической карты, характеризующей содержание некоторого массива ЕЯ-документов по прикладной семиотике.

Программная реализация экспериментальной версии системы осуществлена на базе интегральной инструментальной среды SAS System (комп. SAS Institute, США). Разработанный программный комплекс представляет собой масштабируемый прототип, обладающий свойством переносимости относительно вычислительной платформы (персональные ЭВМ, миди-ЭВМ, мэйнфреймы) и операционного окружения.

Формальное представление анализируемых ЕЯ-текстов в виде “вектора тем” порождалось с помощью пакета ORACLE ConText. Процедура классификации осуществлялась в режиме клиент/сервер. В процессе вычислений тексты с локальной ЭВМ Pentium-120/PCI копировались на сервер IBM PC Server. Далее для генерации “векторов тем” запускался ORACLE ConText, который сохранял результаты своей работы в базе данных ORACLE, после этого полученные векторы закачивались в таблицы SAS, хранящиеся там же на сервере, где проходил процесс классификации.

Данная техника создает базу для эффективного решения практических задач: ведения фондов монографических и периодических изданий и статей, межбиблиотечного обмена, оповещения о текущих поступлениях, поддержки базы данных заказов на литературу, формирования тематических подборок и т.д.

Hosted by uCoz