Подколзин В.В.


НЕКОТОРЫЕ ПАРАМЕТРЫ СИСТЕМ ПРЕДСТАВЛЕНИЯ И
ОБРАБОТКИ ТЕКСТОВОЙ ИНФОРМАЦИИ

Представление информации, заданной в виде произвольного текста, состоит из двух частей: собственно текста и реферата. Эти части формируют объекты информационной среды. Реферат представляет собой совокупность значений признаков или характеристик текстов. Такие характеристики выбираются из некоторого множества всех допустимых характеристик, которые возможны для текстов в заданной предметной области. Потенциальная неоднородность возможных рефератов текстов затрудняет применение традиционных средств работы с реляционными базами данных. Это связанно с неизбежной избыточностью и значительной фрагментированностью рефератов текстов, что усложняет процессы обработки и хранения информации. Кроме того, реферат любого текста обычно допускает возможность модификации вследствие появления новых потребностей представления или средств анализа текстов.

Естественный подход, позволяющий преодолеть указанные недостатки, связан с рассмотрением и анализом представления текстов как объектов системы экземпляров объектов в динамически конструируемой иерархии их классов и состояний. Кластеризация объектов осуществляется в форме структуры, основанной на вложенности множества признаков. Такая структура может иметь один или несколько максимальных элементов, соответствующих предельно общим рефератам объектов информационной системы. Объекты связываются с содержащими их классами ссылками на соответствующие элементы иерархии. При этом система обязательных полей реферата определяется как совокупность полей всех классов, лежащих выше по иерархии.

Структура классов развивается по мере появления новых объектов в системе. Сначала она пустая и автоматически развивается по мере появления объектов с новой структурой реферата или при изменении содержимого реферата имеющегося объекта. Допустимо одновременное изменение системы полей для объектов, удовлетворяющих произвольным логическим условиям, что связанно с изменением ссылок объектов на иерархию классов. С помощью механизма обратной индексации обеспечивается уменьшение избыточности хранимых значений.

Запросы представляют систему условий выборки, относящейся как рефератам, так и к текстам. Обработка запросов осуществляется через ссылки объектов на структуру классов и из классов на базы данных, содержащих фрагменты рефератов. При этом подключается лингвистическая база знаний, позволяющая унифицировать параметры запроса с конкретными значениями полей рефератов либо фрагментами текстов и ссылками в них. Такая база знаний содержит иерархию понятий, классов понятий, порядковые шкалы, словари синонимов и некоторые другие структуры. Объекты информационной системы имеют предопределенные жизненные циклы, описывающие условия их существования и взаимодействия с другими объектами. В частности, возможно предопределение продолжительности существования объекта, информации о регулярности просмотра и обновления объектов. Объект сам может управлять своим состоянием и обработкой в период нахождения в информационной системе.

Hosted by uCoz