Афанасова Л.Н., Блюменау Д.И.
ИНДИКАТОРНЫЙ МЕТОД КОМПЬЮТЕРНОГО СВЕРТЫВАНИЯ КАК ИНСТРУМЕНТ 
ФОРМИРОВАНИЯ ВТОРИЧНОГО ПОТОКА

         Под вторичным потоком нами понимается весь спектр вторичных документов – библиографические описания, аннотации, рефераты, фрагменты, конспекты, обзоры и другие субъекты семантического свертывания, циркулирующие в сети социальных коммуникаций.
Предлагаемая работа развивает идеи, сформулированные коллективом разработчиков ЛГИК им. Н. К. Крупской (Ленинград) и ВНИИ Информэлектро (Москва), которые реализовывались им в течение 80-х – начале 90-х гг. и которые по известным причинам не получили в то время своей дальнейшей реализации.
        Основная задача работ, производимых на сегодняшнем этапе, – создание механизма формализованного (компьютерного) слежения за входным первичным потоком в его полнотекстовом варианте (независимо от источника его генерации, включая Интернет) с целью получения на выходе возможного спектра вторичных документов различного функционального назначения для формирования на их основе коллективных или индивидуальных баз данных.
В качестве такого инструмента формирования вторичного потока избран индикаторный метод компьютерного свертывания, основанный на функциональной идентификации и экстрагировании фраз первичного документа с помощью индексации их специальными словами, относящимися к неключевому пласту лексики, ? маркерами, индикаторами и коннекторами, образующими лексический аппарат данного способа свертывания в виде соответствующих словарей.
        В отличие от существующих методов автореферирования – статистических, позиционных и др. – индикаторный метод располагает возможностью функциональной индикации фраз первичного документа – его аспектного структурирования, что позволяет реализовать избирательный принцип свертывания – формировать на основе экстрагируемых по специализированным функциям выбора/синтеза различные виды вторичных документов.
Рассматриваемый метод компьютерного свертывания реализован в лабораторной работе по курсу “Информационный анализ/синтез” для студентов отделения “Информационные системы”, обучающихся по специальности 351400 “Прикладная информатика в социально-культурной сфере”.
        Материальное обеспечение каждого студента для выполнения лабораторной работы включает: компьютер, приложение Microsoft Word 2000, дискету, на которой записаны: полные тексты первичных документов, подлежащих автоматизированному свертыванию; сокращенные версии словарей маркеров и индикаторов; формулы выбора, ориентированные на несколько типовых разновидностей вторичных документов. Каждому студенту предоставляется методичка по выполнению операций свертывания.
Суть работы сводится к тому, что студент с помощью поисковых процедур на основе составленного им поискового предписания (ПП) производит цветовую разметку фраз выведенного на экран монитора первичного документа. Эта разметка при беглом просмотре ориентирует студента-референта в аспектной структуре документа и позволяет выделять фразы и фрагменты, релевантные задаче свертывания документа по конкретной формуле выбора. Выделенные фрагменты текста последовательно направляются в Копилку текстового процессора Word, откуда они затем выводятся на экран для формирования подготавливаемого вторичного документа. Если качество полученного документа не устраивает студента, он должен с помощью словарей модифицировать поисковое предписание и снова произвести процедуру экстрагирования.
        Референт в процессе свертывания документов в зависимости от стоящих перед ним задач может использовать как отдельные формулы выбора, так и всю их совокупность, однако не следует ожидать, что по каждой из примененной для экстрагирования формулы выбора будет получен удовлетворительный результат. Здесь в большей степени все зависит от характера, вида, размера и структуры документа. Большинство статей и не нуждаются в свертывании по всему комплексу формул выбора.
        Предложенная нами лабораторная работа, является лишь первой ступенькой в реализации идеи компьютерного свертывания, которая должна трансформироваться постепенно в серию лабораторных работ, направленных на получение более репрезентативных результатов. Это предполагается осуществить, прежде всего, за счет дальнейшего совершенствования лексического аппарата свертывания, использования для поиска минимальных релевантных фрагментов сложных условий поиска и макросов процессора Word, а также других систем, к примеру, Артефакт. Представляется рациональным также сочетание рассмотренного индикаторного метода с возможностями статистического метода, который может быть реализован на основе функции Автоматического создания автореферата документа в процессоре Word. В качестве первичного документального потока в электронной форме планируется широкое привлечение ресурсов Интернет.
Hosted by uCoz