Шпаков А.А.

ТЕМАТИЗИРОВАНИЕ КАК ОДНА ИЗ ПЕРСПЕКТИВ
ОРГАНИЗАЦИИ ИНФОРМАЦИИ В БИБЛИОТЕКАХ XXI в.

Компьютеризация предметных и систематических каталогов библиотек заметно сузила возможности лексики информационно-поисковых языков (ИПЯ) и ухудшила таким образом обслуживание тематических  запросов из-за предметной, или унитермной организации баз тематических поисков (БТП) - полей ключевых слов, дескрипторов, кодов классификаций, форматов и т.п.

При унитермной организации БТП на одном носителе микро-, мини-, и персональных компьютеров практически можно сделать не более ста полей, названия которых являются лексикантами (единицами ИПЯ) реальных БТП и систем тематических поисков (СТП). При помощи стословного ИПЯ многотысячные миллионнословные массивы документов и многословные тематические запросы представляются в БТП в среднем тремя лексикантами каждый, причем часто неполно и искаженно. Информативные слова (названия объектов, явлений, законов, наук и т.д.) документов и запросов используются не все и заменяются лексикантами реального ИПЯ. При наличии в БТП трехсловных поисковых тематических описаний документов (ПТОД) поиск тематических подборок документов (ТПД) по четырехсловным и более поисковым предписаниям в автоматическом режиме (при помощи БТП) невозможен. На одно-, двух- и трехсловные предписания СТП обычно выдают то, что могут, но не всегда то, что нужно. В связи с этим поиск точных (релевантных) ТПД осущест-вляется визуально-ручным, прямым или свободным методом, в котором ЭВМ, в основном, только подают документы на экран. Это обусловлено низкой селективностью БТП.

Разработчики ПТОД не могут знать заранее, по каким именно информативным словам или их комбинациям источники могут потребоваться пользователям, что связано с принципом  неопределенности. Поэтому ПТОД должны включать все написанные в документе конкретные (см.: классификацию информации ветви УК СУБЪЕКТ на вкладке к сборнику) и подразумеваемые им информативные слова, что соответствует принципу тотальности кодирования. В среднем полное ПТОД содержит 100 кодов информативных слов. На базе стословного ПТОД источник сведений может быть найден гораздо точнее, чем  на основе трехсловного.

Реализация принципа тотальности кодирования и другие аспекты требуют универсальной основы ИПЯ, доменной организации БТП, когда каждое ПТОД является цельной записью, и просмотра всей БТП для получения полной ТПД. Кроме того, словные ПТОД должны быть трансформированы в кодовые ПТОД при помощи кодового универсального ИПЯ (УИПЯ), разработанного на базе Универсальной классификации (УК) (вкладка к сборнику). Однозначность лексикантов УИПЯ достигнута тем, что смыслы слов переданы шифрами.  Например, А - ключ для замка, Б - ключ шифрования, В - ключ воды и т.д. Бесшумность УИПЯ, ПТОД и поисковых предписаний, формулируемых из тематических запросов при помощи УИПЯ, позволяет получать максимально релевантные и полные ТПД с первого же поискового предписания, без чтения, диалогов, просмотра и интерактивных процедур, т.е. автоматически.

Отметим, что шифрование смыслов слов естественного языка в лексикантах автоматически решило проблему полисемии, омонимии и синонимии на этапе разработки УИПЯ. Отпала необходимость решать эту проблему при превращении запросов в предписания. Кроме того, необходимо принять во внимание, что УК вобрала в себя интеллект современной науки и сообщила его УИПЯ, ПТОД, БТП, предписаниям и ТПД. Таким образом новые СТП приобрели характер интеллектуальных систем.

Доменная организация БТП позволяет использовать неограниченные в размерах УК, УИПЯ, ПТОД, БТП и предписания. Число кодов в последних может достигать десятков, что позволяет путем изменения числа шифров в предписаниях регулировать объем и характер сведений в ТПД, так как между числом лексикантов в предписаниях и размером ТПД существует обратная зависимость: чем больше слов в предписании, тем меньше объем ТПД и больше доля источников сведений со специальной информацией, и наоборот.

Реальность УИПЯ достигается тем, что при тематизировании (образовании ПТОД) в УИПЯ отмечают, например, точками использованные лексиканты или ставится число, указывающее, сколько раз задействован лексикант. Реальность УИПЯ позволяет до поиска, после составления предписания, рассчитать вероятность получения ТПД: чем короче предписание и больше точек у лексикантов, вошедших в него, тем выше вероятность получить ТПД.

УИПЯ СТП "Биомед" для 15000 документов содержит 10000 лексикантов и может включить еще несколько миллионов классификантов (единицы классифицирования) будущей полной УК без усложнения простых алгоритмов тематизирования и поисков.

Конкретные слова ПТОД берут из документов, а абстрактные (подразумеваемые) - из того участка УК, который соответствует (релевантен) данному источнику сведений. Тематизирование объективный процесс, доступный каждому грамотному человеку. Созданные таким образом ПТОД, как правило, полидисциплинарны, так как релевантные участки УК включают десятки названий наук.

По сравнению с эмпирическими подходами новая технология увеличивает информативность (потенциальное число разных ТПД) СТП на много порядков, локальную полноту ТПД - в сотни раз, релевантность - в десятки.

Унифицирование ПТОД в сетевых СТП можно осуществить при помощи будущих полных УК и УИПЯ (проект программы "Информотрон"), которыми следует оснастить разработчиков, поисковиков и пользователей СТП и сетей. После реализации такого рода программы могло бы быть создано единое пространство тематизированной информации и преодолен информационный кризис, наносящий ежегодно ущерб на триллионы рублей.

Hosted by uCoz