Пирумова Л.Н.

СОВМЕСТИМОСТЬ ЛИНГВИСТИЧЕСКИХ СРЕДСТВ ИПС ПО СЕЛЬСКОМУ ХОЗЯЙСТВУ: ПРОБЛЕМЫ И РЕШЕНИЯ
(На примере ЦНСХБ Россельхозакадемии)

Лингвистические средства обеспечивают информационный поиск в информационно-поисковых системах (ИПС), формируют и структурируют базы данных (БД), определяют их тематические границы. Как правило, в состав лингвистических средств входят несколько информационно-поисковых языков (ИПЯ), каждый из которых выполняет свою функцию в ИПС. Этим объясняется необходимость добиться их совместимости в ИПС, что позволит формировать информационные запросы на том ИПЯ, который предпочтителен пользователю. Сосуществование нескольких ИПЯ как способ достижения лингвистической совместимости давно и удачно используется в ЦНСХБ, которая, являясь по своим функциям и задачам не только головной библиотекой АПК, но и информационным центром, использует в качестве лингвистических средств несколько ИПЯ, обеспечивающих ее разнообразные задачи. Параллельное использование нескольких ИПЯ обеспечивает быстрый и разнообразный доступ потребителя к информации на одном из известных ему ИПЯ. На сегодняшний день большинство сельскохозяйственных библиотек используют как традиционные, так и автоматизированные формы поиска: карточные и электронные каталоги. В качестве лингвистических средств в них используют УДК и (или) ББК, которые пока не обеспечивают эффективный поиск в автоматизированном режиме и не могут считаться едиными универсальными лингвистическими средствами для всех ИПС. Для органов информации таким средством является Государственный рубрикатор научно-технической информации (ГРНТИ), который создавался специально для автоматизированного поиска. Библиотеки АПК в своей традиционной работе ГРНТИ не использовали, и не используют его пока и для автоматизированного поиска. Однако опыт ЦНСХБ показывает перспективность и полезность использования этого ИПЯ в библиотечных процессах. Для формирования и структурирования фонда, определения его тематического диапазона, формирования текущих библиографических и реферативных изданий, индексирования входного потока используется ГРНТИ, который разработан в части сельского хозяйства (раздел 68) до 5-го уровня (Отраслевой рубрикатор по сельскому хозяйству и продовольствию). С появлением Интернет особенно актуальным становится вопрос о совместимости средств лингвистического обеспечения. Пока немногочисленные электронные каталоги сельскохозяйственных библиотек, представленные в Интернет, используют в качестве лингвистического средства ключевые слова. Как правило, при создании поискового образа документа с помощью ключевых слов не используются единые правила их написания, поэтому тематический поиск по ключевым словам не всегда эффективен.

Одним из методов совместимости лингвистического обеспечения является метод конверсии, который обеспечивает совместимость несопряженных ИПЯ созданием таблиц соответствия, с помощью которых проводится автоматизированный перевод с одного ИПЯ на другой. Этот метод позволяет индексировать документы и вести тематический поиск сразу на нескольких ИПЯ. Удачным применением метода конверсии представляется сопряжение кодов ГРНТИ с индексами УДК, в этом случае классификационная таблица ГРНТИ, созданная ВИНИТИ, является таблицей соответствия, позволяющей индексировать на УДК и ГРНТИ.

ЦНСХБ, как методический центр библиотек АПК, продвигает концепцию совместимости лингвистического обеспечения библиотек АПК и использования в них одних и тех же ИПЯ. В целях продолжения решения проблемы совместимости в ЦНСХБ был использован метод конверсии и созданы таблицы соответствия Отраслевого Рубрикатора и УДК. УДК и Отраслевой Рубрикатор являются классификационными языками, что облегчило задачу разработки таблиц соответствия. Таким образом, два ИПЯ, существующие отдельно, в части АПК соединены в единую классификационную систему.

Для решения этой задачи было разработано специальное программное обеспечение. Основой таблицы является структура Отраслевого Рубрикатора, каждая рубрика которого в цифровом и словесном выражении сопровождается индексом УДК. В ходе работы были проанализированы рубрики Отраслевого Рубрикатора и выбраны соответствующие им индексы УДК. Создан текстовый файл, на основании которого индексы УДК автоматизированными средствами присоединяются к рубрикам ОР в его электронной версии.

Сложность работы заключалась в том, что Отраслевой Рубрикатор имеет более простую иерархическую схему, чем УДК. При выборе индексов УДК основной задачей было отыскание в ее системе семантических эквивалентов классам Отраслевого Рубрикатора. Сопоставление классов классификационных систем осуществлялось на понятийном уровне, при этом учитывался аспект рассмотрения понятия. Исходя из правил общей методики УДК, для отражения класса Отраслевого Рубрикатора индексом УДК в первую очередь использовался простой индекс. Текстовый файл Отраслевого Рубрикатора с индексами УДК был преобразован в его электронную версию, в которой возможны различные формы поиска.

Таблицы соответствия обеспечивают одновременное индексирование документа на обоих ИПЯ; переключение с одного ИПЯ на другой при поиске и выдаче информации на запросы, выраженные на любом из этих ИПЯ; включение документов с кодами Отраслевого Рубрикатора в системы, использующие УДК без повторного обращения к тексту документа. Создание таблиц соответствия позволяет решать проблему совместимости лингвистического обеспечения разных ИПС АПК.

Hosted by uCoz