Пирумова Л.Н.

СРАВНИТЕЛЬНЫЙ АНАЛИЗ ЛИНГВИСТИЧЕСКОГО
ОБЕСПЕЧЕНИЯ БД «АГРОС» И БД CAB ABSTRAСTS

Работа по совершенствованию лингвистического обеспечения БД ЦНСХБ «Агрос» включает совместимость ее лингвистического обеспечения (ЛО) с зарубежными БД. Это даст возможность сделать поиск в БД «Агрос» более комфортным для зарубежных потребителей, повысит обращаемость к ней со стороны зарубежного пользователя. ЦНСХБ изучает ведущие зарубежные БД по сельскому хозяйству. В США - это AGRICOLA - БД Национальной сельскохозяйственной библиотеки США, в Европе - это БД CABInternational (Com-monwealth Agricultural Bureaux) Международного Бюро Сотрудничества по сельскому хозяйству, AGRIS - международная ИПС по сельскому хозяйству и продовольствию, управляемая ФАО. Вопрос совместимости ЛО БД считают важным все держатели баз данных и многие из них продвинулись в этой работе достаточно далеко.

В течение многих лет сотрудничают в этой области Национальная сельскохозяйственная библиотека США и CABInternational. Тезаурус, который издает CABInternational используется при индексировании и поиске в обеих базах данных.

AGRIS создал международный тезаурус по сельскому хозяйству на нескольких языках - AGROVOC, который используется во многих странах Европы, но русской версии в нем нет.

При разработке своего ЛО ЦНСХБ изучает ЛО зарубежных баз данных по сельскому хозяйству. ЛО CAB International составляют CABIcodes (Рубрикатор) и тезаурус. Рубрикатор включает около 280 рубрик и не используется при узкотематическом поиске. Он используется как потребителем для формирования крупных тематических запросов, так и сотрудниками, если нужно затребовать для работы какую-либо часть БД. Рубрикатор рассылается потребителям: заказы по его кодам одна из популярных форм обслуживания. Актуализация рубрикатора проводится раз в 3-4 года. Он не используется в процессе отбора документов в  БД CABabstracts, а только для анализа наполняемости БД по отдельным областям сельского хозяйства.

Тезаурус CABabstracts служит для формирования запроса и поиска в БД, а также формирования самой БД. По тезаурусу формируются поисковые предписания, индексируются документы для БД и изданий РЖ. Тезаурус включает 59577 терминов, из которых 49419 дескрипторов и 10158 недескрипторов. Новые термины появляются в процессе индексирования документов и существуют некоторое время на правах ключевых слов. В Тезаурусе каждый дескриптор имеет вышестоящие и нижестоящие понятия. Вышестоящее понятие приписывается автоматически к выбранному дескриптору. Используется принцип инверсии в сложных дескрипторах.

Статья имеет: BT - вышестоящий термин, NT - нижестоящий термин,
rt - ассоциации, HN - исторические заметки, AF - американская форма,
BF - английская форма.

В CABI существует группа контроля качества индексирования. Проверки осуществляются, как только документ поступил в БД. Контроль осуществляется на разных этапах технологического процесса создания поискового образа документа (ПОД). В БД существует формально-логический контроль написания терминов тезауруса.

ЛО ЦНСХБ включает классификационные информационно-поисковые языки (ИПЯ): рубрикатор ГРНТИ, УДК, рубрики комплексно-системного каталога (КСК) и дескрипторный ИПЯ- тезаурус. Каждый из них несет свою нагрузку в ИПС ЦНСХБ, в поиске информации. КСК обеспечивает поиск в карточном каталоге, который предоставляет глубокий ретроспективный поиск. УДК обеспечивает составление поискового предписания пользователями стран СНГ, не знакомых с Рубрикатором и тезаурусом ЦНСХБ. В CABI УДК не используют. Рубрикатор ГРНТИ обеспечивает формирование запроса по крупным блокам, хотя сегодня по нему можно вести и узкотематический поиск (в этом его отличие от CABIcodes). Рубрикатор определяет границы тематического охвата БД «Агрос». По нему можно делать запросы в любые БД СНГ. Постоянно ведется работа по его совершенствованию.

В тезаурусе БД «Агрос» как и тезаурусе CABabstracts дескриптор имеет вышестоящие и нижестоящие термины, ссылки и отсылки, метку ассоциативного дескриптора, а также аскрипторы-синонимы, метку омонима. Автоматически к выбранному дескриптору приписываются вышестоящие понятия. Отбор новой лексики проводится в процессе аналитико-синтетической обработки документов. Новые термины существуют в БД на правах ключевых слов и могут быть использованы при поиске. В БД осуществляется формально-логический контроль за правильностью написания терминов тезауруса.

Работа ЦНСХБ по совместимости ЛО БД «Агрос» с БД CABabstracts привела к пересмотру некоторых принципов отбора лексики, парадигматики тезауруса ЦНСХБ, и соответственно, методики индексирования. Следствием сближения тезаурусов является отбор и накопление у нас значительного массива латинских наименований и сходная структура части реализованных словарных статей.

Hosted by uCoz