Пирумова Л.Н. |
СОВЕРШЕНСТВОВАНИЕ
ЛИНГВИСТИЧЕСКОГО ОБЕСПЕЧЕНИЯ БД ЦНСХБ "АГРОС" |
Разработка и совершенствование лингвистического обеспечения БД ЦНСХБ имеют
своей целью создание единого ИПЯ, исключающего дублирование индексирования
при одноразовой аналитико-синтетической обработке информации и использовании
классификационных и дескрипторного информационно-поисковых языков в качестве
дополняющих друг друга.
Классификационными языками БД ЦНСХБ являются отраслевой Рубрикатор (ГРНТИ),
УДК, классификационная схема комплексно-системного каталога, а дескрипторным
- тезаурус по сельскому хозяйству. Работа над совершенствованием отраслевого
Рубрикатора продолжается постоянно. К примеру в 1996 г. она включала следующие
этапы:
- сопоставительный анализ части рубрик отраслевого рубрикатора и ГРНТИ
с целью устранения многоаспектности, дублирования рубрик, унификации наименований,
уточнения ссылочно-справочного аппарата, устранения ошибочных индексов;
- редактирование наименований рубрик, примечаний и т.п.;
- совершенствование структуры отраслевого Рубрикатора: устранение излишней
дробности за счет 5-го уровня; устранение рубрик не имеющих достаточного
наполнения (разделы 68.37 "Защи-та растений" , 68.85 "Механизация");
- ввод новых рубрик, отражающих расширение тематического охвата БД;
- замена некоторых рубрик отраслевого Рубрикатора рубриками ГРНТИ;
- уточнение структуры, машинного формата, печатного формата и полиграфического
оформления Рубрикатора совместно с ВНИИТЭИагропром.
Таким образом, проводилась подготовительная работа по созданию новой версии
печатной и машинной формы Рубрикатора.
Разработана схема раздела отраслевого Рубрикатора "Пище-вая промышленность".
Продолжается работа по сбору и обработке лексики для информационно-поискового
тезауруса (ИПТ).
В связи с принятым решением об использовании научных названий растений,
микроорганизмов, несельскохозяйственных животных и т.п. на латинском языке,
как делается во всех зарубежных БД, и в то же время с необходимостью сохранения
для пользователя возможности поиска в ИПТ и в БД нужных понятий на русском
языке в структуру словарной статьи лингвистической единицы введен новый
элемент - синоним на русском языке (метка РУС). Этот синоним визуализируется
в специальном поле при просмотре БД, в ПОДе которых есть дескриптор на
латыни. (Работа выполнена совместно с ВНИИТЭИагропром).
В настоящее время словарная статья дескриптора тезауруса включает:
- лексическое примечание в круглых скобках;
- ссылку <С> на аскриптор-синоним на русском или латинском языке;
- аскрипторы-синонимы (на русском или латинском языке);
- ссылку <РУС> на аскриптор-синоним на русском языке, который визуализируется
при просмотре документов БД;
- ссылку <О> на аскриптор-омоним - метку вышестоящего термина, в дереве
которого располагается дескриптор <В> с цифрой ступени иерархии;
- вышестоящий термин (приводятся все вышестоящие термины в порядке возрастания
иерархии);
- метку нижестоящего термина <Н> с цифрой ступени иерархии (приводятся
все нижестоящие термины в порядке уменьшения иерархии);
- метку ассоциативного термина;
- ассоциативный термин (приводятся все ассоциативные термины);
- резервные поля.
Отбор лексических единиц (ЛЕ) для ИПТ осуществляется специалистами в процессе
индексирования документов. Предложения о включении отобранных ЛЕ (ключевых
слов) осуществляются по разработанной в предыдущие годы (и отраженной в
отчетах) технологии. ЛЕ поступают сначала в карточную картотеку и используются
в статусе ключевых слов. После дополнительной обработки (согла-сования
со специалистами, создания лингвистического обрамления, редактирования,
построения статьи термина, сверки с машинным ИПТ), подготовки машинного
ввода и корректировки связей ЛЕ вводится в ИПТ.
До включения предложенных терминов в машинный ИПТ, с помощью которого осуществляется
формально-логический контроль терминов в поле индексирования, ключевые
слова выделяются в специальное поле и по ним также возможен поиск. После
актуализации тезауруса и редактирования поля индексирования БД (1-2 раза
в год) термины, отобранные для тезауруса, переходят в поле дескрипторов.
Если термин введен в ИПТ в статусе синонима, то он в полях индексирования
не присутствует, однако в запросах пользователь может использовать синонимы,
так как они при поиске автоматически будут заменены на дескрипторы.
Новые термины находят отражение в распечатке словника машинного ИПТ, который
используется при индексировании. С ним продолжается работа по выявлению
ошибок, замене выявленных синонимов с тем, чтобы затем скорректировать
машинный ИПТ.
В 1996 г. основная работа по построению словарных статей проводилась с
терминами по растениеводству и биологии.
Продолжается работа по совершенствованию структуры словарных статей и совместимости
с тезаурусами AGRIS и CABI.
Ведется подготовительная работа по созданию новой версии машинного ИПТ.
В целях совершенствования индексирования документов проводится контрольное
редактирование полей индексирования в БД. На основе изменений терминов
для специалистов подготавливаются методические указания.
Разрабатываются методические разработки по составу словарных статей отдельных
понятий для принятия согласованных решений.
В плане совершенствования УДК, как ИПЯ ЦНСХБ, продолжается работа над отраслевыми
таблицами УДК по сельскому хозяйству. Ведется работа по вводу в таблицы
новой терминологии, и отражению ее в Алфавитно-предметном указателе. Продолжается
работа над Схемами классификаций комплексно-системного каталога, пересматриваются
схемы разделов, вводятся новые рубрики подрубрики, ведется работа по отражению
новой терминологии в алфавитно-предметном указателе комплексно-системного
каталога.
Поиск в БД "Агрос" может вестись по каждому из перечисленных ИПЯ, а также
так называемым "ключевым словам", которые отражают основные темы документа.
"Ключевые слова" включают новую терминологию, не отраженную в тезаурусе,
поэтому ведется работа по унифицированию записи их в БД. Разработан список
сокращений и аббревиатур, доступных в записи ключевых слов.
|