Пирумова Л.Н.
СОВЕРШЕНСТВОВАНИЕ
ЛИНГВИСТИЧЕСКОГО ОБЕСПЕЧЕНИЯ БД ЦНСХБ "АГРОС"
       Разработка и совершенствование лингвистического обеспечения БД ЦНСХБ имеют своей целью создание единого ИПЯ, исключающего дублирование индексирования при одноразовой аналитико-синтетической обработке информации и использовании классификационных и дескрипторного информационно-поисковых языков в качестве дополняющих друг друга.
        Классификационными языками БД ЦНСХБ являются отраслевой Рубрикатор (ГРНТИ), УДК, классификационная схема комплексно-системного каталога, а дескрипторным - тезаурус по сельскому хозяйству. Работа над совершенствованием отраслевого Рубрикатора продолжается постоянно. К примеру в 1996 г. она включала следующие этапы:
        - сопоставительный анализ части рубрик отраслевого рубрикатора и ГРНТИ с целью устранения многоаспектности, дублирования рубрик, унификации наименований, уточнения ссылочно-справочного аппарата, устранения ошибочных индексов;
        - редактирование наименований рубрик, примечаний и т.п.;
        - совершенствование структуры отраслевого Рубрикатора: устранение излишней дробности за счет 5-го уровня; устранение рубрик не имеющих достаточного наполнения (разделы 68.37 "Защи-та растений" , 68.85 "Механизация");
        - ввод новых рубрик, отражающих расширение тематического охвата БД;
        - замена некоторых рубрик отраслевого Рубрикатора рубриками ГРНТИ;
        - уточнение структуры, машинного формата, печатного формата и полиграфического оформления Рубрикатора совместно с ВНИИТЭИагропром.
        Таким образом, проводилась подготовительная работа по созданию новой версии печатной и машинной формы Рубрикатора.
        Разработана схема раздела отраслевого Рубрикатора "Пище-вая промышленность".
        Продолжается работа по сбору и обработке лексики для информационно-поискового тезауруса (ИПТ).
        В связи с принятым решением об использовании научных названий растений, микроорганизмов, несельскохозяйственных животных и т.п. на латинском языке, как делается во всех зарубежных БД, и в то же время с необходимостью сохранения для пользователя возможности поиска в ИПТ и в БД нужных понятий на русском языке в структуру словарной статьи лингвистической единицы введен новый элемент - синоним на русском языке (метка РУС). Этот синоним визуализируется в специальном поле при просмотре БД, в ПОДе которых есть дескриптор на латыни. (Работа выполнена совместно с ВНИИТЭИагропром).
        В настоящее время словарная статья дескриптора тезауруса включает:
        - лексическое примечание в круглых скобках;
        - ссылку <С> на аскриптор-синоним на русском или латинском языке;
        - аскрипторы-синонимы (на русском или латинском языке);
        - ссылку <РУС> на аскриптор-синоним на русском языке, который визуализируется при просмотре документов БД;
        - ссылку <О> на аскриптор-омоним - метку вышестоящего термина, в дереве которого располагается дескриптор <В> с цифрой ступени иерархии; 
        - вышестоящий термин (приводятся все вышестоящие термины в порядке возрастания иерархии);
        - метку нижестоящего термина <Н> с цифрой ступени иерархии (приводятся все нижестоящие термины в порядке уменьшения иерархии);
        - метку ассоциативного термина;
        - ассоциативный термин (приводятся все ассоциативные термины);
        - резервные поля.
        Отбор лексических единиц (ЛЕ) для ИПТ осуществляется специалистами в процессе индексирования документов. Предложения о включении отобранных ЛЕ (ключевых слов) осуществляются по разработанной в предыдущие годы (и отраженной в отчетах) технологии. ЛЕ поступают сначала в карточную картотеку и используются в статусе ключевых слов. После дополнительной обработки (согла-сования со специалистами, создания лингвистического обрамления, редактирования, построения статьи термина, сверки с машинным ИПТ), подготовки машинного ввода и корректировки связей ЛЕ вводится в ИПТ.
         До включения предложенных терминов в машинный ИПТ, с помощью которого осуществляется формально-логический контроль терминов в поле индексирования, ключевые слова выделяются в специальное поле и по ним также возможен поиск. После актуализации тезауруса и редактирования поля индексирования БД (1-2 раза в год) термины, отобранные для тезауруса, переходят в поле дескрипторов. Если термин введен в ИПТ в статусе синонима, то он в полях индексирования не присутствует, однако в запросах пользователь может использовать синонимы, так как они при поиске автоматически будут заменены на дескрипторы.
        Новые термины находят отражение в распечатке словника машинного ИПТ, который используется при индексировании. С ним продолжается работа по выявлению ошибок, замене выявленных синонимов с тем, чтобы затем скорректировать машинный ИПТ.
        В 1996 г. основная работа по построению словарных статей проводилась с терминами по растениеводству и биологии.
        Продолжается работа по совершенствованию структуры словарных статей и совместимости с тезаурусами AGRIS и CABI.
        Ведется подготовительная работа по созданию новой версии машинного ИПТ. В целях совершенствования индексирования документов проводится контрольное редактирование полей индексирования в БД. На основе изменений терминов для специалистов подготавливаются методические указания.
        Разрабатываются методические разработки по составу словарных статей отдельных понятий для принятия согласованных решений.
        В плане совершенствования УДК, как ИПЯ ЦНСХБ, продолжается работа над отраслевыми таблицами УДК по сельскому хозяйству. Ведется работа по вводу в таблицы новой терминологии, и отражению ее в Алфавитно-предметном указателе. Продолжается работа над Схемами классификаций комплексно-системного каталога, пересматриваются схемы разделов, вводятся новые рубрики подрубрики, ведется работа по отражению новой терминологии в алфавитно-предметном указателе комплексно-системного каталога.
        Поиск в БД "Агрос" может вестись по каждому из перечисленных ИПЯ, а также так называемым "ключевым словам", которые отражают основные темы документа. "Ключевые слова" включают новую терминологию, не отраженную в тезаурусе, поэтому ведется работа по унифицированию записи их в БД. Разработан список сокращений и аббревиатур, доступных в записи ключевых слов.
Hosted by uCoz