Каширина Е.В., Соловьева И.Г.

О МНОГОЯЗЫКОВОЙ ПОДДЕРЖКЕ
БИБЛИОГРАФИЧЕСКИХ БАЗ ДАННЫХ

Проблема многоязычия является общей для любых каталогов, содержащих литературу на многих языках. Особенно актуальна эта проблема для многонациональной России, в частности, для Библиотеки Российской академии наук (БАН), фонды которой содержат литературу почти на всех языках мира, включая издания на китайском, японском и других языках.

Трудности создания многоязычных каталогов обусловлены двумя обстоятельствами: 1) существованием типов письменностей, принципиально отличающихся друг от друга (алфавитное письмо и иероглифическое); 2) многовариантностью кодирования символов одного и того же языка в компьютерных технологиях воспроизведения текста.

Графическое отличие иероглифических письменностей от алфавитных состоит в том, что знак иероглифического письма всегда сложнее алфавитных знаков, а число самих знаков достигает многих тысяч. В последнем словаре китайского языка их число достигает 50 тыс.

Алфавитное письмо обозначает фонемы или слоги, которые не имеют собственного значения. Иероглифическое письмо обозначает значимые лингвистические единицы – слова и морфемы. Иероглифическая письменность универсальна. Теоретически иероглифы могут быть использованы для письма на любом языке.

Знак иероглифической письменности может иметь любое количество чтений в соответствии с числом языков, которые пользуются этим письмом.

Возможность одновременного представления разноязычных текстов на экране компьютера определяется способом кодирования символов, представляющих различные языки. В памяти компьютера буквенные символы представлены целыми числами. Каждой букве соответствует свое число.

В 1968 г. появился один из первых стандартов в этой области – ASCII (American Standard Code for Information Interchange), назначивший коды для некоторых символов пунктуации, десятичных цифр, прописных и строчных букв английского алфавита. Но ни одно из расширений ASCII не может охватить знаки всех алфавитов, поскольку ни одна кодовая таблица ASCII просто не содержит все необходимые символы. Кроме того, однобайтовая кодовая таблица совершенно непригодна для представления таких языков, как китайский или японский, имеющих десятки тысяч знаков.

В 1991 г. принят новый международный стандарт кодирования Unicode (ISO-10646), разработанный Консорциумом Unicode для определения символов вне зависимости от национальной принадлежности. Этот стандарт использует двухбайтовое кодирование (в отличие от однобайтового в ASCII). Это позволяет определить 65536 разных символов, что оказывается достаточным для всех существующих языков, математических, служебных символов и других знаков. Первые 256 индексов полностью совместимы со стандартом ASCII.

Особенность Unicode состоит в том, что символы различаются по написанию, а не по языку. Следствия этой особенности следующие: каждый символ имеет только один уникальный код и не привязан к конкретному языку; трудно автоматически распознать, на каком языке написан текст; несколько тысяч китайских иероглифов, таких, как упрощенные иероглифы КНР, традиционные иероглифы Тайваня, китайские иероглифы Японии и китайские иероглифы Кореи объединены в один язык и слиты воедино, если отличия между ними незначительны.

Подавляющее большинство эксплуатируемых сегодня в Европе и Америке автоматизированных библиографических систем разработаны на основе однобайтовых кодовых таблиц и не поддерживают многоязыковые базы данных. В западных библиотеках вводятся в базы данных только транслитерированные названия на латинице. При этом единый стандарт транслитерации отсутствует, также как порядок разбивки текста на отдельные слова. Иероглифы, имеющие одинаковое произношение, приобретают одинаковое написание, что затрудняет последующий поиск.

Второй путь – сканировать обложки книг и “прикреплять” графические файлы к соответствующим транслитерированным записям. Этот метод требует специального оборудования и большого объема памяти для хранения отсканированного материала. Более существенным недостатком данного метода хранения библиографических данных является невозможность осуществлять поиск на оригинальном языке издания.

Третий путь, который стал возможным с появлением программного обеспечения, использующего Unicode, это вводить вместе с транслитерированными названиями непосредственно иероглифы. Но для этого необходима разработка систем автоматизированных каталогов, использующих современное программное обеспечение, совместимое с Unicode, а также специальные программы ввода иероглифов.

В странах Дальнего Востока созданы библиографические базы данных, содержащие миллионы записей, обширные авторитетные базы данных на основе достоверных и подробных источников. Эти базы данных созданы в форматах USMARC и UNIMARC и, следовательно, совместимы с базами данных российских библиотеках. Необходимо дальнейшее изучение богатого дальневосточного опыта и налаживание взаимовыгодного сотрудничества для возможного использования готовых стандартных библиографических записей при формировании многоязычных каталогов.

Hosted by uCoz