Захарова А

Захарова А.В.

МЕТАДАННЫЕ – УНИВЕРСАЛЬНАЯ “КАРТА ДАННЫХ”

В СОВРЕМЕННОЙ ИНФОРМАЦИОННОЙ СРЕДЕ

Современные информационные технологии предоставляют нам большие возможности расширения знания и богатый материал для исследования. Непрерывный рост всемирной информационной сети характеризуется в первую очередь гигантским объемом информации. Это создает не только благоприятные условия для развития всех сфер общества, но и определенные трудности для пользователей. И в первую очередь – это поиск необходимой информации.

Современные поисковые системы, представленные в Интернет достигли хорошего технического уровня. Они обладают большими возможностями для поиска. Поисковые машины формируют информацию по индивидуальному запросу пользователя без предварительной подготовки – “на лету”. Тем не менее поисковые системы в настоящее время могут только “читать” документ, что при поиске необходимой информации не дает результата, приближающегося к стопроцентному. В связи с этим возникла тенденция перехода от документов, “читаемых компьютером”, к документам, “понимаемым компьютером”.

Эту задачу пытаются решить как специалисты в компьютерной области, так и гуманитарии. И те, и другие пришли к выводу, что решение этой проблемы лежит в создании информации о самой информации – “данных о данных”. Так возникла идея метаданных. Создание метаданных (информации, понимаемой компьютером) позволяет, в первую очередь, улучшить качество поиска, а также решит другую важную задачу – учет ресурсов Интернет.

Идея метаданных возникла в мире разработчиков СУБД и давно разрабатывается. Сегодня уже существует большое количество различных форматов, стандартов и языков метаданных. Наиболее распространены язык ЕХML (Extensible Markup Language) и метаязык RDF (Resource Description Framework). Одной из основных задач является создание стандарта описания электронных ресурсов. В связи с этим международной группой “The Dublin Core initiative” (http://purl.org/dc/) был разработан рекомендуемый набор из 15 элементов, или по-другому полей – “Dublin Core Metadata Elements” (DC). В настоящее время окончательно стандартизирован только набор полей DC, но ведется активная разработка подполей, что позволит улучшить качество описания ресурса и тем самым облегчит его поиск. Эти элементы можно условно разбить на три группы:

Content – элементы, относящиеся непосредственно к содержанию ресурса.
Intellectual Property – элементы, имеющие отношение к вопросам интеллектуальной собственности.
Instantaiation – элементы, характеризующие данный экземпляр ресурса.

Существуют реальные проекты внедряющие DC и формирующие свои ресурсы в соответствии с этим. В основном они реализуются за рубежом. Но и в нашей стране уже есть примеры создания и организации метаданных. Это, в первую очередь, проект РГБ (http://www.rsl.ru/dc/). Он призван создать систематический каталог российских ресурсов Интернет, конечной целью которого является создание базы данных описаний этих ресурсов. Проект открыт для всех желающих, предлагая готовую форму для создания метаданных собственного ресурса. Его участники убеждены, что “создание метаданных” должно стать “элементом культуры любого Web-мастера”. В рамках проекта OREL (Open Russian Electronic Library – http://orel.rsl.ru/), куда включены полные тексты художественных произведений, осуществляется подход, при котором содержание ресурса, недоступного по той или иной причине, перекачивается в базу данных. Второй подход требует значительных затрат, поэтому не используется повсеместно, но создает архив ресурсов – аналог Книжной палаты.

Другой пример создания метаданных в русской зоне Интернет демонстрируется в проекте информационной системы “Электронная библиотека НКО” (http://ngo.org.ru/ngoss/). Ее основная задача – обеспечить открытость для сбора и распространения информации в сообществе некоммерческих организаций. Каталог этого проекта, в отличие от вышеуказанного, уже представлен в Интернет и показывает, как реально действует система описания ресурсов на основе DC, несмотря на то, что имеет небольшое наполнение.

Итак, можно увидеть, что идея метаданных успешно реализуется в информационном сообществе. Этот процесс порождает как технические сложности, так и проблемы, знакомые специалистам-каталогизаторам. К числу первых относится вопрос размещения метаданных, которые могут быть встроены в сам ресурс или могут хранится и обновляться независимо от ресурсов, что считается более универсальным. Пример того – работа над вышеприведенными проектами. Ко вторым относятся вопросы, связанные с созданием стандартизированных тезаурусов метаданных непосредственно, а также разработки и внедрения аналогичного ISBN идентификационного номера для ресурсов Интернет – URN (Universal Resource Number) в дополнение к URL (Universal Resource Locator). Дальнейшее развитие этих процессов позволит вскоре создать программы-роботы, которые без участия человека смогут осуществлять поиск новых или измененных ресурсов, выбирать из них описания и размещать последние в соответствующем каталоге. Тем не менее не вызывает сомнения, что и это не отстранит человека полностью от участия в информационных процессах, хотя значительно их ускорит.