Гиляревский Р.С.

СПРАВОЧНЫЕ ФУНКЦИИ

НАУЧНОЙ БИБЛИОТЕКИ В ИНТЕРНЕТ

Писать о работе в Интернет модно и даже кажется банальным. Но это не так, поскольку мы находимся лишь в самом начале эры перехода от слов, написанных на бумаге, к словам (звукам, изображениям, краскам), оцифрованным в компьютере, т.е. к данным, смысл которых понятен человеку. Интернет лишь надводная, видимая часть айсберга проблем, которые возникают в связи с новыми технологическими возможностями передачи данных в пространстве и во времени.

Библиотеки всегда были в центре процессов интеллектуальной коммуникации, все участники которой – авторы, издатели, распространители, библиотекари, информационные работники, читатели – бьются над разрешением возникших проблем и согласованием противоречивых интересов. Нам всем важно осознать, что новые технологические возможности меняют привычные функции общественных институтов в сфере знания, олицетворенном сакральным понятием книги.

В данном сообщении обсуждается лишь одна из многих таких возможностей – расширение справочных функций библиотеки за пределы объектов привычного библиотечного хранения. Научного работника и специалиста-практика интересуют не только сведения из книг и журналов. Да и сами они существуют в Интернет в сложной системе координат. Это электронные адреса и Web-страницы авторов, редакций и журналов, конференций и симпозиумов, библиотек и информационных центров и служб, их классификационные схемы и рубрикаторы информационных изданий. Система эта пока еще мало изучена, плохо упорядочена и многие ее элементы трудно доступны.

Мысль о том, что это именно система координат, в которой живет нынешнее знание, принадлежит доктору физико-математических наук В.Б. Борщеву и опубликована нами в совместной статье. Мы настаиваем на том, что роль проводника в Интернет должны взять на себя крупные информационные центры и научные библиотеки. Решение связанных с этой ролью трудных задач нуждается в поддержке государства и общества, поскольку это способствует созданию национальной информационной инфраструктуры.

Электронный адрес – это своеобразные координаты той информации, которая может понадобиться читателю библиотеки. Обратившись на сайт своей библиотеки читатель хотел бы рассчитывать получить эти адреса или возможные пути их разыскания. И теперь в хорошо поставленных справочно-библиографических бюро библиотек читателя стараются не отпустить без удовлетворительного ответа, но границы охвата мира знаний в Интернет значительно расширяются. По сути дела, сейчас вся или почти вся научная информация попадает в Интернет сразу же, как только она возникает. Проблема – для читателя – состоит в том, как до этой информации добраться. Суть этой проблемы и с появлением Интернет, конечно, не изменилась. Разница состоит в том, что теперь добираться до этой нужной ему информации читатель, как правило, предпочитает с помощью того же Интернет, используя в качестве основного поискового инструмента мышь своего компьютера.

Названные координаты образуют довольно сложную, пока еще плохо организованную и мало изученную систему. Для библиотек она начинается с системы собственных каталогов и картотек, постольку, поскольку они оцифрованы и доступны в Интернет. Следующие элементы – сводные каталоги, базы и банки данных многочисленных информационных центров, сайты всех перечисленных учреждений и организаций, справочный аппарат, позволяющий ориентироваться в этих непостоянных, быстро меняющихся Web-страницах, координатная сетка ключевых слов, дескрипторов, информационно-поисковых тезаурусов по самым разным областям знаний. Входят в эту систему координат и классификационные схемы, по которым организованы каталоги и фонды отечественных и зарубежных библиотек. Все эти координаты пока разрозненны, и поиск по каждой из них требует разных знаний и навыков не только от читателя, но и от библиотекаря. Да и далеко не все они имеются в библиотеках, которые имеют опыт, главным образом, в предоставлении сведений о книгах и журналах.

Содержательный поиск в Интернет существенно отличается не только от разыскания в библиотечных каталогах, но и от поиска в дескрипторных системах. Он осуществляется особыми системами, которые получили название машин для поиска (search engines). Объем баз данных, в которых ведется поиск, фактически необозрим. Понятно, что и число возникающих при поиске проблем возрастает пропорционально. Прежде всего, это проблема выбора системы доступа к ресурсам Интернет. Среди множества таких систем можно выделить Usenet, Gopher, FTP, WAIS, WWW.

Usenet не вполне оправданно называют системой телеконференций Интернет, хотя она практически выполняет функцию доставки новостей, т.е. обеспечивает группу подписчиков постоянно изменяющимся набором новых сообщений определенной тематики. Для проведения телеконференций в Интернет имеются другие системы. Пользователи системы ориентируются на близлежащий сервер, обычно на машину, на которой расположены информационные ресурсы соответствующей их интересу организации.

Gopher первоначально была создана как информационная система Миннесотского университета и потому была ориентирована на использование распределенной базы данных и недорогого оборудования и программного обеспечения. Ее файловая система имеет иерархическое строение, аналогичное применяемым в операционных системах MS DOS и UNIX. В ней доступны основные типы файлов: текстовые, программные, графические, гипертекстовые, звуковые, а также для электронной почты и некоторые другие.

FTP – система свободного доступа к бесплатно распространяемой информации (пресс-релизы, книги по различным отраслям знаний, компьютерные руководства и т.п.) и архивам программ. Доступ к программам подразделяется на коммерческий (protected – программы, распространяемые владельцами по соглашению с пользователями), ограниченного использования (shareware – на определенное время, без поддержки и сопровождения, без извлечения прибыли и т.п.) и свободный (freeware – распространяемое без регистрации и документации программное обеспечение). Так обычно распространяются бета-версии новых программ для тестирования, драйверы устройств известных фирм, конверторы и некоторые другие типы вспомогательных программ.

WAIS – информационно-поисковая система Интернет для распределенной базы данных. Ее поисковые возможности аналогичны механизму поиска в распространенных системах STAIRS, ISIS, применяемых для поиска документов в реферативных базах данных по ключевым словам. Программы-клиенты обращаются к серверам WAIS, которые соединены между собой, для поиска документов, релевантных запросам пользователей. Каждый запрос выполняется не в одной отдельной базе данных, а одновременно во всех базах данных взаимосвязанных серверов. Эта система широко используется во многих службах Интернет.

WWW (World Wide Web) – система, которая так или иначе вбирает в себя все остальные (инкапсулирует их ресурсы, говоря на специальном языке, превращая их в однородную гиперсреду). Она позволяет обращаться к файлам любого типа (от текстовых и программных до мультимедийных), устанавливая между ними связи путем гипертекстовых ссылок. После создания и усовершенствования ее прототипа в Европейском центре ядерных исследований (CERN, Швейцария) эта программная система произвела почти революционный переворот в Интернет. Ее интерфейс значительно упростил работу в сети и сделал все ресурсы Интернет вплоть до кинофильмов практически доступными для каждого ее пользователя. WWW имеет собственные системы или машины для поиска, которые по-существу являются информационными службами. К ним относятся Lycos, AltaVista, Yahoo, OpenText, InfoSeek и многие другие.

Lycos – относительно простая система, позволяющая работать по довольно сложным запросам, в качестве которых могут выступать предложения на естественном языке. Имеет средства нормализации значащих слов и удаления стоп-слов. Работает в диалоге с пользователем, сначала выдавая в ответ на запрос число релевантных запросу документов, оценку их близости запросу и число слов из запроса в каждом документе.

AltaVista – система с расширенным булевым поиском. Включает оператор NEAR, который обеспечивает контекстный поиск, при котором в запросе задается цепочка слов, которая должна встретиться в тексте искомого документа. Может быть также задано поле, в котором должно встретиться поисковое слово (текст, заголовок, ссылка и т.п.). Это существенно расширяет поисковые возможности системы по сравнению с другими, функционирующими в данной среде.

Yahoo – одна из первых и самых распространенных служб в Интернет, хотя ее синтаксис предельно прост, а возможности ограниченны. Слова запроса вводятся по одному через пробел и соединяются булевыми операторами “AND” или “OR”. Встретившиеся в найденном документе слова из запроса подчеркиваются, но степень близости документа запросу не оценивается. Нормализация лексики и удаление стоп-слов не производится. Выданные документы ранжируются по числу встретившихся в них слов из запроса.

OpenText – система, позволяющая вести поиск с использованием логических коннекторов и обычных трех булевых операторов. Запрос ограничен тремя терминами или предложениями. При выдаче результатов поиска оценивается степень соответствия документа запросу и сообщается его объем. Она широко рекламируется в Интернет.

InfoSeek – одна из самых развитых в сети поисковых систем. При введении терминов запроса позволяет их маркировать как долженствующие находиться в документе (+) или отсутствовать в нем (–), требовать совместной встречаемости слов запроса в документе, его параграфе или заголовке (в произвольном или указанном порядке). Возможно в качестве запроса вводить предложение, которое обрабатывается как последовательная цепочка терминов.

Эти и некоторые другие системы WWW имеют дружественный интерфейс в виде пользовательского меню (которое, правда, может ограничивать возможность добавлять в запрос новые термины и логические операторы). Запросы можно сохранять в системе и использовать в режиме избирательного распространения информации (ИРИ). Можно также сохранять результаты выдачи в виде списка идентификаторов документов и объединять их с результатами новых поисков с измененным запросом.

При очевидном разнообразии поисковых возможностей систем все они используют два или три булевых оператора. Кажущаяся простота их использования обманчива. Чтобы система выдавала не миллионы или десятки тысяч документов, а доступные восприятию пользователя 30–40, требуется сложный синтаксический или даже семантико-синтаксический анализ запроса. Этому нужно специально обучать читателей, да и большинство библиотекарей тоже. Анализ сводится к выявлению внутренних логико-синтаксических связей внутри запроса, которые с помощью нескольких правил можно однозначно эксплицировать в виде булевых операторов при построении формулы поиска. Сегодня пользователь может не ограничиваться средствами булевой логики, но применять весовые коэффициенты, координировать со-положение элементов, использовать так называемый “запрос на естественном языке” (Natural language query).

В нашу страну Интернет вторгся достаточно быстро и сильно, но практически все работают с одними и теми же системами. Это уже упоминавшиеся здесь: AltaVista, Yahoo, Infoseek, Webcrawler и Ау, Апорт, Рэмблер и Яндекс. Действительно, они широко распространены из-за удобства пользования ими, но ведь других систем наш читатель часто просто не знает. И не знает, чем они отличаются друг от друга, что лучше, а что хуже ищется в каждой конкретной системе. Что делать пользователю, который хочет узнавать все непосредственно со своего компьютера? Где брать новые адреса, сведения о новых сайтах? Перед любым пользователем, который хочет искать информацию в Интернет (будь то читатель или посредник-библиотекарь) встает задача выбора системы для своих целей. А ведь названные машины для поиска обрабатывают почти одни и те же документы в 50 миллионах сайтов.

Все это свидетельствует о том, что научные и другие специальные библиотеки должны расширять диапазон своей работы в Интернет, и, в частности, справочно-библиографической работы. Читателю ученому и специалисту библиотека может давать информацию не только из своих фондов, но и из фондов многих других библиотек, баз данных, с многомиллионных Web-страниц учреждений и организаций. Это потребует многих усилий и средств – приобретения оборудования, обучения персонала, непрерывного следования за быстрым прогрессом в области телекоммуникаций. Но это необходимо, потому что это одна из важных составляющих того, чем должна оставаться библиотека и в нынешнем новом веке – центром распространения знаний.

Hosted by uCoz