Кряжева М.Ф., Никифорова Н.В.

ИНФОРМАЦИОННЫЙ ПОИСК НА БАЗЕ ЭЛЕКТРОННЫХ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ

Любая информационно-поисковая система (ИПС) представляет собой информационный массив и совокупность методов проведения поиска в этом массиве. В рамках библиотечно-библиографической деятельности подобными системами являются, например, каталоги и картотеки, справочные и библиографические издания.

В настоящий момент все более активно используются электронные ИПС. Реализуемый на их основе информационный поиск обладает рядом специфических свойств, его осуществление подчинено определенным законам.

Электронные ИПС не могут стать качественным поисковым средством, если субъект поиска не владеет методикой и технологией выявления и отбора информации. Следовательно, в первоочередные задачи библиотек входит не только создание информационно-поисковых систем на электронных носителях и предоставление доступа к ним, но и обучение пользователей работе с данными системами. Хорошо подготовленный субъект поиска должен владеть и оперировать не только понятиями искомой предметной области, но и обладать навыками информационного поведения по отношению к источникам информации.

В целом же независимо от того, кем осуществляется информационный поиск - самим поисковым субъектом или информационным посредником, начинается он с уточнения информационного запроса, выраженного естественным языком (ЕЯ). По словам Э.Л. Шапиро, "смысл каждого слова - не точка, а поле, к тому же не имеющее четких границ". Слово многозначно и содержит не только основное значение, но и ряд смысловых оттенков, вторичных значений. В "смысловом ядре", общей семантической основе, отражаются необходимые и достаточные для идентификации признаки, "смысловая периферия" несет дополнительные характеристики, раскрывающиеся контекстами, моментами использования. Именно "периферия" обеспечивает гибкость, подвижность и изменчивость значений. С одной стороны, абсолютная однозначность и определенность каждого слова может привести к тому, что выраженное на этом языке знание застынет в статичном состоянии, превратится в "мертвенно-неподвижную глыбу". С другой, - приходится признать, что лишь вдумчивый семантический анализ запросов позволяет выбрать те понятия, которые действительно являются объектами поиска.

Если формулировка запроса есть осознание и определение информационной потребности, то его уточнение заключается в согласовании терминологии запроса и информационно-поискового языка (ИПЯ) данной ИПС. В электронных информационно-поисковых системах при тематическом поиске достаточно часто используется либо дескрипторный ИПЯ, либо ИПЯ ключевых слов (КС). Преобразование информационного запроса в его поисковый образ с помощью этих языков требует на семантическом уровне нормализации или дескрипторизации ключевых слов (приведения их к стандартизированной лексикографической форме).

На синтаксическом уровне может оказаться обязательным формирование синтагм с помощью логических операторов. Это действие называется координацией или булевой функцией. Остановимся подробнее на характеристике некоторых булевых операторов. К ним относятся логическое сложение (дизъюнкция) - оператор ИЛИ, логическое умножение (конъюнкция) - оператор И, логическое отрицание (импликация) - оператор НЕ или НО НЕ.

Применение каждого из операторов требует определенных поисковых знаний, отличных от знаний обыденных. Например, реализации функции И в обыденной жизни и логике формирования запросов различны. Если в информационном запросе на ЕЯ присутствует конъюнкция (союз "и" или его синонимы), то формирование идентичного поискового образа этого запроса возможно лишь с помощью дизъюнкции, т.е. каждая из конъюнктивно соединенных сущностей запроса в поисковом образе рассматривается отдельно. Сохранение оператора И может привести к тому, что область пересечения соединенных таким образом информационных массивов может оказаться пустой из-за несовместимости фактов или отсутствия в ИПС элементов, содержащих оба поисковых признака одновременно. Осторожности в использовании требует оператор НЕ, употреблять который можно лишь в случае полного взаимного отрицания выраженных словами понятий.

Синтаксические ошибки формулировки поисковых образов запросов (ПОЗ), так называемые "ложные координации" - достаточно частое явление. Оно ярко проявляется при поиске информации в Интернете с помощью поисковых систем типа отечественных Яndex, Rambler и др. В электронных документах в глобальной компьютерной сети введено пословное индексирование. Следовательно, если ключевое слово встречается в документе, это еще не значит, что весь документ посвящен отраженному им понятию. При поиске по запросу "философия" можно получить документ, в котором наличествуют предложения "О философии мы говорить не будем" или "Но это уже относится к области философии". При вводе запроса "информация И поиск" в результирующем списке электронных документов может оказаться документ с предложениями "Поиск нефти начался в 1960 году" и "Информация об этом месторождении была получена от коренного населения". Такие ложные координации результат того, что навигация в Интернете осуществляется поисковой программой-роботом без понимания семантики слов. Толкование знаков происходит только в адресном смысле ("есть" - "нет").

Кроме булевых операторов во многих электронных ИПС (например, в тех же поисковых системах) используются контекстные операторы (операторы расстояний), задающие совместную встречаемость слов в частях документов (в одном предложении, абзаце). Если слова ПОЗ целиком входят в предложение, то оно считается семантически насыщенным, если не встречается совсем, то предложение получает "нулевой ранг". Весь текст может "покрываться" словами, причем "кучность" слов приближает документ к запросу, а "размазанность" слов по тексту, наоборот, отдаляет. Частота встречаемости и "размазанности" ключевых слов и словосочетаний в электронных документах позволяет ранжировать, упорядочивать их при выдаче.

Таким образом, преобразование информационного запроса на ЕЯ в поисковый образ запроса, состоящий из КС, и ввод ПОЗ в электронную информационно-поисковую систему складывается из нескольких этапов. Во-первых, осуществляется "минимизация" запроса за счет удаления неинформативных и избыточных слов. Во-вторых, оставшиеся слова проходят лексикографическую обработку. В-третьих, расставляются логические и / или контекстные операторы. Далее для ряда ИПС могут ставиться формальные условия, надлежащих проверке. Это позволяет сделать результаты поиска более "информационно насыщенными", удалить из них бесполезные для данного субъекта документы. На завершающем этапе информационного поиска ПП проецируется на электронные документы, находящиеся под управлением данной информационно-поисковой системы.

В стратегии информационного поиска выделяют как алгоритмы, так и эвристические приемы, основанные на предшествующем опыте, аналогиях, интуиции. Эвристичность информационного поиска придает ему творческий характер, который проявляется, например, в расширении запросов, их модификации на основе уже найденной информации. Так, ценность представляют слова-термины, встречающиеся в найденных документах, связь которых с предметом поиска была ранее неизвестна поисковому субъекту. Именно они позволяют по-новому увидеть данную предметную область. Тема поиска не имеет четких границ и может развиваться по различным направлениям. М.М. Субботин называет этот процесс "тематическим дрейфом с обновлением запроса и семантическими сдвигами" по принципу "расходящихся кругов", Н.В. Максимов - навигацией, "целенаправленным и управляемым перемещением в документном и лексическом пространстве ИПС". Подобное расширение запроса проходит как серия этапов, на каждом из которых выявляются слова, которыми можно дополнить запрос. Через несколько шагов расширения могут быть найдены документы, которые не содержат ни одного из исходных слов ПОЗ. Препятствует выходу за пределы предметной области контекстный контроль - контроль наличия слов, относящихся к данной предметной области, по которым не ведется поиск, но которые учитываются в процессе его проведения.

Таким образом, информационный поиск на базе электронных ИПС представляет собой достаточно сложный процесс познавательно-практической деятельности, требующий от поисковых субъектов априорной подготовки. Оказать помощь в приобретении поисковых знаний и умений могут библиотеки, на базе которых и проводится поиск "электронной информации".

Hosted by uCoz