Тенденции развития средств поиска Поисковые

advertisement
http://www.i2r.ru/static/215/out_13852.shtml
Тенденции развития средств поиска
Поисковые
средства
постоянно
развиваются.
Совершенствование идет по всем главным аспектам: рост объемов
баз данных, возможности составления запроса и дружественность
интерфейса,
выдача
результатов
и
наличие
дополнительных
сервисных функций. Системы, которые долгое время не внедряют
новых элементов и не оптимизируют уже имеющиеся функции,
постепенно выводятся из активного использования.
Увеличение зоны охвата и глубины просмотра
Ведущая
расширении
тенденция
числа
последнего
обследуемых
времени
документов
заключается
и
в
одновременном
увеличении глубины просмотра источника. Несколько лет назад
поисковые средства были способны индексировать только несколько
миллионов источников, которые на тот период включали webстраницы, статьи конференций Usenet, файлы Gopher и FTP серверов.
Современные системы в среднем индексируют порядка 50 миллионов
документов (от 31 миллиона Alta Vista, до 69 миллионов в Lycos). При
этом скорость работы не только не снизилась, но даже увеличилась за
счет
использования
новейшего
программного
и
аппаратного
обеспечения.
Однако, даже более важным является то, что поисковые
механизмы последнего
Развитие внутреннего поискового механизма
Следующая важнейшая черта - совершенствование внутреннего
поискового
механизма,
выражающееся
в
увеличении
операторов и других элементов составления запросов.
числа
Несколько лет назад применение находили только два, в
лучшем случае, три классических булевых оператора: AND (и), OR
(или) и NOT (не). Теперь появились NEAR (рядом, около) в Alta Vista и
FOLLOWED BY (следует за) в OpenText - в высшей степени полезные
операторы расстояния, которые дают возможность в максимальной
степени конкретизировать запрос.
Многие системы позволяют усекать окончания терминов,
ограничивать поиск по дате создания документа, искать ключевые
слова только в обозначенных элементах web-страниц (названии,
заголовках, электронном адресе и т.д.), а также вести разыскание на
точное словосочетание. Новейшие разработки также позволяют
выявлять файлы определенного вида (например графические или
аудио) и обладают чувствительностью к строчным и заглавным
буквам. Общепринятой становится возможность искать данные на
любых языках.
Все это дает возможность составлять поисковое предписание с
большой степенью точности, что конечно же повышает релевантность
получаемых результатов.
Совершенствование интерфейса
Немаловажное значение имеет также ясно проявляющаяся
тенденция совершенствования интерфейса. Графические броузеры
типа Netscape Navigator, Internet Explorer и им подобные практически
полностью вытеснили текстовой Lynx, что само по себе позволило в
значительной
степени
повысить
дружественность
интерфейса,
сделать его намного более чувствительным, чем 2-3 года назад.
Разработчики первых поисковых систем не слишком заботились о
комфорте пользователей. В тот период гораздо важнее было просто
заставить систему работать. Поэтому желающих воспользоваться
услугами поисковых серверов встречали зачастую лишь строки для
ввода запроса, без каких-либо экранов помощи или примеров
употребления булевых операторов. По этой причине пользователи
часто испытывали затруднения, пытаясь точно выразить свой запрос.
Системы
последнего
детализированное
поколения
во
многоуровневое
многих
меню,
случаях
которое
имеют
делает
составление запроса максимально простым. За счет его применения
пользователи освобождаются от необходимости знать принципы
работы булевой логики - они просто комбинируют искомые термины с
имеющимися условиями поиска. Меню Power search (углубленного
поиска) в OpenText и Modified search (модифицированного поиска) в
HotBot - яркие примеры прогресса в этой сфере.
Нынешние
поисковые
средства
предоставляют
также
детализированную "помощь", примеры составления запросов, файлы
"часто
задаваемых
вопросов".
В
зависимости
от
полученных
результатов генерируются подсказки и рекомендации, направленные
на устранение типичных ошибок, допускаемых при составлении
запроса. Таким образом сегодняшний пользователь уже не должен
обладать
какими-либо специальными знаниями и опытом для
обращения к поисковым средствам.
Оптимизация выдачи результатов поиска
Еще одной немаловажной тенденцией является оптимизация
выдачи результатов поиска. В данном случае можно с уверенностью
утверждать,
что
интеллектуальными.
поисковые
Ныне
их
средства
блок
становятся
искусственного
более
интеллекта
способен ранжировать результаты в зависимости от соответствия
конкретному запросу. Программа анализирует расположение слов в
документе, их повторяемость и общее количество. На этой основе
перечень ссылок выдается в порядке соответствия запросу, причем
ссылки на наиболее ценные источники, выдаются в начале списка.
В перспективе работа над тем, как сделать поисковые средства
еще более интеллектуальными будет продолжаться, поскольку только
системы
с
мощной
интеллектуальной
базой
будут
способны
переработать стремительно расширяющийся океан полнотекстовых
данных. В частности, именно системам искусственного интеллекта
предстоит решить проблему информационного шума или "мусорных
данных", которая становится все острей в связи с ростом в Интернете
материалов низкой содержательной ценности.
Диверсификация сервисов
Последняя
технологическая
тенденция
-
появление
дополнительных сервисных функций, которые делают пользование
поисковыми системами более привлекательным.
Некоторые из навигационных средств формируют добавочные
базы данных по определенным направлениям (электронные адреса
частных лиц, справочники компаний, перечни последних новостей и
т.д.). Другие размещают на своих страницах ссылки на наиболее
популярные
справочные
ресурсы
Интернет,
как
например
электронные словари, тезаурусы, энциклопедии, интерактивные карты
и т.п. источники, что превращает интерфейс поисковых систем в
хорошую отправную точку для любого, работающего с Интернет.
В
последние
месяцы
наиболее
продвинутые
системы
предлагают даже воспользоваться услугами персонального сетевого
информатора,
который
обеспечивает
текущий
поиск
новых
материалов по заявленной тематике (см. UltraSeek).
Стратегии специализации и диффузии
Помимо технологических перемен, стратегические изменения в
сфере поискового сервиса также очевидны. Среди них наиболее
заметным
является
дробление
поисковых
средств,
выделение
поисковых
инструментов
региональной
или
отраслевой
направленности, учитывающих материалы по отдельным странам или
на
определенном
языке
(только
чисто
русскоязычных
систем
насчитывается не менее десятка) или по определенной тематике
(пока это в основном юриспруденция). Эти локальные поисковые
средства
призваны
решить
задачу
исчерпывающего
учета
информации по отдельным странам и наиболее актуальным темам.
Возможно в скором времени мы будем располагать столькими
поисковыми
системами,
сколько
сегодня
существует
печатных
справочников и указателей.
Наряду с образованием местных поисковых серверов, ясно
обозначилось также стремление распространения вширь гигантов
поискового бизнеса. Широко известные Yahoo!, Alta Vista, InfoSeek
форсируют
создание
как
"зеркальных",
так
и
специальных
профильных серверов в европейском и азиатском регионах, стремясь
захватить там рынок сетевой рекламы. Само по себе это еще более
ожесточает конкурентную борьбу в области поискового бизнеса.
Технологичность и коммерциализация
Нет сомнений, что все перечисленные тенденции эволюции
поисковых средств найдут свое продолжение в ближайшем будущем.
С ростом ресурсов Интернет их потенциал будет также расширяться.
Продолжится совершенствование уже существующих механизмов
(примерами постоянного обновления являются WebCrawler, Lycos и
Alta Vista), а также вытеснение старых систем новыми под иными
именами
(типичный
пример
HotBot,
вытеснивший
Inktomi).
С
уверенностью можно прогнозировать и появление совершенно новых
средств, созданных на базе последних технологических достижений.
Реальной
базой
для
дальнейшего
усовершенствования
поисковых орудий является расширение деловой активности в
Интернет. Предприимчивые компании уже осознали, что создание и
поддержка поисковых серверов является доходным бизнесом. Так как
к их услугам прибегает огромное число пользователей, интерфейсы
систем становятся наиболее выгодным местом для размещения
рекламы.
Поэтому
разработчики
заботятся
о
чтобы
том,
поисковых
сделать
свой
орудий
продукт
постоянно
максимально
привлекательным. Добиться же этого можно только путем неуклонного
повышения
качества
работы
систем
по
всем
рассмотренным
показателям.
Типология методов поиска
Более или менее серьезный подход к любой задаче начинается
с анализа возможных методов ее решения. Поиск информации в
Интернете
может
быть
произведен
по
нескольким
методам,
значительно различающимся как по эффективности и качеству поиска,
так и по типу извлекаемой информации. В ряде случаев приходится
использовать весьма трудоемкие методы - результат того стоит.
Можно
выделить
следующие
основные
методы
поиска
информации в Интернете, которые, в зависимости от целей и задач
ищущего, используются по отдельности или в комбинации друг с
другом:
Непосредственный поиск с использованием гипертекстовых
ссылок
Поскольку все сайты в пространстве WWW фактически
оказываются связанными между собой, поиск информации может
быть произведен путем последовательного просмотра связанных
страниц с помощью броузера.
Хотя этот полностью ручной метод поиска выглядит полным
анахронизмом в Сети, содержащей более 60 млн узлов, "ручной"
просмотр Web-страниц часто оказывается единственно возможным на
заключительных этапах информационного поиска, когда механическое
"копание" уступает место более глубокому анализу. Использование
каталогов,
классифицированных
и
тематических
списков
и
всевозможных небольших справочников также относится к этому виду
поиска.
Использование поисковых машин
Сегодня этот метод является одним из основных и фактически
единственным
при
проведении
предварительного
поиска.
Результатом последнего может являться список ресурсов Cети,
подлежащих детальному рассмотрению.
Как
правило,
применение
поисковых
машин
основано
на
использовании ключевых слов, которые передаются поисковым
серверам в качестве аргументов поиска: что искать. Если делать все
правильно,
то
формирование
списка
ключевых
слов
требует
предварительной работы по составлению тезауруса.
Поиск с применением специальных средств
Этот полностью автоматизированный метод может оказаться
весьма эффективным для проведения первичного поиска.
Одна
из
технологий
специализированных
этого
метода
программ
-
основана
спайдеров,
на
применении
которые
в
автоматическом режиме просматривают Web-страницы, отыскивая на
них искомую информацию. Фактически это автоматизированный
вариант просмотра с помощью гипертекстовых ссылок, описанный
выше (поисковые машины для построения своих индексных таблиц
используют похожие методы). Нет нужды говорить, что результаты
автоматического
обработки.
поиска
обязательно
требуют
последующей
Применение
данного
метода
целесообразно,
если
использование поисковых машин не может дать необходимых
результатов (например, в силу нестандартности запроса, который не
может быть адекватно задан существующими средствами поисковых
машин). В ряде случаев этот метод может быть очень эффективен.
Выбор между использованием спайдера или поисковых серверов
являет собой вариант классического выбора между применением
универсальных или специализированных средств.
Анализ новых ресурсов
Поиск
по
новообразованным
ресурсам
может
оказаться
необходимым при проведении повторных циклов поиска, поиска
наиболее свежей информации или для анализа тенденций развития
объекта исследования в динамике.
Другой
большинство
значительной
возможной
поисковых
задержкой,
причиной
машин
может
обновляет
вызванной
явиться
свои
то,
индексы
гигантскими
что
со
объемами
обрабатываемых данных, и эта задержка обычно тем больше, чем
менее популярна интересующая вас тема. Это соображение может
оказаться
весьма
существенным
при
проведении
поиска
в
узкоспециальной предметной области.
Технология поиска с использованием поисковых машин
Определение географических регионов поиска
Поскольку проведение информационного поиска преследует
практические
цели
утилитарные
и
-
маркетинговые,
тому
подобные,
производственные,
-
практическая
сугубо
ценность
информационного ресурса может зависеть и от географического
расположения соответствующего источника.
Составление тезауруса
Для
необходим
эффективного
список
использования
ключевых
слов,
поисковых
организованный
серверов
с
учетом
семантических отношений между ними, т.е. тезаурус. При составлении
тезауруса
необходимо
предусмотреть
обработку
синонимов,
омонимов и морфологических вариаций ключевых слов.
Использование законов Зипфа
Число, показывающее сколько раз встречается слово в тексте,
называется частотой вхождения слова. Если расположить частоты по
мере убывания и пронумеровать, то порядковый номер частоты
называется ранг частоты. Вероятность обнаружения слова в тексте =
частота вхождения слова / число слов в тексте. Зипф нашел, что если
умножить вероятность обнаружения слова в тексте на ранг частоты, то
получившаяся величина приблизительно постоянна для всех текстов
на одном языке:
С = (частота вхождения слов X ранг частоты) / число слов
Это значит, что график зависимости ранга от частоты равносторонняя гипербола.
Зипф также установил, что зависимость количества слов с
данной частотой от частоты - также гипербола и постоянная для всех
текстов в пределах одного языка.
Что
можно
извлечь
из
этих
законов?
Исследования
вышеуказанных зависимостей для различных текстов показали, что
наиболее значимые слова текста лежат в средней части диаграммы,
так как слова с максимальной частотой как правило являются
предлогами, частицами, местоимениями, в английском языке артиклями (так называемые "стоп-слова"), а редко встречающиеся
слова в большинстве случаев не имеют решающего значения.
Основываясь на этой закономерности, можно предложить следующую
методику.
Составление списка ключевых слов
Правильный набор ключевых слов имеет определяющее
значение для оптимального поиска информации. К примеру, задав
поисковой машине в качестве ключевого слова "МАРП", мы получим
список
документов,
в
которых
встречается
эта
аббревиатура
(Московское Агентство по Развитию Предпринимательства). Но если
нас интересуют документы по более широкой теме, например:
развитие предпринимательства, и мы сформируем простой запрос из
этих двух слов, то поисковая машина выдаст нам список из сотен
тысяч наименований, ориентироваться в котором будет весьма
непросто.
Поэтому для составления оптимального набора ключевых слов
используют процедуру, основанную на применении законов Зипфа,
которая заключается в следующем: берут любой текст-источник,
близкий к искомой теме, т.е. "образец", и анализируют его, выделяя
значимые слова. В качестве текста-источника может служить книга,
статья, Web-страница,
любой другой документ. Анализ
текста
производится таким образом:
Удаление из текста стоп-слов.
Вычисление частоты вхождения каждого слова и составление
списка, в котором слова расположены в порядке убывания их
частоты.
Выбор диапазона частот, лежащего в середине списка, и отбор
из этого диапазона слов, наиболее полно соответствующих смыслу
текста.
Составление
запроса
к
поисковой
машине
в
форме
перечисления отобранных таким образом ключевых слов, связанных
логическим оператором ИЛИ (OR). Запрос в таком виде позволяет
обнаружить тексты, в которых встречается хотя бы одно из
перечисленных слов.
Число документов, полученных в результате поиска по этому
запросу, может быть огромно. Однако, благодаря ранжированию
документов (расположению их в порядке убывания частоты вхождения
слов запроса в документ), применяемому в большинстве поисковых
машин, на первых страницах списка практически все документы
окажутся релевантными, причем документ-источник может находиться
далеко от начала.
Более адекватной представляется структура тезауруса в виде
так называемых семантических срезов, где для каждого основного
термина отдельно строится таблица сопутствующих слов и слов
шумовых (которые не должны встречаться в источнике), - некоторые
поисковые машины (AltaVista) позволяют это использовать. Таким
образом, вместо единой иерархической структуры терминов мы
получаем
пакет
таблиц,
которые
могут
расширяться
и
модифицироваться отдельно.
Отбор поисковых машин
Устанавливается
поисковых
машин
в
последовательность
соответствии
с
использования
убыванием
ожидаемой
эффективности поиска с применением каждой машины.
Всего известно около 180 поисковых серверов, различающихся
по регионам охвата, принципам проведения поиска (а следовательно,
по входному языку и характеру воспринимаемых запросов), объему
индексной базы, скорости обновления информации, способности
искать "нестандартную" информацию и тому подобное. Основными
критериями выбора поисковых серверов являются объем индексной
базы сервера и степень развитости самой поисковой машины, то есть
уровень сложности воспринимаемых ею запросов.
Более подробно поисковые машины описаны в разделе курса
"Сетевые средства поиска информации".
Составление и выполнение запросов к поисковым машинам
Это наиболее сложный и трудоемкий этап, связанный с
обработкой большого количества информации (в основном шумовой).
На основе тезауруса формируются запросы к выбранным поисковым
серверам, после чего возможно уточнение запроса с целью отсечения
очевидно нерелевантной информации. Затем производится отбор
ресурсов, начиная с наиболее интересных, с точки зрения целей
поиска. Данные с ресурсов, признанных релевантными, собираются
для последующего анализа.
Формирование запросов
Как формат, так и семантика запросов варьируются в
зависимости от применяемой поисковой машины и конкретной
предметной области. Запросы составляются так, чтобы область
поиска была максимально конкретизирована и сужена.
Предпочтение
отдается
использованию
нескольких
узких
запросов по сравнению с одним расширенным. В общем случае для
каждого основного понятия из тезауруса готовится отдельный пакет
запросов. Так же производится пробная реализация запросов - как для
уточнения и пополнения тезауруса, так и с целью отсечения шумовой
информации.
Языки запроса различных машин поиска в основном являются
сочетанием следующих функций:
Операторы булевой алгебры AND, OR, NOT:
AND (И) - осуществляется поиск документов, содержащих все
термины, соединенные данным оператором;
OR (ИЛИ) - искомый текст должен содержать хотя бы один из
терминов, соединенных данным оператором;
NOT (НЕ) - поиск документов, в тексте которых отсутствуют термины,
следующие за данным оператором.
Операторы
расстояния
-
ограничивают
порядок
следования
и
расстояния между словами, например:
NEAR - второй термин должен находиться на расстоянии от первого,
не превышающем определенного числа слов;
FOLLOWED BY - термины следуют в заданном порядке;
ADJ - термины, соединенные оператором, являются смежными.
Возможность усечения терминов - использование символа " * "
вместо окончания термина позволяет включить в искомый список все
слова, производные от его начальной части (шаблона).
Учет морфологии языка - машина автоматически учитывает все
формы данного термина, возможные в языке, на котором ведется
поиск.
Возможность поиска по словосочетанию, фразе.
Ограничение поиска элементом документа (слова запроса
должны находиться именно в заголовке, первом абзаце, ссылках и
т.д.).
Ограничения по дате опубликования документа.
Ограничения на количество совпадений терминов.
Возможность поиска графических изображений.
Чувствительность к строчным и прописным буквам.
Результат запроса (список ссылок) обрабатывается в два
этапа.
На
первом
нерелевантных
этапе
источников,
несовершенства
поисковой
"интеллектуальности"
производится
попавших
машины
запроса.
отсечение
в
выборку
или
очевидно
в
силу
недостаточной
Параллельно
проводится
семантический анализ, имеющий целью уточнение тезауруса для
модификации
последующих
запросов.
Дальнейшая
обработка
производится путем последовательного обращения на каждый из
найденных ресурсов и анализа находящейся там информации.
Анализ ресурсов и сбор информации
Первичный анализ ресурсов основывается на аннотациях - в
случае их наличия, и в необходимых случаях - на ознакомлении с
информационным наполнением ресурса. Информация с отобранных
источников
извлекается
с
использованием
соответствующих
конкретному источнику методов, что может потребовать значительных
коммуникационных, вычислительных и дисковых ресурсов.
Кратко можно выделить следующие типы информационных Webресурсов:
коммерческие сайты компаний;
вторичные информационные сайты;
источники аналитической информации;
региональные информационные ресурсы.
В русскоязычной части Интернета в настоящее время доступен
ряд
ресурсов,
предоставляющих
вторичную
информацию,
как
правило, в табулированной форме. Предоставление информации для
публикации
вариантом
в
подобных
для
источниках
компаний,
не
является
более
имеющих
дешевым
собственного
представительства в Интернете.
Проблемы, возникающие в процессе поиска
Одна из проблем является чисто методологической. Для
проведения
эффективного
поиска
мы
заинтересованы
в
одновременном решении двух противоположных задач:
увеличение
охвата
с
целью
извлечения
максимального
количества значимой информации;
уменьшение охвата с целью минимизации шумовой информации.
Нетрудно видеть, что одновременно осуществить это довольно
сложно, хотя зачастую все-таки возможно. Один из методов, если
поисковая машина позволяет, - это введение явных ограничений
(запрещенных слов). Другой состоит в правильном формировании
запросов,
в
частности,
в
предпочтении
нескольких
конкретизированных запросов одному общему. К сожалению, весьма
ограниченный входной язык большинства машин не оставляет
особенного простора для творчества в этом направлении.
Другая проблема - многовариантность человеческого языка.
Если в английском языке некоторые слова имеют множество
различных
значений,
то
русский
отличается
богатством
морфологических вариаций слов, а для полноты поиска необходимо
учитывать еще и синонимы.
Часто в области российского Интернета возникают чисто
технические трудности из-за различных кодировок информации.
Российские поисковые машины распознают кодировки пользователя и
искомого сайта, но совместить их удается не всегда.
Еще одна особенность русскоязычной
части сети - ее
нестабильность. Постоянно изменяются адреса и структура сайтов,
они появляются и исчезают, и поисковые машины не успевают
обновлять свои базы индексированных данных, поэтому значительная
часть списка документов, выданного вам машиной, может оказаться
недоступной. Появление в сентябре 1997 г. системы Яndex-Web,
обновляющей свои данные раз в неделю, обозначило качественный
скачок вперед в решении этой проблемы.
Сетевые средства поиска
Каталоги
Объем информации Интернет переживает стремительный рост:
по оценкам экспертов, количество Web-страниц увеличилось от
нескольких десятков тысяч в 1996 г. до нескольких сотен тысяч к концу
1998 г. В этих условиях ни одно отдельно взятое средство поиска
информации не сможет охватить всех ресурсов Сети. Поэтому для
эффективного решения задачи поиска пользователю необходимо
свободно
ориентироваться
поисковых
инструментов.
в
сложном
Правильный
и
многообразном
выбор
средства
мире
поиска
информации в каждом конкретном случае является существенным,
если не определяющим, фактором успешного выполнения задачи.
Каталоги представляют собой систематизированные группы адресов,
объединенные, как правило, по тематике. К удобству их применения
можно отнести то, что, если пользователю известна тема искомого
документа, он будет исследовать соответствующую ветвь каталога, не
отвлекаясь на посторонние, не относящиеся к делу документы.
Однако, объем каталога ограничен физическими возможностями
редакторской группы и ее субъективностью в выборе материала. В
них отсутствует информация на узкие, специальные темы, да и саму
тематику искомого документа не всегда можно сформулировать в
пределах классификации каталога.
Самый
Yahoo!
популярный
каталог,
содержащий
обширную
информацию о десятках тысяч Web-узлов. Первый уровень иерархии
содержит 14 тематических категорий, которые разветвляются еще на
4 - 5 подуровней. Имеет собственную машину поиска, позволяющую:
1) искать по базе Yahoo!, по Usenet или по адресам электронной
почты;
2)
ограничить
поиск
материалами,
размещенными
за
последний день, неделю, месяц, год или 3 года; 3) выдать статьи,
содержащие хотя бы одно ключевое слово или все ключевые слова; 4)
искать по однокоренным словам или только по указанным ключевым;
5) выдать результаты по 10, 25, 50 или 100 на одной странице.
Excite Reviews
Содержит обзоры 60 тыс. узлов Интернет,
систематизированные в иерархический каталог.
City.Net
Каталог сведений о разных странах и городах.
Иерархический
Galaxy
каталог
с
подробным
описанием
тематических категорий на первой странице. Осуществляет поиск по
категории поиска, по одному или нескольким ключевым словам,
краткий и подробный вывод результатов поиска, переход на страницы
Gopher и Telnet.
Yellow Pages Поиск информации о 16 млн. американских
компаниях в различных областях деятельности, а также персональные
данные и электронные адреса частных лиц.
Поисковые машины
В
разделе
курса
"Поиск
информации
в
Интернет"
мы
рассмотрели принцип работы поисковых машин: часть машины,
называемая «пауком» (или «спайдером»), постоянно путешествует по
узлам
сети,
собирая
и
обновляя
информацию,
кодирует
ее
(индексация) и записывает в специализированную базу данных. При
поступлении от пользователя запроса в виде набора ключевых слов
машина исследует свою базу данных и выдает список документов,
содержащих
ключевые
зависимости
от
слова,
частоты
как
вхождения
правило,
ранжированный
ключевых
слов
и
в
других
характеристик.
К достоинствам применения поисковых машин можно отнести
огромный объем информации, исследуемой ими, и ее периодическую
актуализацию. Однако, при этом не учитываются документы, не
содержащие ключевых слов, а, с другой стороны, в списке содержится
много шумовой, не относящейся к делу информации, отсеивание
которой занимает немалое время.
Lycos
Охватывает
68
млн.
страниц.
Можно
выбрать
параметры поиска: одно, несколько ключевых слов или фраза;
усечение терминов; ограничения на число совпадений; степень
соответствия результатов поиска ключевым словам; форму вывода
результатов ( краткую или подробную ); количество найденных
терминов
на
каждой
странице.
Невысокие
быстродействие
и
оперативность обновления информации.
Охватывает более 30 млн. страниц на 225000
Alta Vista
серверах,
обеспечивает
доступ
к
3
млн.
статей
в
14000
телеконференциях Usenet. Имеет два режима: Simple query и
Advanced query. В режиме Simple можно вводить шаблоны для поиска
не менее, чем с тремя указанными символами в начале слова. Если
слово содержит хотя бы одну заглавную букву, ведется поиск с учетом
регистра. Ниже строки ввода выдаются советы по поиску. В режиме
Advanced
можно
создавать
сложные
запросы,
основанные
на
логических операторах AND, OR, NOT, NEAR и указывать критерии
сортировки полученных результатов. Можно указывать диапазон дат
опубликования. Предоставляет возможность поиска изображений.
Удобный интерфейс. Высокое быстродействие, многовариантное
поисковое предписание, возможность поиска на русском языке с
учетом морфологии. Система не упорядочивает результаты поиска,
поэтому ее целесообразно применять для специфического или
исчерпывающего поиска.
Infoseek Guide Охватывает
позволяет
использовать
1,5
все
млн.
страниц.
возможные
Язык
варианты
запросов
логических
выражений. Менее полные, чем на других серверах, результаты
поиска, неудобный интерфейс.
Infoseek Ultra
50 млн. страниц WWW, возможен поиск на русском
языке, поиск изображений.
WebCrawler
Охватывает WWW, Usenet, Gopher, FTP, Telnet.
Возможен поиск на русском языке. Простота в обращении, быстрота.
Менее обширная база узлов, чем на других серверах.
HotBot
Охватывает
54
млн.
страниц.
Многовариантное
поисковое предписание. Возможен поиск на русском языке.
Мета-средства поиска
Мета-средства поиска позволяют усовершенствовать процесс
путем запуска одновременно нескольких средств поиска. Этот способ
значительно повышает качество поиска, объединяя достоинства и
возможности всех используемых средств.
Однако, иногда поиск с применением мета-средств может
оказаться очень медленным, так как им приходиться координировать
во
времени
поступления
результатов
обработки
запроса
от
нескольких серверов и проблемы, возникшие у одного из них, могут
приостановить работу всей системы. Еще одним недостатком метасредств является то, что они не позволяют использовать возможности
языка запроса каждого из применяемых поисковых средств и не дают
возможности заглянуть в их справочные руководства.
Описание
MetaCrawler
Подключает
9
поисковых
систем
одновременно. Проверяется возможность
доступа
к
соответствие
найденной
информации,
содержимого
заданному
критерию. Можно сортировать информацию
по территориальной близости, по близости к
определенному
узлу,
по
отношению
к
компании и т.д. Возможен поиск на русском
языке.
Есть
возможность
персональной
настройки интерфейса.
SavvySearch
Запускает одну из 4 групп, состоящих из
трех поисковых систем:
- WebCrawler, Yahoo!, Lycos
- Galaxy, Excite, DejaNews
- FTPSearch95, Yellow Pages, Infoseek
- Magellan, NlightN, PointSearch
Поисковое предписание с использованием
операторов AND и OR. Возможен поиск на
многих языках, в том числе на русском.
All-in-One
Хорошо структурированная мета-машина,
имеющая древовидную классификационную
структуру,
на
верхнем
уровне
которой
размещены группы: , весь Internet, личные
интересы,
ПО,
странички
частных
лиц,
новости и погода, литература и прочее.
Уточняя содержание каждой группы, можно
попасть
на
следующий
уровень.
Использует около 200 поисковых средств.
Internet Sleuth
Охватывает
1500
баз
данных.
Можно
запустить одновременно до 10 поисковых
систем
из
Использует
24,
имеющихся
операторы
AND,
в
меню.
OR,
NOT,
усечение терминов. Для каждой поисковой
машины можно задать свой критерий и свое
ограничение
Возможен
времени
поиск
на
поиска.
русском
языке.
Тематический поиск ведется по большому
количеству
периодических
изданий
и
информационных служб многих стран. Для
группы
"НОВОСТИ"
источников.
Формирование запроса
используется
39
Рассмотрим примеры формирования различных вариантов
запроса к поисковым машинам на примере языка запросов системы
Яndex-Web,
являющейся
в
настоящее
время
самой
мощной,
быстродействующей и оперативной машиной поиска в русскоязычном
Интернет.
Простой запрос из одного слова
Яndex учитывает морфологические особенности русского языка независимо от формы ключевого слова он найдет все его возможные
варианты (числа, падежи существительных, спряжения глаголов и т.
д.).
Если в запросе задано слово с большой буквы, будут найдены
только слова в таком написании, а если с маленькой - оба варианта. К
примеру, запрос в форме слова "Козлов" позволит ограничиться
ссылками на фамилию, отсекая упоминания о соответствующих
животных, за исключением их использования с большой буквы например, в начале предложения.
Используем в качестве запроса слово "МАРП". В результате на
выходе
получим
список
из
72
документов,
содержащих
эту
аббревиатуру.
Простой запрос из множества слов
Яndex позволяет использовать в качестве запроса строку до
250 символов. Для введения простого запроса нужно набрать в строке
запроса ключевые слова, разделенные пробелом. Простой запрос
подразумевает, что слова связаны логическим оператором ИЛИ, т. е.
машина ищет документы, в которых упоминается хотя бы одно из этих
слов, и на выходе их ранжирует по количеству найденных слов, их
весу, частотным характеристикам, близости в тексте и другим
параметрам. Учитывается морфология всех терминов простого
запроса.
Для
составления
списка
ключевых
слов
воспользуемся
методикой, изложенной в разделе курса "Методы информационного
поиска", а в качестве текста-источника возьмем документ из списка
предыдущего примера: "Информационные возможности МАРП".
Для
использовать
автоматизации
процесса
программу-апплет,
анализа
расположенную
текста
по
можно
адресу
www.shipbottle.ru/ir/. Программа вычисляет частоту вхождения каждого
слова, отсеивает стоп-слова, но не учитывает морфологию.
В результате получим последовательность слов, начало которой
выглядит так:
информация
11
+
база
10
+
марп
9
+
данных
9
+
bre
8
содержит
7
+
предприятий
7
+
информацию
7
+
стран
6
система
6
поиск
6
деятельности
6
более
6
фирм
5
+
бюро
5
+
ооо
5
развития
4
+
+
+
проекта
4
+
продукции
4
+
предложения
4
+
предложений
4
+
информационная
4
+
число
3
странах
3
сотрудничестве
3
сети
3
соответствии
3
россии
3
обзор
3
новости
3
Ограничим диапазон частот от 4 до 11 и выберем ключевые
слова в этом диапазоне, как показано в списке. Запишем их
последовательно в строке запроса:
информация_база_марп_данных_содержит_предприятий_…_
…
(всего 22 слова без учета морфологии)
Запустим машину и в результате получим список из 36935
документов, в котором на первом месте стоит наш документ-источник,
что свидетельствует об оптимальности и полноте нашего выбора
ключевых слов.
Рассмотрим влияние диапазона частот вхождения при выборе
ключевых слов на результат поиска.
Поместим в запрос только ключевые слова из диапазона частот
с 9 до 11:
информация_база_марп_данных
Результат: 72 тысячи документов, текст-источник на 4 месте,
степень соответствия 0.990.
Ограничимся диапазоном от 4 до 8:
содержит_предприятий_информацию_система_…
Результат: 71098 документов, текст-источник N187 в списке,
степень соответствия 0.121.
Вывод: набор ключевых слов из первого диапазона оказался
значительно более значимым для данного текста, чем из второго;
использование слов второго диапазона позволяет произвести более
широкий поиск по тематике текста; применение обоих диапазонов
дает оптимальное сочетание широты и избирательности поиска.
Поиск без учета морфологии
Чтобы зафиксировать словоформу без рассмотрения машиной
ее морфологических вариаций в строке запроса перед термином
ставится знак "!". Сделаем это с нашим примером:
!информация_!база_!марп_!данных_…
Результат: 528 документов.
Как
и
следовало
ожидать,
объем
поиска
значительно
сократился.
Поиск с оператором И
В строгом варианте запроса используются операторы, логические
выражения, специальные функции. Оператор ИЛИ в строгом запросе
обозначается запятой.
Оператор И (&) означает, что текст должен содержать все термины
или логические выражения, соединенные данным оператором. В
языке запросов Яndex один значок оператора означает его действие в
пределах абзаца, а два подряд - в пределах всего текста. Используем
наш пример:
информация&&база&&марп&&данных&&…
Получили забавный результат: в списке 3 документа, причем наш
текст-источник занял 2 и 3 место ( расположен по двум адресам ), а на
первом - "Список участников выставки "Рынок информации - 97".
Так или иначе, мы получили наглядную иллюстрацию того, как
оператор И до предела сужает поиск.
Поиск с расстоянием
Яndex позволяет задавать порядок следования и расстояние
между словами. Расстояние между словами А и В равно: 1 ( В следует
сразу за А ), 2 ( В следует за А через одно слово ) и т. д. Или -1 ( В
стоит перед А ), -2 … Знак "/" между словами, за которым стоит число,
означает, что расстояние между ними не должно превышать этого
числа слов.
Например, "развитие/3предпринимательства" означает, что должны
быть найдены документы, в которых содержатся оба слова, и
расстояние между ними не должно превышать 3 слов.
В общем виде это ограничение задается в форме /(nm), где n минимальное, а m - максимально допустимое расстояние. Отсюда
следует, что запись /n эквивалентна /(-n+n), а запись /+n эквивалентна
/(+n+n).
Когда знаки ограничения стоят после двойных операторов, то
употребленные там числа - это расстояние не в словах, а в абзацах.
Пример: развитие/(+1+4) предпринимательства - слова должны идти
друг за другом в таком порядке на расстоянии от 1 до 4 слов.
Результат: 1430 документов.
Пример: развитие/+1предпринимательства - поиск словосочетаний
"развитие предпринимательства". Результат: 722 документа.
Оператор НЕ
В языке Яndex этот оператор обозначается "~", и так же его
одинарное использование означает исключение следующего за ним
термина в пределах абзаца, а двойное - в пределах всего текста.
Пример: предприятие~~малое - поиск по слову "предприятие" за
исключением текстов, содержащих слово "малое". Результат: 111454
документа.
Поиск по словосочетанию или фразе
Искомое словосочетание в запросе заключается в кавычки.
Пример: "малое предприятие". Результат: 2262 документа.
Сложный запрос
Яndex позволяет использовать вместо слов целые логические
выражения, при этом его нужно заключить в скобки.
Пример: (малое, среднее)/+1предприятие - задает поиск документов,
содержащих любое из словосочетаний "малое предприятие" или
"среднее предприятие". Результат: 2843 документа.
Ограничение зоны поиска
Можно ограничить поиск двумя зонами: в заголовках (имя зоны
"Title") или в ссылках (имя зоны "A"). Запрос имеет вид:
$имя_зоны логическое_выражение
Пример:
$Title_(информационные,
возможности,
марп)
-
поиск
документов, имеющих в заголовке хотя бы одно из этих трех слов.
Результат: 3543 наименований.
Поиск в найденном
Позволяет осуществить поиск по документам, найденным по
предыдущему запросу. Для этого в конце запроса нужно поставить
"$$" или просто сделать отметку в окошке "поиск в найденном",
расположенном на странице запроса. Эта функция очень удобна для
последовательного сужения поиска.
Другие функции:
поиск "похожих документов" – запрос по образцу;
поиск в каталогах с указанием нужного раздела или дерева;
задание
веса
слова,
учитываемого
при
ранжировании
найденных документов;
введение уточняющих слов или выражений.
Язык поисковой машины Яndex обладает наиболее полным
набором возможностей в русскоязычном поиске, поэтому, освоив его,
вы без труда сориентируетесь в языке запроса любого другого
средства поиска.
Практические рекомендации пользователю
Теперь, когда вы изучили разделы курса о современных
средствах
и
методах
поиска
информации
в
сети
Интернет,
ознакомьтесь с дополнительными советами по организации личного
доступа к глобальным информационным ресурсам с целью улучшения
их поиска и эффективного использования.
Владение пользовательскими инструментами и техникой
Не забывайте о команде Find броузера
Если ваш броузер имеет в меню Файл, Правка или Вид команду
Find (Найти), используйте ее для обнаружения трудноуловимых
ключевых слов страницы. Чтобы отыскать слово, которое вам нужно,
воспользуйтесь комбинацией клавиш CTRL+F в вашем броузере и
введите искомое ключевое слово.
Фиксируйте
результаты
ссылками
и
закладками
1. Сохраняйте ссылки на важные и часто посещаемые страницы,
используя команду Добавить в "Избранное". Используйте подобные
механизмы для регистрации предварительных результатов поиска в
процессе беглого отбора с целью дальнейшего подробного изучения.
2. Поддерживайте свою персональную коллекцию ссылок в рабочем
состоянии:
актуализируйте
и
устаревшие
систематизируйте
ее,
и
удаляйте
ненужные.
3. Некоторые машины поиска, например AltaVista, позволяют отмечать
закладкой успешный результат поиска. Благодаря этому позднее
можно вернуться к данной подборке документов и просмотреть ее.
4.
Существуют
специализированные
программные
средства
-
интегрируемые модули расширения для стандартных броузеров,
которые индексируют информационные ресурсы ранее посещаемых
узлов. Они способны выполнять полнотекстовый поиск документов на
любом узле, включая результаты обработки запросов.
Сохраняйте
копии
важных
документов
Активно используйте команды контекстного меню Сохранить объект
как… и Сохранить рисунок как… и команду меню Файл –
Сохранить как… для создания копий необходимой вам информации
из сети Интернет на локальном ресурсе вашего ПК. Этим вы решите
некоторые
проблемы:
1) изменчивости и недолговечности WWW (когда со своих адресов со
временем
исчезают
страницы
и
целые
сайты),
2) концентрации внимания исключительно на целях определенного
этапа
поиска
просмотр
(например
отбор
адресов
найденной
или
предварительный
информации),
3) экономии времени on-line подключения и перевод изучения
отобранных материалов в режим off-line.
Отключайте вывод изображений
Если вы не желаете видеть многочисленные рекламные
заставки и для вас важен не дизайн сайтов, а их содержательная
информация, измените заданный режим просмотра в броузере на
режим вывода только текста (исключив возможности мультимедиа).
Это значительно увеличит скорость поиска. При этом, если возникнет
необходимость
быстрого
просмотра
важной
графической
информации, воспользуйтесь пунктом контекстного меню Показать
рисунок, кликнув для его вызова правой кнопкой мыши в место
невыведенного рисунка.
Не теряйте самоконтроль
Интерактивная среда WWW увлекает, и зачастую после
нескольких десятков минут Web-серфинга мы забываем: как попали на
данный сайт, что хотели найти и по какому адресу расположена
только что просмотренная уникальная информация… И в этом случае
не пренебрегайте аккуратным использованием функциями (кнопками)
вашего броузера Назад и Вперед, помогающими упорядочить
навигацию. Чтобы не терять информацию и время, приучите себя
всегда явно определять цель предстоящего on-line сеанса и при
работе стараться не отступать от нее, оставляя прочие возникающие
идеи и желания на потом. Планирование поисковой работы по этапам
также
даст
результат:
поиск
станет
более
осознанным
и
систематичным, а результат – более полным и точным.
Знание технических и теоретических основ Интернет
При необходимости ограничивайте поиск конкретными узлами
Некоторые машины поиска предусматривают ограничение
операции документального поиска - она выполняется на конкретной
хост-системе. Например, в AltaVista запрос host:mir.glas.apc.org –
базы данных приводит к поиску информации о базах данных только
на Web-узле компании ИКС МИР.
Применяйте поиск вне среды Web
Архивы групп новостей Usenet могут оказаться полезным
местом для поиска адресов нужных сайтов, которые содержатся в
сообщениях. В таком случае удобно применять машины поиска,
индексирующие архивы Usenet.
Расширяйте возможности поиска по умолчанию
Настраивайте заданные по умолчанию параметры простого
запроса для выполнения точного поиска, если поисковая система
обеспечивает такую возможность. Если машина таких функций не
предлагает, кликните мышью на кнопке сложного поиска и добавьте
адрес соответствующей страницы к числу своих ссылок на самые
необходимые сайты. Это обеспечит вам переход сразу к развитому
специализированному поиску.
Учет особенностей языка и специфики документального поиска
Используйте комбинированный поиск фраз
Фразы позволяют выполнять поиск слова с учетом контекста.
Обычно машина ищет точное совпадение с текстовой строкой,
заключенной в кавычки. Скомбинировав несколько фраз искомого
документа с помощью оператора языка запроса AND, вы существенно
увеличите точность запроса.
Применяйте редкие слова
Если вы хотите найти документ по одному или нескольким
словам, выберите наиболее необычные. Тем самым вы избежите
напрасной траты времени на перебор бесполезных для вас сайтов.
Не употребляйте очень распространенных терминов
Слова типа компьютер, провайдер, Web и Windows приводят к
высокой
выборке
нерелевантных
узлов,
то
есть
к
большому
количеству шумовой информации. Некоторыми машинами поиска
подобные термины вообще не учитываются (так называемые стопслова).
Избегайте игнорируемых ключевых слов
Игнорируемыми
разработчики
(стоп-словами)
механизмов
поиска
называют
автоматически
слова,
которые
исключают
из
запроса. Так, если вы попробуете в запросе AltaVista указать
компьютер, то получите в ответ Документы, удовлетворяющие
данному
запросу,
не
найдены.
Большинство
машин
поиска
игнорируют также одно, двух- и трехбуквенные слова. Иногда не
выполняется также поиск слов, начинающихся с цифры. Разработчики
некоторых новейших средств поиска утверждают, что не используют
игнорируемых слов, но такие случаи редки.
И последнее - не забывайте традиционные источники!
Книги и друзья, телевидение и пресса дают нам советы,
консультации, знания и справочную информацию, в том числе о
необъятном мире сети Интернет.
Download