Поисковая Интернет-система «Гугл» – избавление от посредников

advertisement
Поисковая Интернет-система «Гугл» – избавление от посредников
// Науч. и технич. б-ки.- 2001. - № 9. – С.56-61.
Несмотря
на
внимание
к
профессии
библиотекаря
—
несомненного посредника между информацией и пользователем, с
появлением
Интернет
посредников
из
повсеместно
обыденной
наблюдается
практики
поиска
устранение
информации.
Электронные ресурсы, можно сказать, подаются прямо на рабочий
стол исследователя, инженера, студента. Именно поэтому мы
предлагаем
вашему
вниманию
рассказ
о
сетевом
сервисе,
одновременно простом, мощном и эффективном, который уже сейчас
расположил к себе миллионы пользователей во всем мире.
Несмотря
на
новизну,
поисковая
система
«Гугл»
(http://www.google.com) необычайно популярна, потому что очень
проста в пользовании. Интерфейс системы — образец простоты! Если
другие поисковые системы за последние 2 года утяжелили свои
домашние страницы бесчисленным набором вариантов меню, «Гугл»,
созданный
двумя
студентами
Стэнфордского
университета,
необычайно лаконичен и буквально штурмом завоевывает аудиторию.
Удивительно и то, что система нравится одинаково и новичкам, и
опытным профессионалам поиска. Дело в том, что «Гугл» лучше всего
работает с запросами, сформулированными на простом языке, без
применения логических операторов. Например, если вы напечатали
запрос Билл Клинтон, машина сама будет искать все материалы, в
которых эти два слова употребляются вместе. При этом другие
словосочетания, в которых участвует слово bill (долларовый билль,
билль о правах и т.п.), равно как и все другие Клинтоны — будут
опущены и не замутят результаты поиска. Система «Гугл» (в отличие,
например, от широко известной Alta Vista) не обращает внимания на
строчные или прописные буквы в поисковом запросе.
Еще один простой, но необычайно эффективный прием —
приоритет отдается тому сайту и, соответственно, адресу документа,
который чаще других спрашивается.
В ответ на поисковый запрос «Гугл» выдает ответ, ранжированный по
числу обращений к данному материалу (т.е. по популярности ресурса
среди сообщества пользователей Интернет). Чем больше ссылок на
какой-либо web-адрес имеется на других страницах, тем выше его
рейтинг в базе данных «Гугл». Это особая философия, основанная на
предположении, что многие люди имеют схожие проблемы и вопросы,
и вам, вероятнее всего, нужно то же, что и другим.
Еще одна новинка «Гугл» – сетевой предметный каталог,
использующий
рубрикацию
каталога
Интернет-ресурсов
«Open
Directory Project» (http://dmoz.org). Сейчас в базе данных Открытого
каталога 1,5 млн. ссылок, присылаемых редакторами, которые
работают на добровольных началах.
Простой поиск в «Гугл»
При обработке запроса система интерпретирует пробел между
словами как логический оператор AND, однако ввод самого оператора
не поддерживает. Запрос вводится в поисковое поле (рис.1).
Рис.1
Кнопка «I'm Feeling Lucky» прерывает поисковую сессию и
открывает в окне браузера первый найденный документ.
Если необходимо провести поиск с использованием стоп-слов,
то перед ними проставляется знак «+». Система поддерживает
использование логического оператора OR. Оператор NOT заменяется
знаком «-» перед словом без пробела. Возможна постановка знаков
«+» и «-» перед фразой. Фраза заключается в кавычки. Помимо
кавычек, «Гугл» учитывает следующие знаки препинания, служащие
для
связи
слов:
(national/library/russia),
дефисы
знаки
(mother-in-law),
равенства
косые
черты
(national=library=russia),
апострофы (Bill's birthday). При поиске слова, связанные этими
знаками, воспринимаются как фраза.
Расширенный поиск в «Гугл»
Интерфейс страницы расширенного поиска реализован в виде
шаблона, состоящего из шести фильтров (рис.2).
Рис.2
Первый фильтр для ввода ключевых слов «Find results» состоит
из 4 полей:
— «with all of the words» — «все слова», соответствует
логическому оператору AND;
— «with any of the words» — «любое из слов», соответствует
логическому оператору OR;
— «without the words» — «исключить слова», соответствует
логическому оператору NOT;
— «with the exact phrase» — поиск по фразе.
Справа располагается раскрывающееся меню, позволяющее
задать количество ссылок результата поиска, выводимых на одну
страницу (от 10 до 100).
Фильтр «Occurrences» позволяет производить поиск ключевых
слов в определенных областях html-документа: «anywhere in the page»
(во всем документе), «in the title of the page» (в заголовке документа),
«in the url of the page» (в URL-адресе документа).
Фильтр «Language» позволяет осуществлять поиск документов
на одном из 25 языков, указанных в опциях раскрывающегося меню.
Фильтр
«Domains»
позволяет
как
искать
документы,
находящиеся на определенных узлах, так и исключать их из
результатов поиска.
Фильтр «SafeSearch» позволяет исключить из результатов
поиска документы, содержащие ненормативную лексику.
Результаты поиска и дополнительные возможности
Как уже было сказано, «Гугл» определяет степень релевантности
документа путем анализа ссылок других источников на данный ресурс.
При сортировке результатов поиска из всех релевантных документов
выбираются страницы с более высоким рейтингом и помещаются в
начало списка.
Перед списком результатов указывается количество документов,
найденных по запросу, и время обработки запроса в базе «Гугл».
Формат вывода результатов поиска (рис.3) состоит из следующих
элементов:
Рис.3
— заголовок документа; — выдержки из текста с выделенными
жирным шрифтом словами запроса;
— описание документа, полученное из поля meta («description»);
—
ссылка
на
соответствующий
раздел
«Открытого
каталога»
(«category»);
— URL - адрес страницы;
— размер найденного документа в килобайтах;
— ссылка на копию документа в базе «Гугл» («cached»);
— ссылка для задания поиска документов, наиболее релевантных
данному («similar
pages»); здесь, помимо ключевых слов,
учитывается домен узла, тип документа и прочее;
— другие страницы сайта, релевантные запросу, если таковые
имеются («more results from»).
Недавно пользователи Рунета заметили, что сайт Google.com
встречает их русским интерфейсом и, главное, позволяет искать
информацию в зоне «ru». Пока «русифицированный» Google.com
имеет изрядное количество недостатков. Поиск на сайте работает
только с двумя-тремя кодировками из пяти, используемых в Рунете.
Не реализована процедура машинной морфологии, позволяющая
находить нужное слово в разных падежных формах. Кроме того, к
русскому языку в интерпретации «Гугл» относятся белорусский,
украинский и другие языки, использующие кириллицу.
Download