ПОИСК ИНФОРМАЦИИ В ИНТЕРНЕТ

advertisement
1
ИНФОРМАЦИОННЫЕ СЕРВИСЫ. ПОИСКОВЫЕ СИСТЕМЫ. ТЕХНОЛОГИИ ПОИСКА ИНФОРМАЦИИ В ИНТЕРНЕТ.
В основе всей работы в Интернете лежит поиск информации.
Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета, но одновременно и одна
из наиболее сложных задач, с которыми приходится сталкиваться в Сети любому
пользователю.
Необходимость и важность проблемы информационного поиска привела к
образованию в самом Интернет целой отрасли, задача которой заключается
именно в оказании помощи пользователю в его навигации в киберпространстве.
Составляют эту отрасль специальные поисковые службы или сервисы.
Существуют три основных способа поиска информации в Интернет.
1. Указание адреса страницы.
Это самый быстрый способ поиска, но его можно использовать только в том
случае, если точно известен адрес документа или сайта, где расположен документ.
2. Передвижение по гиперссылкам.
Это наименее удобный способ, так как с его помощью можно искать документы, только близкие по смыслу
текущему документу. Если текущий документ посвящен,
например, школьным предметам, то, используя гиперссылки этого документа, вряд ли можно будет попасть на
сайт, посвященный, например, спорту.
Пользуясь гипертекстовыми ссылками, можно бесконечно долго путешествовать в информационном пространстве Сети, переходя от одной web-страницы
к другой, но если учесть, что в мире созданы многие миллионы web-страниц, то
найти на них нужную информацию таким способом вряд ли удастся.
3. Обращение к поисковой службе (поисковому серверу).
Поисковые службы можно условно разделить на поисковые кaтaлoги (каталоги Интернет-ресурсов) (dirесtоriеs) и пoиcкoвыe системы (sеаrсh еnginеs).
На помощь приходят специальные поисковые системы (их еще называют поисковыми машинами). Адреса поисковых серверов хорошо известны всем, кто работает в Интернете.
Каталоги Интернет-ресурсов (каталог интернет-ресурсов или просто интернет-каталог) – глобальные электронные справочники, содержащие ссылки на
сайты, сгруппированные по темам и подтемам.
Поисковые каталоги служат для тематического поиска. Имея намерение
осветить какую-то узкую тему, нетрудно найти список web-страниц, ей посвященных.
При загрузке каталога на экран выводится самый общий перечень областей
человеческой деятельности: ИСКУССТВО, ОБРАЗОВАНИЕ, БИЗНЕС, НАУКА,
ИГРЫ, СПОРТ и т.д. Входя в любой раздел, пользователь последовательно видит
все более и более дробную его детализацию, пока не дойдет до нужной информации.
Такая разветвляющаяся (иерархическая) структура дает возможность шаг за шагом
2
обследовать интересующие разделы.
Каталоги бывают специализированные и универсальные. Специализированный каталог, включает в себя только ссылки на сайты определенной, достаточно
узкой тематики. Пример такого каталога dir.rusmedserv.соm. Это каталог медицинских ресурсов.
Федеральный портал «Российское образование» http://www.edu.ru/
Наиболее популярные универсальные каталоги:
Яндекс http://yaca.yandex.ru
Рамблер http://top100.rambler.ru
Russia on the Net http://www.ru/rus
Международные каталоги http://www.yahoo.com/
Русский вариант http://ru.yahoo.com/
Этим перечнем список каталогов Интернет-ресурсов не исчерпывается. Каталогов очень много. Больше, чем любых других поисковых (в широком смысле)
ресурсов. Особенно много специализированных каталогов.
Нapяду c кaтaлoгaми (и даже гораздo чаще) используются поисковые системы.
Поисковая система – веб-сайт, предоставляющий возможность поиска информации в Интернете по ключевым словам. Поисковая система рассматривает
всемирную паутину WWW как огромную базу данных.
Это уже более современный и удобный способ навигации и поиска в Сети.
Поисковые каталоги и поисковые машины внешне очень похожи, поскольку
каждый каталог, как правило, обладает собственной поисковой машиной, а каждая поисковая машина – собственным каталогом. Однако принципы их работы базируются на абсолютно разных подходах и технологиях. Основная разница между
ними заключается в участии/неучастии человека. В отличие от каталогов поисковая система – это полностью автоматизированная структура.
Как правило, поисковые системы состоят из трех частей: робота (паука),
индекса и программы обработки запроса.
Робот (Spider, Robot или Bot) – это программа, которая посещает вебстраницы и считывает (полностью или частично) их содержимое.
Индекс – это хранилище данных, в котором сосредоточены копии всех посещенных роботами страниц.
Поисковые индексы работают как алфавитные указатели. Клиент задает
слово или группу слов, характеризующих его область поиска, — и получает список ссылок на web-страницы, содержащие указанные термины.
Индексы периодически обновляются и дополняются.
Программа обработки запроса – это программа, которая в соответствии с
запросом пользователя «просматривает» индекс на предмет наличия нужной информации и возвращает список ссылок на найденные документы. Обширность
списка может быть любой, в зависимости от содержания запроса.
Множество ссылок на выходе системы распределяется программой в порядке убывания от наибольшей степени соответствия ссылки запросу к наименьшей.
Самые популярные поисковики русскоязычного Интернета – Яндекс и
Google. Яндекс является лидером рунета. Google занимает лидирующую позицию
во всем мире.
3
Яндекс — российская система поиска в Сети. Сайт компании, Yandex.ru,
был открыт 23 сентября 1997 года. Головной офис компании находится в Москве.
У компании есть офисы в Санкт-Петербурге, Екатеринбурге, Одессе и Киеве. Количество сотрудников превышает 700 человек.
Поиск Яндекса позволяет искать по Рунету документы на русском, украинском, белорусском, румынском, английском, немецком и французском языках с
учётом морфологии русского и английского языков и близости слов в предложении.
Отличительная особенность Яндекса — возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов.
По умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи
результатов, в настройках результатов поиска можно увеличить размер страницы
до 20, 30 или 50 найденных документов.
В Интернете очень много ресурсов, содержащих эротику, порнографию, нецензурные выражения и так далее. Причем, поскольку, например, порнография за
рубежом является достаточно прибыльным бизнесом, то ее владельцы стараются
всячески продвигать свой «товар» и стараются, чтобы ссылки на их ресурсы попадались везде где только можно. Поэтому специально настраивают свои сайты,
чтобы они лучше находились поисковыми системами и ссылки на них появлялись
даже при поиске по поисковому запросу, очень отдаленно относящемуся к ним.
Чтобы оградить себя или своих детей от этого, рекомендуется использовать
соответствующие режимы, имеющиеся у некоторых поисковых систем. Подобный
режим, называющийся «Семейным поиском», присутствует у Яндекса.
Семейный поиск http://family.yandex.ru/

Гугл (www.google.ru).
Лидер поисковых машин Интернета – Google занимает более 70% мирового
рынка. Сейчас регистрирует ежедневно около 50 млн. поисковых запросов и индексирует более 8 млрд. веб-страниц. Google может находить информацию на 115
языках.
Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов
и т. д.
Менее популярными поисковыми системами являются:
Rambler Media Group — интернет-холдинг, включающий в качестве сервисов поисковую систему, рейтинг-классификатор ресурсов российского Интернета,
информационный портал.
Rambler создан в 1996 году. Поисковая система Рамблер понимает и различает слова русского, английского и украинского языков. По умолчанию поиск ведётся по всем формам слова.
Одна из наиболее популярных почтовых систем. В настоящее время поисковая система mail.ru является не очень популярной, но среди пользователей Рунета
зарекомендовала себя как надежная и качественная помощь при поиске какоголибо материала, т.к. имеет огромное количество сервисов.
За рубежом поисковых систем гораздо больше. Самыми популярными
являются:

Alta Vista (www.altavista.com);
4

Fast Search (www.alltheweb.com);

Northern Light (www.northernlight.com).
Яндекс является пожалуй наилучшей поисковой системой в российском
Интернете. Эта база данных содержит около 200 000 серверов и до 30 миллионов
документов, которые система просматривает в течение нескольких секунд. На
примере этой системы покажем как осуществляется поиск информации.
Поиск информации задается введением ключевого слова в специальную
рамку и нажатием кнопки «Найти», справа от рамки.
Результаты поиска появляются в течение нескольких секунд, причем ранжированные по значимости – наиболее важные документы размещаются в начале
списка. При этом ранг найденного документа определяется тем, в каком месте документа находится ключевое слово (в заглавии документа важнее, чем в любом
другом месте) и числом упоминаний ключевого слова (чем больше упоминаний,
тем ранг выше).
Даже ранжированный список документов, предлагаемый поисковой системой в ответ на ключевую фразу или слово, может оказаться практически необозримым.
Как сделать так, чтобы поиск был более эффективным? Для этого нужно
знать определенные нюансы.
1.
Результаты будут точнее, если запрос будет состоять из нескольких
слов.
2.
Все слова в запросе следует писать строчными (маленькими) буквами.
Это обеспечит поиск всех ключевых слов, а не только тех, которые начинаются с
прописной буквы.
3.
В запросе следует использовать как можно меньше слов и только те,
которые с наибольшей вероятностью могут присутствовать на нужной странице.
Например: вместо прогноз погоды для саратова россия лучше указать погода саратов
4.
При поиске учитываются все формы слова, независимо от его формы в
запросе. Например, если в запросе слово «знаю», то условию поиска будут удовлетворять и слова «знаем», «знают», «знаете» и др. Для поиска точной формы
слова следует поставить перед ним восклицательный знак или заключить слово в
кавычки - !сентября, «сентября». Для поиска определенной фразы надо заключить
ее в запросе в кавычки – «мороз и солнце день чудесный».
5.
Если вы забыли одно слово из нужной фразы, можно вместо него поставить звездочку *. Поисковая система сама подставит нужное слово. Например:
«* и солнце день чудесный».
6.
Если мы хотим исключить какие-то слова из запроса, следует поставить перед ними минус (без пробела). Например, по запросу «волга –автомобиль»
будут найдены документы, в которых есть слово «волга» и нет слова «автомобиль».
Существует такое понятие, как стоп-слова – это слова, которые поисковая
система не учитывает в запросе (игнорирует). Это местоимения, частицы, предлоги. Для включения таких слов в запрос надо поставить перед ними плюс (без пробела). Например, «+на дне».
7.
При поиске синонимов или близких по значению слов между ними
5
ставится вертикальная черта. Например, по запросу «ребенок|малыш|младенец»
будут найдены документы с любым из этих слов. Вместо одного слова можно поставить целое выражение Для этого оно берется в скобки. Например, (ребенок|малыш|дети|младенец) +(уход|воспитание).
Есть одна распространенная ошибка новичков. Они находят нужную информацию на сайте по поисковому запросу и запоминают, на какой позиции
находится этот сайт. Но далеко не факт, что через некоторое время они найдут
этот сайт по этому запросу именно на этой позиции. Поисковики не дремлют, их
задача состоит в том, чтобы выдавать вам самую свежую и полную информацию,
отвечающую на ваш запрос. Самый надежный способ запомнить сайт, который
вам понравился – это добавить его в закладки.
Download