Поиск информации в Интернете

advertisement
Поиск информации в Интернете
Иерархия адресов в Интернете представлена
5 доменами.
Имя домена первого уровня России – ru.
Деление внутри доменов:








коммерческие организации
сетевые организации
образовательные учреждения
общественные (некоммерческие) организации
для физических лиц
для музеев и сокровищниц мировой культуры
для фирм, связанных с воздушными перевозками
профессиональная деятельность в различных
областях науки и техники
com; biz
net;
edu;
org;
name;
muzeum;
aero;
pro.
Адресация в Интернете
Правила адресации определяются сетевым или
IP-протоколом (IP – Internet Protocol)
Пример IP-адреса:
188. 245. 11. 01
соответствуют
конкретному
компьютеру
Наиболее распространенные методы
(протоколы) доступа к ресурсам Интернета:

http
протокол пересылки
документа;

ftp
протокол передачи
файлов;

news
протокол доступа
к новостям системы
Usenet;

file
протокол доступа к
локальным файлам.
Универсальный адрес ресурса
URL
(Uniform Resource Locator) – универсальный
адрес ресурса, который прописывает маршрут
доступа
тип протокола: //доменное имя компьютера/ маршрут доступа
http: //www.osu.ru/ oracle/xslt.php
Навигация сайта
Важное при поиске информации:




Если неизвестен точный адрес начальной страницы
интересующей публикации (сайта), можно смело
указывать только ту часть URL, которая завершается
именем домена первого уровня.
Чтобы разобраться в структуре незнакомого сайта,
изучаем его навигационную панель, а еще лучше постараемся открыть страницу с картой сайта.
Прежде чем щелкнуть на заинтересовавшей нас ссылке,
взглянем на ее URL, отображенный в строке состояния
окна браузера.
Чтобы выбраться с «тупиковой» страницы или
попробовать отыскать «переехавший» или
переименованный ресурс, достаточно удалить правую
часть URL, вплоть до имени домена верхнего уровня .
Средства поиска






Все средства поиска, используемые в
настоящее время можно (достаточно
условно) разделить на следующие классы:
каталоги,
поисковые машины,
средства поиска в FТР-архивах,
базы данных адресов электронной почты,
средства поиска новостей,
интерфейсы к другим поисковым
системам и метапоисковые интерфейсы,
которые называют также поисковыми
агентами.
Успешность поиска в Интернете
определяется двумя факторами


насколько точно и корректно посетитель
сформулировал запрос;
насколько адекватно поисковая система
воспринимает поступивший запрос.
Основные различия в работе каталогов и
поисковых машин заключаются в том, каким
образом посетитель формулирует свой
запрос и в каком виде он получит ответ на
него.
Каталоги
Информация в каталоге упорядочена по темам и
организована в виде древовидной структуры. Такое
дерево обычно называют классификатором. Идея
поиска в такой системе состоит в том, что посетитель
просматривает классификатор и отыскивает
интересующий его раздел. Разделы самого нижнего
уровня иногда называют рубриками. Каждая рубрика
содержит перечень адресов ресурсов интернета
(обычно в виде гипертекстовых ссылок), отвечающих,
по мнению авторов каталога, данной тематике.
Стремясь увеличить число посетителей, создатели
каталогов дополняют свои сайты другими сервисами
интернета, такими как бесплатная электронная почта,
каналы новостей и т. д., что делает поисковые
системы (не только каталоги, но и другие их виды) все
больше похожими на порталы.
Поисковые машины
В отличие от работы с
каталогом, при использовании
поисковой машины необходимо
уметь формулировать цель поиска
в виде запроса.
При обработке запроса
содержащиеся в нем ключевые
слова сравниваются с ключевыми
словами, хранящимися в базе
данных машины. Очевидно, что
успешность поиска зависит от
«словарного запаса» системы.
Технология подготовки и
проведения поиска





Определение общей направленности
запроса.
Определение географических регионов
поиска.
Выбор поисковых систем.
Составление запроса.
Выполнение запроса и его уточнение,
корректировка в целях сужения области
поиска.
Разработчики
поисковых машин
постоянно
совершенствуют
алгоритмы и
принципы поиска,
добавляют новые
функции, ускоряют
работу системы.
Современная поисковая
система содержит в себе
несколько подсистем:




- web-агенты осуществляют поиск серверов,
извлекают оттуда документы и передают их
системе обработки;
- система обработки индексирует полученные
документы;
- система обслуживания принимает запросы
поиска от клиентов, преобразует их, направляет
системе поиска, на основе уточняющего запроса
клиента может осуществлять поиск среди
найденных ссылок;
- система поиска осуществляет поиск в индексных
файлах, формирует список найденных ссылок.
Логические операторы языка запросов
Оператор
Полное
обозначение
Сокращенно
обозначение
Обозначение при
простом поиске
ИЛИ
ОR
1
пробел
и
AND
&
+
НЕ
NОТ
;
-
И-НЕ
AND NОТ
&!
~
Например:
филателия ОR почтовые марки АND
Франция NOT почтовые услуги
Поисковая система Rambler
http://www.rambler.ru
Поисковая система Rambler
содержит миллионы документов.
Имеет развитый язык запросов и гибкую форму вывода результатов.
Поиск Rambler включен в стандартную поставку русской версии
Microsoft® Internet Explorer 4.0.
Отличительные особенности Rambler:
Запрос может состоять из одного или нескольких слов,
разделенных пробелами. Могут быть использованы как русские,
так и английские слова и словосочетания.
По умолчанию находятся только те документы, в которых
встретились все введенные слова.
Пример запроса
And
Or
()
"и"
"или"
части запроса могут быть сгруппированы
скобками.
(философия АND культурология)
OR семиотика
Булевы операторы Rambler:
'#‘
'@‘
поиск слова во всех формах,
поиск не только самого слова, но и однокоренных слов.
Например:
"*"
"?"
#аминокислота and @цинк
позволяет обозначать произвольную часть слова
обозначения любого символа слова.
Например:
к?мпания= кампания или компания.
$All
$URL
$Title
$Essence
поиск производится во всех частях документа
поиск производится в URL-адресе документа
поиск производится в заголовке документа
поиск производится в аннотации к документу
Поисковая система Яndex
http://www.yandex.ru
Яndex
была анонсирована 23 сентября 1997.
Отличительные особенности Яndex:
поиск на естественном языке,
большая база данных, интеграция машины поиска с
интернет-каталогом,
изучение запросов пользователей,
вспомогательные службы.
Простой поиск
Поиск происходит с учетом морфологии языка.
Например: "идет" =
идет, идут, идти, шел, шла и т.д.
Поиск по точной словоформе - ставится знак "!" (без пробела).
Поддерживается поиск по фразе, если она заключается в кавычки.
По умолчанию ищутся документы, содержащие хотя бы одно
слово запроса.
"+"
делает наличие ключевого слова в документе
обязательным.
"-"
перед словом исключает документы, которые его
содержат.
Булевы операторы:
Синта
ксис
Что означает оператор
пробел логическое И (в пределах
или & предложения)
Пример запроса
лечебная физкультура
логическое И (в пределах
документа)
рецепты && (плавленый сыр)
|
логическое ИЛИ
фото | фотография | снимок |
фотоизображение
()
группирование слов
~
бинарный оператор И НЕ (в
пределах предложения)
банки ~ закон
~~
бинарный оператор И НЕ (в
пределах документа)
путеводитель по Парижу ~~
(агентство | тур)
&&
(технология | изготовление) (сыра |
творога)
Специальные операторы для поиска
в определенных областях документов
Синтаксис
$title(выражение)
$anchor(выражение)
#keywords=(выражение)
Что означаетоператор
Пример запроса
поиск в заголовке
$title (CompTek)
поиск в тексте ссылок
$anchor (CompTek |
Dialogic)
поиск в ключевых
словах
#keywords=(поисковая
система)
#abstract=(выражение) поиск в описании
#abstract=(семиотика |
знак)
#image="значение"
поиск файла
изображения
#image="tort*"
#hint=(выражение)
поиск в подписях к
изображениям
#hint=(памятник)
#url="значение"
поиск на заданном сайте
(странице)
#url="www.comptek.ru*"
#link="значение"
поиск ссылок на
заданный URL
#link="www.yandex.ru*"
Задание веса слова или выражения
Один из факторов релевантности - вес слова.
Для задания веса слова используется
специальные оператор ":число"
Оператор Пример
слово
(поисковое_
выражение):
число
Пояснение
Будут найдены документы,
содержащие словосочетание
"знаковые системы" и слово
(знаковые
"семиотика", но чем в докуменсистемы)
те чаще встречается слово
семиотика:5
"семиотика", тем выше он
окажется к началу списка
результатов.
На странице простого поиска имеется строка для ввода
ключевых слов, а также селекторные кнопки, позволяющие
уже на начальном этапе уточнить область поиска.
Искать в категориях: возможность тематического
ограничения области поиска благодаря интеграции с другими
поисковыми системами, например, каталогом List.ru
(http://www.list.ru).
Расширенный поиск
Позволяет определить некоторые параметры поиска
Поисковая система Google
http://www.google.com
Поисковая система Google
http://www.google.com
Поддерживается поиск по фразе. Фраза
заключается в кавычки.
Google ищет документы с точными
соответствиями заданных слов. Поэтому поиск
документов на слово "hotel" и "hotels" даст разные
результаты. То же правило относится и к словам,
заданым во фразе.
Не поддерживает поиск по части ключевого слова.
Google не делает различия между строчными и
прописными буквами.
Поисковая система Google
http://www.google.com



Чтобы исключить документы, содержащие какоето слово, нужно в запросе поставить перед этим
словом знак "-" (без пробела). Возможна
постановка знака также и перед фразой.
Google не поддерживает логический оператор
"OR". Нельзя задать поиск документов, в
которых содержалось бы или первое, или второе
слово. Вместо этого предлагается сделать
несколько запросов, варьируя ключевые слова.
Помимо кавычек Google учитывает следующие
знаки препинания, служащие для связи слов:
дефисы (mother-in-law), косые черты, знаки
равенства, апострофы (Bill's birthday). При
поиске слова, связанные этими знаками,
воспринимаются как фраза.
Поисковая система Yahoo!
http://www.yahoo.com
Поисковая система Yahoo!
http://www.yahoo.com
База данных Yahoo! пополняется вручную
отобранными ссылками на web-сайты. Каждая
ссылка состоит из заголовка html-документа и
краткой аннотации. На данный момент каталог
Yahoo! сохраняет лидерство среди других
каталогов сети Интернет и по посещаемости, и по
информационной насыщенности. Поиск в
каталоге Yahoo! можно осуществлять как по
разделам, рубрикам и подрубрикам, так и с
помощью ключевых слов.
Поисковая сиcтема AltaVista
http://www.altavista.com
На данный момент эта старейшая поисковая система занимает
одно из первых мест по объему проиндексированных
документов.
Поисковая сиcтема Scirus
http://www.scirus.com/
Поисковая сиcтема Scirus
http://www.scirus.com/
Cистема Scirus нацелена на поиск исключительно научной
информации в Интернет. Реализуемое с интерфейса
ScienceDirect, это средство позволяет находить информацию
в научных журналах, персональных страницах учёных,
университетов, исследовательских центров. В ее базе
проиндексировано более 120 млн. веб-страниц (сайты
университетов, институтов, научных обществ, персональные
страницы ученых и исследователей) и около 17 млн. записей
из научных БД (ScienceDirect, MEDLINE on BioMedNet,
Beilstein on ChemWeb, BioMed Central, Society for Industrial
and Applied Mathematics, US Patent Office, E-Print ArXiv,
Chemistry Preprint Server, Computer Science Preprint Server,
Mathematics Preprint Server, CogPrints и NASA).
Поддерживается Elsevier Science и компанией FAST
(разработчик поисковой системы AlltheWeb).
Поисковая сиcтема HotBot
http://www.hotbot.com
Эта поисковая система запущена в мае 1996 компанией
Wired. Она базируется на технологии поисковой машины
Berkeley Inktomi. Результаты в виде гипертекстовой ссылки
на документ и краткого реферата.
Поисковая система Апорт
http://www.aport.ru
Апорт - уникальная двуязычная поисковая машина. Имея
те же основные черты что и AltaVista, Апорт содержит
намного больше современных ресурсов российского
интернета. Апорт входит в число ведущих поисковых
систем, сертифицированных Microsoft как локальные
поисковые системы для русской версии Microsoft Internet
Explorer.
Поисковая система Апорт
http://www.aport.ru
Одним из существенных преимуществ Апорта является
англо-русский и русско-английский on-line-перевод
запросов и поисков результата, автоматическая
проверка орфографических ошибок запроса, более
информативный вывод результатов поиска для
найденных сайтов (не только первое предложение!),
возможность поиска в любой грамматической форме
(что особенно важно для русского языка). Апорт
позволяет искать различные виды мультимедийной
информации, новости, а также сайты компаний и
организаций. Каждый вид поиска имеет свою страницу.
УДАЧНОГО ПОИСКА!
И МНОГО-МНОГО РЕЛЕВАНТНЫХ ДОКУМЕНТОВ!
Download