Поиск информации в World Wide Web

advertisement
Поиск информации в
World Wide Web
Интернет имеет три функции:



Коммуникационную;
Информационную;
Управленческую.
«Желтые страницы»
Традиционно самым авторитетным
справочником по Интернет считаются
«Желтые страницы» Харли Хана
Онлайн-справочник «Желтые страницы.
Русские ресурсы»
http://yp.piter-press.ru
Поисковая система представляет собой
специализированный Web-узел.
Наибольшую популярность приобрели две
модели работы поисковых систем:
 Поисковые каталоги;
 Поисковые указатели.
Поисковые механизмы
1. Поисковые машины. Эти средства поиска в
ответ на запрос выдают список страниц,
удовлетворяющих заданным критериям.
Примеры поисковых машин:
Яndex (http://www.yandex.ru)
Rambler (http://www.rambler.ru)
Google (http://www.google.com
http://www.google.com.ru
http://www.google.ru)
Поисковые механизмы
2. Каталоги, в которых сайты упорядочены по
категориям специально разработанного
дерева-рубрикатора.
Примеры каталогов:
Yahoo (http://www.yahoo.com)
Русские каталоги
http://www.au.ru
http://www.stars.ru
Поисковые механизмы
3. Тематические подборки ссылок.
Иногда они содержат рубрикатор и могут
рассматриваться как частный случай каталога,
ограниченного некоторой темой.
Например, сайт BALLERINA,
представляющий собой единый доступ к
разнообразным ресурсам, отражающим
состояние и проблемы окружающей среды
Балтийского региона
(http://www.baltic-region.net)
Поисковые механизмы
4. Поисковые механизмы, действующие в
пределах Web-сайта
Многие крупные сайты содержат внутренний
поисковый механизм для документов,
находящихся в пределах сайта. Кроме того,
сайт часто содержит более или менее
подробный перечень документов или разделов
сайта в виде специальной
страницы — "карты сайта".
Каталоги
http://www.yahoo.com
http://www.list.ru
http://www.narod.ru
http://www.omen.ru
http://www.kinder.ru
Поисковые системы
http://www.altavista.com
http://www.rambler.ru
http://www.aport.ru
http://www.yandex.ru
Мультипоисковые машины
http://www.informika.ru/windows/intern/poisk/main.html
http://search.da.ru
Порталы







Порталы – мощные информационные системы, объединяющие не
только несколько отдельных сайтов, но и максимально возможное
количество различных сервисов.
Поисковая система;
Каталог страниц Интернет;
Служба новостей;
Система электронной почты;
Электронная энциклопедия;
Электронный магазин;
Доска объявлений, форум.
Например: http://www.km.ru
Организация поиска
У разных поисковых машин существует свой
собственный язык запросов, с
использованием самых различных
операторов.
Рассмотрим некоторые из них:
Язык запросов
Учет различных форм слова
1. Независимо от того, в какой форме Вы
употребили слово в запросе, поиск учитывает все
его формы по правилам русского языка.
Например,
если задан запрос 'идти', то в результате
поиска будут найдены ссылки на документы,
содержащие слова 'идти', 'идет', 'шел', 'шла' и
т.д.
Язык запросов
Учет различных форм слова
2. Если Вы набрали в запросе слово с большой буквы,
будут найдены только слова с большой буквы, в
противном случае будут найдены как слова с
большой, так и с маленькой буквы.
Например,
запрос 'лебедь' найдет и птицу, и генерала.
Запрос 'Лебедь' - генерала и те случаи
упоминания птицы, когда она написана с
большой буквы.
Язык запросов
Учет различных форм слова
3. Хотя по умолчанию поиск учитывает все формы
заданного слова, существует возможность поиска
по точной словоформе. В этом случае перед
запросом ставится восклицательный знак '!'.
Так по запросу '!Лужкову' будут найдены все
документы, содержащие словоформу
'Лужкову', а по запросу 'Лужков ~~ !Лужкову' документы, в которых упоминается Лужков, и
не упоминается Лужкову.
1. AND (& или +)
beatles +lennon
2. OR ( | )
klinton +scandal |monica
3. NOT (- или ~)
Реферат +педагогика –социальная
4. NEAR (&&)
социальная && педагогика
Язык запросов
Знаки "+" и "-"
Если Вы хотите, чтобы слова из запроса
обязательно были найдены, то поставьте перед
каждым из них "+". Если Вы хотите исключить
какие-либо слова из результата поиска, —
поставьте перед каждым из них "-".
Внимание! Знак "-" — это именно минус. Его
надо писать через пробел от предыдущего и
слитно с последующим словом, например,
'рак -гороскоп'. Если написать 'рак-гороскоп'
или 'рак - гороскоп', то знак "-" будет
проигнорирован.
Язык запросов
Назначение знака "|"
Между словами можно поставить знак '|', чтобы
найти документы, содержащие любое из
указанных слов. (Удобно при поиске синонимов).
Запрос вида 'фото | фотография |
фотоснимок | снимок | фотоизображение'
задает поиск документов, содержащих хотя бы
одно из перечисленных слов.
Язык запросов
Назначение символа "&"
Несколько набранных в запросе слов,
разделенных пробелами, означают, что все они
должны входить в одно предложение искомого
документа. Тот же самый эффект произведет
употребление символа '&'.
Например,
при запросе 'лечебная физкультура' или
'лечебная & физкультура', или '+лечебная
+физкультура' результатом поиска будет
список документов, в которых в одном
предложении содержатся и слово 'лечебная', и
слово 'физкультура'.
Язык запросов
Назначение знака "~"
Знак тильда '~', позволяет найти документы с
предложениями, не содержащим слова, перед
которым стоит знак тильды.
Например, по запросу 'банки ~ закон' будут
найдены все документы, содержащие слово
'банки', рядом с которым (в пределах
предложения) нет слова 'закон'.
Язык запросов
Одинарные знаки & и ~ обеспечивают поиск в
пределах одного предложения,а двойные знаки
&& и ~~ — в пределах документа.
Например,
по запросу 'рецепты && плавленый & сыр'
будут найдены документы, в которых есть и
слово 'рецепты' и слова 'плавленый' и 'сыр',
причем 'плавленый' и 'сыр' должен быть в одном
предложении.
Язык запросов
Употребление скобок
Вместо одного слова в запросе можно подставить
целое выражение. Для этого его надо взять в
скобки.
Например, запрос '(руководство Visual C) ~~
цена' выдаст все документы со словами
'руководство Visual C', но без слова 'цена'.
Язык запросов
Поиск с учетом расстояния между словами
1. Часто в запросах ищут устойчивые
словосочетания. Если поставить их в кавычки, то
будут найдены те документы, в которых эти
слова идут строго подряд.
Например, по запросу "красная шапочка"
будут найдены документы с этой фразой,
при этом контекст "а шапочка у нее была
красная" найден не будет.
Язык запросов
Поиск с учетом расстояния между словами
2. Расстояние между соседними словами в документе
равно 1, а расстояние между соседними словами,
стоящими "не в том порядке", равно -1. Если между
двумя словами поставлен знак '/', за которым
сразу напечатано число, значит, требуется, чтобы
расстояние между ними не превышало этого
числа слов. Например, по запросу 'поставщики
/2 кофе', будут найдены документы,в которых в
одном предложении есть словосочетания
"поставщики колумбийского кофе", "поставщики
кофе из Колумбии" и т.д.)
Язык запросов
Поиск с учетом расстояния между словами
3. В общем виде ограничение по расстоянию задается
при помощи пунктуации вида '/(n m)', где 'n'
минимальное, а 'm' максимальное допустимое
расстояние. Отсюда следует, что запись '/n'
эквивалентна '/(-n +n)', а запись '/+n'
эквивалентна '/(+n +n)'.
Например, запрос 'музыкальное /(-2 4)
образование' означает, что 'музыкальное'
должна находиться от 'образование' в
интервале расстояний от 2 слов слева до 4
слов справа.
Язык запросов
Поиск в зонах
Можно искать информацию в "зонах": заголовках
(имя "зоны": Title), ссылках (имя "зоны": Anchor)
и адресе (имя "зоны": Address).
Синтаксис запроса: имя_зоны [запрос].
Например, запрос 'title [CompTek]' ищет в
заголовках документов слово 'CompTek'.
Запрос ' anchor [CompTek | Dialogic]' находит
документы, в cсылках внутри которых есть
одно из слов 'CompTek' или 'Dialogic'.
Язык запросов
Поиск в определенных элементах
1. Можно ограничить поиск информации списком
серверов или наоборот исключить серверы из
поиска (url). Можно также искать документы,
содержащие ссылки на определенные URL
(link), и файлы картинок (image). Если Вы
хотите работать не с конкретным URL (image),
а со всеми, начинающимися с данной
последовательности символов, используйте
знак " * ".
Синтаксис запроса:
имя_элемента="имя_файла (URL)".
Язык запросов
Поиск в определенных элементах
Например, по запросу
'CompTek ~~ url="www.comptek.ru*"' будут
искаться упоминания компании 'CompTek'
везде, кроме ее собственного сервера
(www.comptek.ru).
Запрос 'link="www.comptek.ru*"' покажет все
документы, которые сослались на сервер
компании.
Запрос ' image="tort*"' даст ссылки на
документы с изображениями тортов (хотя,
возможно, найдется и портрет черепахи
Тортиллы).
Язык запросов
Поиск в определенных элементах
2. Можно организовать поиск по ключевым
словам (keywords), аннотациям (description)
и подписям под изображениями (hint).
Синтаксис запроса: имя_элемента=(текст).
Например, запросу 'keywords=(поисковая
система) | description=(поисковая
система)' будут искаться все страницы, в
meta-тегах которых есть эти слова.
По запросу 'hint=(кино)' будут найдены
документы, содержащие изображение с
такой подписью.
Язык запросов
Ранжирование результата поиска
1. Задание веса слова или выражения
применяется для того, чтобы увеличить
релевантность документов, содержащих
"взвешенное" выражение.
Синтаксис запроса: слово:число или
(поисковое_выражение):число
Язык запросов
Ранжирование результата поиска
Например,
по запросу 'поисковые механизмы:5' будут
найдены те же документы, что и по запросу
'поисковые механизмы', но наверху списка
окажутся документы, где чаще встречается
именно слово 'механизмы'.
Запрос 'поисковые (механизмы | машины |
аппараты):5 ' равнозначен запросу 'поисковые
(механизмы:5 | машины:5 | аппараты:5)'.
Язык запросов
Ранжирование результата поиска
2. Задание уточняющего слова или выражения
применяется для того, чтобы увеличить
релевантность документов, содержащих
уточняющее выражение.
Синтаксис запроса: <- слово или
<- (уточняющее_выражение)
Язык запросов
Ранжирование результата поиска
Например, по запросу 'компьютер <- телефон'
будут найдены все документы, содержащие
слово 'компьютер', при этом первыми будут
выданы документы, содержащие еще и слово
'телефон'.
Если ни в одном документе со словом
'компьютер' нет слова 'телефон', результат
запроса будет эквивалентен запросу
'компьютер'.
Push – технология
Эта технология обеспечивает автоматическую
(иногда говорят – принудительную) передачу
пользователю данных по определенной
тематике.
При использовании Push-технологии
пользователь подписывается на получение
информации по какой-либо теме. И может не
беспокоиться о ее доставке.
Push – технология
Сервер сам находит пользователя, когда
появляется новость и сам заботится о
доставке информации на компьютер
подписчика.
В этом случае исчезает необходимость
просмотра страниц в поисках чего-то
нового.
Push – технология
В отличие от поиска с помощью поисковых
систем, требующего непосредственного
участия пользователя, доставка информации
по push-технологии реализуется как фоновая,
низкоприоритетная задача «проталкивания»
данных.
Push – технология
Основным понятием в push-технологии
является push-канал.
Push-канал это некое интернет-хранилище
информации по обозначенной тематике
(приводимой обычно в названии канала).
Push-канал позволяет пользователю,
подписавшемуся на него, получать
обновленную информацию.
Push – технология
Вторым важным понятием является push-клиент.
Этим термином называется программное
обеспечение, доставляющее информацию из pushканала на компьютер подписчика.
Программы просмотра WWW-страниц, например
Internet Explorer обеспечивают выполнение
основных функций push-клиента.
Push – технология
Ряд фирм, поддерживающих передачу
данных в Интернете по push-технологии,
предлагают собственные программы,
выполняющие дополнительные функции.
Следует отметить, что для полноценного
использования всех возможностей pushтехнологии необходимо постоянное
подключение к Интернету.
Push – технология
В качестве примера видов информации,
распространяемых по push-каналам, приведем
тематику некоторых каналов, поддерживаемых на
сервере ИнфоАрт:






погода в Москве и Московской области;
доска бесплатных объявлений;
новости информационных технологий;
новости компаний;
итоги торгов и курсы валют ЦБРФ;
экономические и финансовые новости.
Download