Что такое World Wide Web

advertisement
Из
книги
«World
Wide
Web
–
стратегия эффективного поиска»
Что такое World Wide Web
C момента создания в 60-е годы XX века Интернет претерпел
огромное количество существенных изменений как в количественном,
так
и
в
качественном
масштабе.
Из
узкоспециализированной
компьютерной сети он превратился в глобальное информационное
пространство,
основанное на самых современных технологиях,
обладающее
широким
коммуникационных
спектром
возможностей
и
информационных
содержащее
и
колоссальные
объемы данных.
Основными сервисами Интернет являются:
 электронная почта;
 глобальная система телеконференций;
 списки рассылки;
 онлайновые средства коммуникации пользователей;
 системы поиска людей и организаций;
 система файловых архивов FTP;
 гипертекстовая информационная система World Wide Web
(WWW);
 каталоги ресурсов в среде WWW — глобальные, локальные,
специализированные;
 поисковые машины, или автоматические индексы в среде WWW
— глобальные, локальные, специализированные.
Самое
большое
распространение
на
сегодняшний
день
получили электронная почта и гипертекстовая информационная
система WWW.
World Wide Web
(«Всемирная паутина») является частью
глобальной компьютерной сети Интернет, объединяющей множество
региональных, ведомственных, частных и других информационных
сетей каналами связи и едиными для всех ее участников правилами
организации пользования и приема/передачи данных, определяемых
протоколом ТСР/ IР1.
WWW-технология была создана в 1989 году в европейском
исследовательском
центре
CERN2
в
Женеве.
Ее
особенность
заключалась в том, что ей отводилась роль посредника в связывании
различных типов информационных ресурсов.
Технология работы web-серверов позволяла при небольших
затратах
обслуживать
огромное
количество
пользователей.
В
качестве универсального средства доступа к web-серверам был
разработан
специальный
вид
программного
обеспечения
—
программа-браузер. Одним из главных ее достоинств был наглядный
графический интерфейс, значительно упрощавший навигацию в
информационном пространстве WWW. Наибольшее распространение
получили браузеры Internet Explorer и Netscape Navigator.
Основой WWW стал гипертекст — особая форма организации
текстового материала, при котором его смысловые единицы (фразы,
абзацы, разделы) представлены как система возможных переходов и
связей между ними. Идея гипертекста возникла еще в начале XX века,
однако создание реального гипертекстового пространства стало
возможным только при помощи компьютера.
В качестве способа организации гипертекстовой информации в
среде
WWW
была
выбрана
web-страница
—
гипертекстовый
документ, написанный на языке HTML3, и содержащий ссылки («links»)
на другие документы. Термин «ссылка» не совсем точен. Под ссылкой
понимается описание источника, который цитируют или на который
ТСР/ IР – Transmission Control Protocol / Internet Protocol (Протокол управления передачей / Протокол Интернет)
CERN – European Center for Nuclear Research (Европейский центр ядерных исследований)
3
HTML – Hypertext Markup Language (Язык гипертекстовой разметки документа)
1
2
ссылаются в тексте. Слово «link» переводится с английского как
«связь», «звено», что более адекватно отражает сущность понятия.
Постепенно идея гипертекста, т. е. ассоциативно связанной
текстовой информации, распространилась и на изобразительную,
звуковую и видеоинформацию, хранящуюся в цифровой форме, что
повлекло за собой усложнение структуры web-страниц.
Информационные массивы, доступ к которым возможен через
WWW, либо хранятся непосредственно на web-серверах, либо
подключаются к ним через специальные программы-шлюзы. Webсервер — это тип сервера, хранящий и предоставляющий во внешнюю
сеть данные, организованные в виде WWW-страниц. Фактически webсервер представляет собой комплекс программного обеспечения,
установленного на компьютере, имеющем выход в Интернет и
собственный сетевой адрес. Такой компьютер называется «узел», или
«host». Отсутствие четкой терминологической базы приводит к тому,
что понятие «сервер» применительно к среде WWW употребляется и
как синоним понятия «информационный ресурс», т. е. в одном ряду с
такими понятиями, как «web-страница» и «web-сайт» (группа webстраниц).
Под ресурсом в данном случае понимается любая
информационно целостная, законченная часть: от единичного файла
(или даже его части) до целой группы web-сайтов, объединенных
гипертекстовыми ссылками.
Местонахождение любого ресурса в сети Интернет строго
определено. Это означает, что каждый ресурс имеет уникальный
электронный адрес, который называется universal resource locator,
сокращенно
URL.
Электронный
адрес
имеет
четко
заданную
структуру. Все символы набираются без пробела:
метод://имя_сервера.имя_домена /имя_каталога/имя_файла
Под методом понимается способ передачи данных (протокол).
Это может быть http, gopher, telnet, ftp и др. В системе WWW
используется протокол передачи гипертекста http (hypertext transfer
protocol). Имя сервера — это название узла, на котором находится
информация. Оно может состоять из латинских букв и цифр.
Например: www.nlr; www.excite. Домен — специальное буквенное
обозначение, определяющее либо географическое местоположение
сервера
(ru—
Россия,
принадлежность
к
тому
au
—
или
Австралия
иному
и
типу
т.
д.),
либо
организации
его
(gov—
правительственная организация, mil — военная организация; com коммерческая и т. д). Например:
www.nlr.ru; www.excite.com. Такие
домены называют доменами верхнего уровня. После домена за косой
чертой указывается непосредственно путь к файлу. Он состоит из
одного
или
нескольких
каталогов
и
имени
файла,
напр.:
.../Art/Graphics/index.htm. Art — каталог, Graphics — подкаталог,
index.htm — имя файла.
Электронные информационные ресурсы в гораздо большей
степени подвержены различным изменениям, нежели информация на
традиционных носителях. Пространство WWW обладает высокой
степенью динамичности, и документы в нем могут изменяться и
редактироваться неограниченное количество раз. Если же автор
документа сочтет информацию по каким-либо причинам устаревшей
или ненужной, он может просто удалить файл из памяти машины. Так
возникают так называемые «мертвые ссылки» («dead links»). Если
попытаться соединиться с таким адресом, то браузер выдаст
сообщение об ошибке («File Not Found»). Однако это не всегда
означает, что ресурс удален окончательно. Он может быть перемещен
в другой каталог, либо получил новое имя файла.
Практическое
применение
системы
WWW
как
новой
информационной технологии сети Интернет началось в 1992 году. С
этого момента она стала расти в геометрической прогрессии, чему
способствовал ряд объективных факторов. Как уже было сказано, эту
гипертекстовую систему предполагалось использовать в качестве
посредника для связывания информационных ресурсов разных типов.
Многочисленные архивы электронных текстов, хранящиеся на ftp- и
gopher-серверах, базы данных и каталоги библиотек, доступ к которым
осуществлялся ранее с помощью других протоколов сети Интернет,
стали подключаться к web-серверам, чтобы обеспечить доступ к своим
ресурсам
в
рамках
информационное
пополняться
единого
интерфейса.
пространство
новыми
другой
продолжало
WWW
документами.
С
Простота
стороны,
непрерывно
создания
html-
документов, возможность объединения в пределах одного документа
различных типов информации и формирования на этой основе
локальных и распределенных информационных массивов, а также
наличие бесплатных сервисов, позволяющих любому пользователю
размещать собственную информацию, привели к лавинообразному
росту
данных.
По
приблизительным
оценкам
экспертов
на
сегодняшний день в системе WWW насчитывается около 2,1
миллиарда web-страниц.
Сложившаяся
ситуация
далеко
неоднозначна.
На
данный
момент число web-серверов удваивается в среднем каждые три
месяца, а рост количества доступных через WWW документов и баз
данных превышает темпы роста общего количества компьютеров и
пользователей всей сети Интернет. Осуществление учета, контроля и
других мониторинговых функций за документальным потоком такого
масштаба в полной мере представляет собой невыполнимую задачу.
Это неизбежно влечет за собой проблему невостребованности
информации. С другой стороны, неограниченные возможности для
публикации
любых
материалов
индивидуальных
пользователей
привели к наполнению WWW огромным количеством источников,
имеющих крайне низкую информационную ценность. При такой
разнородности
содержания
и
таких
объемах
данных
поиск
релевантной информации становится сложной задачей.
Тем
не
менее
научный,
культурный
и
образовательный
потенциал среды WWW очень высоко оценивается как экспертами, так
и миллионами пользователей, которые обращаются к этой системе
именно для поиска информации.
Download