klimenko_petrov_Doklad_DICR2010 - Конференции

advertisement
XIII РОССИЙСКАЯ КОНФЕРЕНЦИЯ С УЧАСТИЕМ ИНОСТРАННЫХ УЧЕНЫХ
"РАСПРЕДЕЛЕННЫЕ ИНФОРМАЦИОННЫЕ И ВЫЧИСЛИТЕЛЬНЫЕ РЕСУРСЫ"
(DICR'2010)
Исследование
строения и динамики
развития научного
веб-пространства на
примере СО РАН
Клименко О.А.
Петров И.С.
Новосибирск, 30 ноября - 3 декабря 2010 г.
Введение
• Проблема исследования научного вебпространства является актуальной в связи со
стремительным развитием сети интернет и
научных ресурсов. В частности, эти
исследования позволяют определить
научные связи организации, ресурсы,
которые наиболее интересны в научном
сообществе, направления перспективных
исследований.
Веб-пространство
• Под веб-пространством мы понимаем совокупность
документов, представленных в сети Интернет и
соединенных ссылками.
• Веб-пространство - новый тип информационной системы
без централизованного контроля, без координированного
индексирования содержания.
• Однако веб-пространство - не хаотическая система, в нем
происходит самоорганизация в группы. Связи между
документами устанавливаются с помощью ссылок.
Изучение этих ссылок позволяет определить устройство
веб-пространства.
Обзор текущих исследований
• Исследования веб-пространства ведутся лабораторией
Cybermetrics Lab, которая принадлежит Consejio Superior de
Investigaciones Cientificas – крупнейшему
исследовательскому центру Испании.
http://www.webometrics.info
• Другим центром исследования веб–пространства является
Statistical Cybermetrics Research Group, на базе научной
школы информационных технологий Вулвергемптонского
университета, Великобритания.
• В России исследования проводятся в Институте
прикладных математических исследований Карельского
научного центра РАН. http://webometrics.krc.karelia.ru/
Методы исследования
веб-пространства
• Первый подход заключается в использовании
возможностей поисковых машин, таких как Google, Yahoo,
и др.
• Второй подход состоит в анализе данных с помощью
методов вебометрики.
• Третий подход связан с написанием своей программыкрауера, которая путём обхода и анализа всех страниц на
заданном множестве сайтов, выявляет связи между
элементами множества.
Результаты работы
• В процессе работы было написано несколько
версий краулера. Сначала однопоточная версия,
потом многопоточная, где одновременно
обрабатываются все сайты.
• Была разработана структура хранения данных
на основе файлов, для экономии ресурсов
системы.
• В последней версии программы учитываются
только уникальные гиперссылки.
• Программа имеет большую точность работы.
• Краулер находится в стадии тестирования, но
уже сейчас им удобно пользоваться, и его может
использовать любой исследователь.
Результаты работы
• На основе собранных данных был построен
ориентированный граф взаимосвязей. В этом
графе G (V, E) узлы соответствуют
организациям. Дуга (u, v)  E; u, v  V, если
существует страница на сайте организации u, на
которой находится гиперссылка на сайт
организации v. На множестве дуг графа G также
определено отображение NE: E → N +.
Результаты работы
• Построены графы взаимосвязей:
 Всех организаций СО РАН
 Отдельные графы для каждого из научных центров СО РАН
 Отдельные графы для каждого из направлений научной
деятельности
 Отдельные графы для интеграционных проектов СО РАН
• Было выявлено, что некоторые организации взаимно
ссылаются друг на друга, другие организации имеют
множество исходящих ссылок, третьи изолированы, а
четвертые имеют много входящих ссылок, что говорит о
ценности информации, размещенной на сайте.
Результаты работы
• Дополнительную информацию можно извлечь,
используя поиск по ключевым словам, которые
присутствуют в ссылках и заголовках страниц.
• На графах ясно видно какие сайты хорошо
представлены в сети интернет, а какие слабо. Более
того, наглядно видно как сайты различных
организаций взаимодействуют друг с другом, и на
основе этого можно сделать выводы, что в данный
момент взаимодействие организаций СО РАН
достаточно слабое.
0
Публикации
• Клименко О.А., Петров И.С. Исследование
строения и динамики развития научного Вебпространства на примере СО РАН // Труды
XVI Байкальской Всеросийской конференции
"Информационные и матетматические
технологии в науке и управлении". Часть III. Иркутск: ИСЭМ СО РАН, 2010. - 92-97с.
Download