OAI и создание репозитариев организаций Хохлов Александр Юрьевич

advertisement
OAI и создание
репозитариев организаций
Хохлов Александр Юрьевич
Вопросы для обсуждения




Что такое OAI?
Зачем это нужно?
Что уже создано?
Что еще можно сделать?
Предпосылка создания OAI
 Существуют базы данных, которые
не индексируются крупнейшими
поисковыми системами и не видны
пользователям за пределами
соответствующих веб-сайтов
 Изначально это касалось E-Print
community, но далее оказалось
полезно для более широкого круга лиц
Что такое OAI
 OAI – Open Archive Initiative, «инициатива
открытых архивов»
 Идеология репозитариев, в которых что-то
хранится (и не более того)
 Отнюдь не обязательно это статьи или книги
 Технологии, обеспечивающие сбор информации из
этих репозитариев
 OAI-PMH – OAI Protocol for Metadata Harvesting,
«OAI протокол для сбора метаданных»
 Тем самым слово «открытый» применяется в
смысле «доступный», но никак не «бесплатный»,
хотя в большинстве случаев это именно так
Не путать с Z39.50
 В OAI репозитарий предоставляет
средства организованного сбора
метаданных (по датам изменения
записей)
 В рамках Z39.50 создается
поисковый механизм (сервер) для
поиска по базе данных и
извлечения найденных записей
Пример: OAIster.org – поисковая
система по OAI архивам
 5 366 375 записей из 472
организаций (по состоянию на 5
мая 2005)
 Высокая концентрация ресурсов:
<30 организаций поставляют более
50% записей
Записи в OAIster (по состоянию
на август 2004)



























574
295
293
210
184
184
158
87
56
53
39
34
32
30
29
26
25
24
24
17
17
16
15
12
12
12
11
878 CiteSeer Scientific Literature Digital Library
380 CiteBase
592 PubMed Central (PMC)
270 The University of Michigan, University Library, Digital Library Production Service Collections
972 Institute of Physics (IOP)
838 State Library of Victoria OAI Repository
344 Library of Congress American Memory Project
618 Wolfram Research's Mathematical Functions
709 The National Science Digital Library
000 Research Papers in Economics (RePEc)
690 ANU (Australian National University) DSpace
267 Internet Archive
597 Colorado Digitization Project (CDP)
379 Digital Manuscripts, Archives, and Special Collections, Washington State University (WSU) Libraries
595 Virginia Tech (VT) ImageBase
629 NASA Technical Report Server (NTRS)
312 Online Collections at Brigham Young University (BYU)
985 Bibliotheksservice-Zentrum Baden-Württemberg, Germany, Virtueller Medienserver
523 SciELO (Scientific Electronic Library Online)
988 LOUISiana Digital Library (LDL)
698 Historic American Sheet Music, Rare Book, Manuscript, and Special Collections Library, Duke University
460 CERN Document Server
407 Networked Computer Science Technical Reference Library (NCSTRL) Historical Collection
473 Project Euclid, Cornell University
349 BioMed Central (BMC)
149 Wolfram Research's MathWorld
220 Wageningen Yield (WaY)
Крупнейшие архивы (более
100 000 записей на август 2004)
575 006 – ResearchIndex (SiteSeer)
401 120 – NSDL
315 963 – PubMed Central
295 380 – SiteBase
280 780 – arXiv.org
210 270 – University of Michigan Library
184 972 – Institute of Physics (IOP)
184 838 – State Library of Victoria
158 344 – Library of Congress American Memory
Project
 108 780 – National Library of Australia Digital Object
Repository









Google и OAI
 Google использует OAI для
индексации нескольких больших
архивов (в рамках проекта Scholar)
 Скорее всего, скоро станет
стандартом де-факто для обхода и
индексации баз данных и в других
поисковых системах
Итак, роль OAI-PMH:
 Способствовать распространению
метаинформации из баз данных
 Один из возможных вариантов
индексации «deep web»
 И не более того.
Университеты и их
представительства в интернет
 Каждый университет имеет веб-сайт
 для информации об университете и его
деятельности
 Каждый университет имеет
публикации своих ученых или
личные странички ученых с их
публикациями
 Каким-то образом согласуется с
политикой издательств
Роль репозитария
 Организовать процесс сбора и
хранения информации в рамках
одной организации
 Способствовать поиску /
локализации необходимых для
пользователя объектов
 Организовать процесс жизни и
обслуживания ресурсами
репозитария
Сигла
 Главная задача проекта –
организация поиска информации,
независимо от протоколов и
местоположения ресурсов
 Реализация распределенного поиска
по Z39.50
 Реализация сбора метаданных по
протоколу OAI-PMH и поиска по
собранным коллекциям через протокол
Z39.50
Выводы
 OAI-PMH предлагает эффективный
способ сбора информации из баз
данных для поисковых систем
 Организациям логично иметь
репозиторий в дополнение к
обычному веб-сайту
Возможное дальнейшее развитие
 Большинство статей одновременно с их
закрытыми публикациями будут иметь
открытые копии, которые будут доступны
для поисковых систем
 Google и другие поставщики глобальных
поисковых решений будут иметь
возможность сбора большинства всех
публикуемых статей
 Возникнут новые методы оценки качества
текстов статей, основанные на постссылочных технологиях ранжирования
Download