Документирование научного контента

advertisement
Документирование научного контента:
современные концепции и решения
Санкт-Петербург, 2015
Современный подход к документированию научного контента
XI век
XXI век
• Научные публикации базируются
на данных, полученных с
использованием
мультимедийных средств…
• …но на конечной стадии
оказываются ограниченными
бумажным форматом.
Почему публикации по-прежнему ограничены бумажным форматом?
• Существует устойчивое представление о том, как именно должны
выглядеть подготовленные к публикации результаты исследований.
• Сложился общий консерватизм практики подготовки и издания
научных журналов.
• Авторы предпочитают более консервативные и менее
«продвинутые» технически журналы, имеющие более высокие
рейтинги в престижных библиографических базах данных.
Опыт издания научных журналов в Геофизическом центре РАН
В рамках сотрудничества с AGU:
• редакционная подготовка и издание переводов на английский
язык 5 геофизических журналов РАН;
• издание журнала AGU International Journal of Geomagnetism
and Aeronomy (IJGA) (в электронном и печатном форматах).
В рамках сотрудничества с ICSU Press:
• публикация трудов Первой и Второй конференций экспертов
UNESCO/ICSU по электронным публикациям в науке.
Собственные издания ГЦ РАН:
• электронный научный журнал Russian Journal of Earth
Sciences (RJES – Российский журнал наук о Земле,
http://rjes.wdcb.ru);
• электронный мультимедийный журнал Вестник ОНЗ РАН
(http://onznews.wdcb.ru);
• сериальное издание Geoinformatics Research Papers
(http://ebooks.wdcb.ru).
Основы используемых и разрабатываемых в ГЦ РАН
технологий документирования (публикации) научного контента:
• профессиональная издательская система TeX/LaTeX с
расширениями, обеспечивающими включение в
публикации мультимедийного и интерактивного контента;
• стандарты PDF и EPUB3, принятые Международной
организацией стандартов;
• стандарт HTML5, принятый и рекомендованный
консорциумом W3C;
• программная система MathJax, разработанная по
инициативе Американского математического общества
и технически поддерживаемая консорциумом MathJax.
Опыт разработки технологий документирования научного контента
• Основные форматы представления статей: HTML и PDF (с середины
90-х) + форматы EPUB3 и PDF в версии для портативных устройств
(с середины 2012 г., в журнале Russian Journal of Earth Sciences).
• Первая статья с динамическим контентом опубликована уже в
первом выпуске RJES в 1998 г., а первая статья с динамическим
контентом в известном журнале Nature была опубликована в 2009 г.
• Наши разработки являются объектами public domain и могут быть
использованы без необходимости привлечения коммерческого
программного обеспечения, что важно для малых издателей.
Потенциал используемых форматов отображения научного контента
Плюс: изначально предназначен для отображения гипертекста
Минус: сложно обеспечить внешнее представление документа
на уровне профессионального издания
! Почти не используемой остается возможность включения
интерактивного и динамического контента (см., например,
элемент canvas)
! Почти не используемой остается возможность включения
интерактивного и динамического контента в документы
формата PDF (начиная с 9 версии Acrobat Pro)
Что можно включить непосредственно в текст статьи в формате PDF?
•
•
•
•
АНИМАЦИЯ
БОЛЬШИЕ РИСУНКИ
КАРТЫ
ВИДЕО
Включение больших карт в текст статьи
В данном примере оригинальное изображение преобразуется во флэш-объект
(SWF-формат) и включается в окончательную версию статьи в PDF-формате.
Включение группы рисунков в текст статьи
Объединенные в тематическую группу рисунки отображаются без потери качества.
Включение анимации в текст статьи
Анимация, построенная с использованием Acrobat JavaScript и технологии OCG.
Поиск нового подхода к документированию научного контента:
проект Elsevier “Article of the Future” (www.articleofthefuture.com)
Данные-информация-публикации
Публикация данных – важнейшее направление документирования научного контента.
•
Согласно Х. Редереру, мы не можем разделить и дать однозначные формальные
определения научным данным, информации, интерпретации и т. п.
•
Информация – мера уменьшения неопределенности.
•
Данные становятся информацией только после применения к ним алгоритмов обработки,
иначе они – набор символов и цифр.
•
Обработка данных, создает информацию лишь в той мере, в какой устраняется
неопределенность, заложенная в алгоритме.
•
Информация, полученная из данных, становится данными для следующего этапа
исследования, т. е. знание производится в результате движения по возрастающей спирали.
•
Опубликованная научная статья – промежуточный финиш в движении по спирали.
•
Публикация – это всего лишь придание публичного статуса, либо данным, либо
информации, либо интерпретации, а также форма закрепления приоритета.
•
Данные/публикация должны быть представлены в форме, легко доступной на следующем
этапе исследования, и содержать ссылки на доступные источники, использованные в
качестве исходных данных
Публикация данных
• Научные открытия все чаще опираются на «большие данные» (big data).
• Отношение к распространению, цитированию и документированию данных
изменилось (см. рекомендации Системы мировых данных (МСД), группы
FORCE11 и др.).
• Данные – полноценный результат научного исследования, наравне с журналами,
статьями и книгами.
• Запуск проекта ESDB –
(База данных по наукам о Земле), http://esdb.wdcb.ru
• Основные цели проекта: повышение значимости и доступности
геофизических данных для научных исследований, облегчение
процесса их поиска, идентификации и публикации, а также развитие
культуры цитирования данных.
Схема работы проекта ESDB
3. Идентификатор DOI
используется в
публикациях для
цитирования набора
данных
4. Ученые обращаются к набору
данных по DOI и проводят новые
исследования, публикуя новые
статьи
1
2
1. Ученые и исследователи
создают геофизические
данные
2. ESDB регистрирует и
публикует геофизические
данные с присвоением
идентификатора DOI
6
7. Показатели цитируемости
способствуют получению
нового финансирования
6. Фонды и проверяющие
организации оценивают
наукометрические
показатели
5. Поставщики данных
регулярно получают
информацию о
цитируемости данных
(наукометрические
показатели)
Дальнейший путь развития технологий документирования
научного контента
Переход к
естественной
интеграции
результатов
исследований в
поисковые
системы
Разработка
семантики
межмашинного
взаимодействия
Использование
инструментов
семантического
структурирования
научного контента
Семантическое структурирование текста научной публикации
Использование языка XML (eXtensible Markup Language)
Преимущества:
• учитывает специфику различных предметных областей;
• повышает эффективность структурирования при
автоматизированной обработке документов для
последующей индексации.
Недостатки:
• Для полноценного семантического структурирования
требуется полное онтологическое описание
предметной области.
Семантическое структурирование текста научной публикации
Возможность конвертации LaTeX-текстов в XML
• В общем случае корректный перевод произвольных LaTeX-текстов в
XML невозможен (TeX/LaTeX несовместим с SGML).
• Для более узких задач использование LaTeX позволяет построить
достаточно простые и эффективные решения.
• Успешно реализовано построение XML-метаописаний публикуемых
материалов (для включения их в CrossRef, eLIBRARY и т.п.).
Семантическое структурирование текста научной публикации
Программный пакет ElXpaper (ELectronic eXtended paper style)
ElXpaper – расширение стандартного LaTeX 2ε-класса article.cls.
Поддерживает:
• двухколоночный журнальный формат;
• внутренние и внешние активные гиперссылки;
• генерацию предупреждений и сообщения об ошибках в исходном файле;
• генерацию результата трансляции в формате DVI или PDF;
• генерацию XML-метаописаний для регистрации публикуемых материалов в
системе CrossRef и загрузки в Научную электронную библиотеку eLIBRARY.RU.
Перспективы развития и дополнения:
• семантическое структурирование тех элементов статьи, которые обычно
остаются за пределами «видения» поисковых машин;
• разработка вариантов реализации сложного поиска в математических текстах,
т.е., по сути, «поиска по формулам».
Документирование научного контента:
современные концепции и решения
Спасибо за внимание!
Астапенкова Александра Артуровна,
н.с. лаборатории технологий хранения и распространения
геофизических данных ГЦ РАН
a.astapenkova@gcras.ru
Санкт-Петербург, 2015
Download