Var - Электронные библиотеки: Перспективные Методы и

advertisement
Петрозаводский государственный университет
Проект электронной библиотеки методик и
результатов исследований текстовых
коллекций для системы «Источник»
Каргинова Н.В., Кравцов И.В., Москин Н.Д., Варфоломеев А.Г.
RCDL - 2008
Введение
Существуют сетевые сообщества исследователей в области
истории и лингвистики, которые основаны на общих коллекциях
текстов.
Следующий шаг – предоставление
проведенных исследований.
Традиционные публикации:
• не являются машиночитаемыми,
• сложно осуществлять функции
поиска и сравнения.
=>
сообществу
описаний
Необходим стандартный
формат
для
записи
методик и результатов
исследований
RCDL - 2008
Существующие технологии
• Стандарты представления бизнес-правил, в виде которых
могут быть записаны научные выводы, гипотезы, формулы и
алгоритмы (http://www.w3.org/2005/rules/wiki/RIF_Working_Group).
• Язык PMML, служащий для записи регрессионных и других
предиктивных моделей анализа данных
(http://www.dmg.org/pmml-v3-2.html).
• Форматы группы MKM для обмена математическими
результатами (http://www.mkm-ig.org/).
• Язык RuleML, позволяющий записывать различные виды
правил (http://www.ruleml.org/).
Методику и выводы исследователей можно представить в виде правил:
«Если (условие), то (вывод)»
RCDL - 2008
ИС «Источник»
- формулярный анализ средневековых текстов
Графическое
изображение
XML
PDF
Анализ
RCDL - 2008
Формулярный анализ
Распоряжение
Просьба
Действия адресата
Выполнение адресатом распоряжения
RCDL - 2008
Новые функции ИС «Источник»
• интерфейсы для разметки текстов, записи правил
разметки, методики исследования (правил вывода) и
результатов
• накапливание коллекций текстов, а также библиотеки
правил и выводов
• поиск и сравнение методик и результатов разных
исследователей
• автоматическая генерация гипотез на основе данных и
правил
• публикация методик и результатов в машиночитаемой
форме
RCDL - 2008
Формализация процесса исследования
1. Разметка текста на логические фрагменты
2. Представление структуры текста
№
Тип блока
1 А
2 В
… …
Характеристика блока
20
25
…
3. Анализ текста с помощью правил вывода
RCDL - 2008
Схема процесса исследования
Исследователь:
текст
База знаний сообщества
Разметка
Библиотека разметок
Библиотека правил
Представление
в виде объекта
Результаты
исследований
Анализ
результаты
RCDL - 2008
Факты и правила в системе
- Заданные изначально
• факты, функции,
compare_structure(структура 1, структура 2) = n %
• шаблоны
ЕСЛИ
текст 1 – структура 1,
текст 2 – структура 2,
….
текст n – структура n,
(текст 2, …, текст n) имеют тип 1
(структура 1, структура 2, …, структура n) похожи на m%
m больше порогового значения
ТО
текст 1 имеет тип 1
- Формирующиеся по ходу работы исследователей
RCDL - 2008
Пример шаблона на языке Datalog
(ядро RuleML)
<Implies>
<head>
<Atom>
<Var>text 2</Var>
<Rel>type of text</Rel>
<Var>type 1</Var>
</Atom>
</head>
<body>
<Atom>
<Var>text 1</Var>
<Rel>type of text</Rel>
<Var>type 1</Var>
</Atom>
<Atom>
<Var>text 1</Var>
<Rel>structure of text</Rel>
<Var>structure 1</Var>
</Atom>


<Atom>
<Var>text 2</Var>
<Rel>structure of text</Rel>
<Var>structure 2</Var>
</Atom>
<Atom>
<Var>structure 1</Var>
<Rel>is like</Rel>
<Var>structure 2</Var>
<Ind>m %</Ind>
</Atom>
</body>
</Implies>
RCDL - 2008
Бесёдные песни и их теоретико-графовые
модели
Рассмотрим один из мотивов бесёдной песни «Все
мужовья до жон добры», записанной Ф. Студитским в
1841 году:
Все мужовья до жон добры,
Покупили жонам тафты;
Ещё мой муж не доброй до меня,
Он купил, мутил,
Коровушку купил,
Жены лишнюю работу снарядил.
RCDL - 2008
Первый мотив песни
«Все мужовья до жон добры»
RCDL - 2008
Граф сюжета песни
«Все мужовья до жон добры»
Из книги «Народные песни Вологодской и Олонецкой губерний,
собранные Ф. Студитским». – Санкт-Петербург, 1841. С. 67.
RCDL - 2008
Граф сюжета песни «Уж ты Ванюша, Иван»
Из книги «Описание Олонецкой губернии в историческом, статистическом и
этнографическом отношениях». Сост. В. Дашков. СПб., 1842. С. 181-182.
RCDL - 2008
Граф сюжета песни «Широкая борода»
Из книги «Описание Олонецкой губернии в историческом, статистическом и
этнографическом отношениях». Сост. В. Дашков. СПб., 1842. С. 182-183.
RCDL - 2008
Граф сюжета песни
«Девушка в горенке сидела»
Из книги «Описание Олонецкой губернии в историческом, статистическом и
этнографическом отношениях». Сост. В. Дашков. СПб., 1842. С. 179-181
RCDL - 2008
Граф сюжета песни «Тропинкою шла»
Из книги Лысанова В. Д. «Досюльная свадьба, песни, игры и танцы
в Заонежье Олонецкой губернии». Петрозаводск, 1916. С. 72.
RCDL - 2008
Пример (1) закономерности, полученной при
анализе фольклорных песен
Если
«в графе песни число вершин m>14 и
число ребер n>17»,
то
«эта песня с большой вероятностью
исполнялась в быстром темпе».
RCDL - 2008
Представление правила на языке RuleML
<Implies>
<head>
<Atom>
<Rel>имеет темп</Rel>
<Var>песня</Var>
<Var>быстрый</Var>
<Var>с большой
вероятностью</Var>
</Atom>
</head>
<body>
<And>
<Atom>
<Rel>больше</Rel>

<Var>число вершин</Var>
<Var>14</Var>
</Atom>
<Atom>
<Rel>больше</Rel>
<Var>число ребер</Var>
<Var>17</Var>
</Atom>
</And>
<body>
</Implies>

RCDL - 2008
Пример (2) закономерности, полученной при
анализе фольклорных песен
Если
«в песне часто встречаются объекты
групп «разные предметы» и
«конструкции», а объекты группы
«проявление качеств человека»
встречаются редко»,
то
«эта песня с большой вероятностью
имеет семейную тему».
RCDL - 2008
Представление правила на языке RuleML
<Implies>
<head>
<Atom>
<Rel>имеет тему</Rel>
<Var>песня</Var>
<Var>семейная</Var>
<Var>с большой
вероятностью</Var>
</Atom>
<head>
<body>
<And>
<Atom>
<rel>часто встречаются</rel>
<var>песня</var>
<var>вершины группы «разные
предметы»</var>
</Atom>


<Atom>
<rel>часто встречаются</rel>
<var>песня</var>
<var>вершины группы
«конструкции»</var>
</Atom>
<Atom>
<rel>редко встречаются</rel>
<var>песня</var>
<var>вершины группы
«проявление качеств человека»</var>
</Atom>
</And>
<body>
</Implies>
RCDL - 2008
Хранение правил и реализация вывода
Необходимо обеспечить логический вывод, следовательно нужна
машина логического вывода.
1. Внутренний формат хранения правил
CLIPS, SWI-Prolog
RuleML – для обмена с другими сообществами и системами
2. RuleML в качестве внутреннего формата хранения правил
Bossam – приложения в рамках концепции Semantic Web,
OO jDREW – библиотека на Java,
DR-DEVICE – рассуждения в условиях неполной и
противоречивой информации
RCDL - 2008
RCDL - 2008
RCDL - 2008
Download