Автоматическое выделение структур в тексте

advertisement
Автоматическое выделение
структур в тексте
* Санкт-Петербург 2007 *
Принципы
• Отсутствие предварительной разметки текста
• Автоматическая обработка
• Статистические критерии выделения структур
• Иерархическое построение
• Наличие классов свободного варьирования
• Представление исходного текста в виде графа
• Итерационное выявление новых структур на основе
уже существующих
* Санкт-Петербург 2007 *
Начальная обработка текста
Построение графа составляющих
Принципы выделения структур
Классы эквивалентности
Итеративность процесса выделения
структур
Тестовые данные
* Санкт-Петербург 2007 *
Деление исходного текста на «морфемы»
• использован список морфем из
первого тома Русской Грамматики
• деление на ММЕ (минимальные
морфологические единицы) или слова
• выбор самой длинной морфемы
• формальное и искусственное деление
* Санкт-Петербург 2007 *
Примеры деления слова на ММЕ
который
к ото р ый
оказался
о к а за л ся
прекрасный
пре кра с н ый
* Санкт-Петербург 2007 *
Начальная обработка текста
Построение графа составляющих
Принципы выделения структур
Классы эквивалентности
Итеративность процесса выделения
структур
Тестовые данные
* Санкт-Петербург 2007 *
Построение графа составляющих
Предложение
ММЕ
Узел графа:
• сама морфема
• список предыдущих морфем
• список последующих морфем
Граф составляющих
• информация об индексах морфемы
• служебная информация (координаты и др.)
* Санкт-Петербург 2007 *
Примеры графа составляющих
* Санкт-Петербург 2007 *
Примеры графа составляющих
* Санкт-Петербург 2007 *
Примеры графа составляющих
* Санкт-Петербург 2007 *
Начальная обработка текста
Построение графа составляющих
Принципы выделения структур
Классы эквивалентности
Итеративность процесса выделения
структур
Тестовые данные
* Санкт-Петербург 2007 *
Шаблоны-кандидаты
• Шаблон-кандидат – последовательность узлов
графа составляющих, встречающаяся в
достаточном большом числе предложений
Обнаружение шаблона-кандидата
* Санкт-Петербург 2007 *
Нахождение значимых шаблонов
• Значимый шаблон – шаблон-кандидат,
удовлетворяющий определенным статистическим
критериям
Необходимо построить вероятностные функции
для выявления границ значимого шаблона
* Санкт-Петербург 2007 *
Построение вероятностных функций
* Санкт-Петербург 2007 *
Использование вероятностных функций
Формирование матрицы на основе функций
Pr и Pl вдоль пути S графа составляющих:
* Санкт-Петербург 2007 *
Построение вероятностных функций
Представление вероятностных функций
* Санкт-Петербург 2007 *
Построение вероятностных функций
• Построение дополнительных функций для
определения скорости падения функций Pr и Pl:
• Пороговое значение: η = 0.33
* Санкт-Петербург 2007 *
Итоговая оценка шаблона-кандидата
Критерий оценки шаблона-кандидата:
* Санкт-Петербург 2007 *
Начальная обработка текста
Построение графа составляющих
Принципы выделения структур
Классы эквивалентности
Итеративность процесса выделения
структур
Тестовые данные
* Санкт-Петербург 2007 *
Выявление классов эквивалентности
Класс эквивалентности - набор вершин, которые
являются взаимозаменяемыми в данном контексте
(класс свободного варьирования)
Алгоритм:
• определить окно длины L
• определить в рамках данного окна слот
• получить шаблон, имеющий префикс, суффикс и
класс эквивалентности в позиции слота
* Санкт-Петербург 2007 *
Пример класса эквивалентности
Отрывок текста корпуса CHILDES:
… Cindy thinks that George thinks that to read is tough.
that the bird is eager to read bothers the dog.
Pam thinks that Jim thinks that to read is tough.
Pam believes that Cindy thinks that to please is tough.
that the cat is easy to read disturbs George.
Cindy believes that George thinks that to read is easy.
Pam believes that Joe thinks that to please is tough.
Cindy believes that Joe believes that to please is easy.
Cindy believes that George thinks that to read is easy...
* Санкт-Петербург 2007 *
Пример класса эквивалентности
George
that
Pam
thinks
Cindy
префикс
Joe
суффикс
Класс эквивалентности
* Санкт-Петербург 2007 *
Пример класса эквивалентности
жила
и
получила
префикс
Катерина
суффикс
Класс эквивалентности
* Санкт-Петербург 2007 *
Пример класса эквивалентности
интер
по
к
е
л
префикс
м
р
суффикс
Класс эквивалентности
* Санкт-Петербург 2007 *
Начальная обработка текста
Построение графа составляющих
Принципы выделения структур
Классы эквивалентности
Итеративность процесса
выделения структур
Тестовые данные
* Санкт-Петербург 2007 *
Образование новых узлов в графе
Образование нового узла P
* Санкт-Петербург 2007 *
Начальная обработка текста
Построение графа составляющих
Принципы выделения структур
Классы эквивалентности
Итеративность процесса выделения
структур
Тестовые данные
* Санкт-Петербург 2007 *
Пример структуры узла (текст из CHILDES)
Простой узел
* Санкт-Петербург 2007 *
Пример структуры узла (текст из CHILDES)
Более сложный узел
* Санкт-Петербург 2007 *
Пример структуры узла
Простой узел
* Санкт-Петербург 2007 *
Пример структуры узла
Простой узел
* Санкт-Петербург 2007 *
Пример структуры узла
Более сложный узел
* Санкт-Петербург 2007 *
Тестирование программы на различных текстах
• Один из текстов Национального корпуса русского языка из раздела
публицистики (1400 слов – 843 уникальных)
Найдено:
• 163 класса эквивалентности
• 45 значимых шаблонов
• Фрагмент текста, представляющего собой слова родителей,
обращенные к детям (корпус текстов CHILDES)
(2020 слов – 27 уникальных)
Найдено:
• 13 классов эквивалентности
• 4 значимых шаблонов
* Санкт-Петербург 2007 *
Download