Фамхынг Д.К., Захаров С.С. Гибридный подход к обработке

advertisement
Гибридный подход к обработке временной информации в тексте на
русском языке
Д.К. Фамхынг1, С.С. Захаров1
Научный руководитель: проф., д.т.н. Заболеева-Зотова А.В.
Волгоградский государственный технический университет
В данной статье представлен метод извлечения из текста динамической информации, а
именно: событий и их временных характеристик. В предложенном методе используется идея
гибридизации подходов, основанных на правилах и на машинном обучении. Для генерации
нечетких правил нечеткой нейронной сети используется аннотированный корпус временных
отношений. Параметры нечетких правил оптимизируются с помощью метода опорных векторов. В
процессе извлечения динамической информации анализируются синтаксические и семантические
характеристики временных отношений, передаваемых в тексте на русском языке.
Введение
В вопросно-ответной системе иногда у пользователей возникает вопрос, когда
произошло какое-нибудь событие или сколько по времени оно происходит. Например, в
ответ на вопрос «Сколько по времени занимает перелёт из Москвы в Лондон?»
предпочтительно сформулировать предложение с явным указанием длительности
времени: «Из Москвы в Лондон лететь 3,5 часа ».
Задача извлечения временной информации из текста на английском языке
интенсивно исследуется в последнее время. Немалое количество работ посвящено этой
теме: идентификация и нормализация временных выражений [Mani, 2004], присваивание
временных штампов для клауз события [Filatova, 2004], временное упорядочивание
событий [Mani, 2003], машинное обучение временных отношений [Mani, Pustejovsky,
2004], распознавание временных отношений событий в TimeML [Boguraev, 2005].
Извлечение
временной
информации
из
текста
на
естественном
языке
-
нетривиальная задача из-за следующих факторов:
(1) разнообразие выражений времени;
(2) сложность определения временных отношений между событиями;
(3) другие проблемы в вычислительной обработке естественного языка (например,
двусмысленность, анафора и т.д.).
1
400121, Волгоград, пр. Ленина, 28, ВолгГТУ, hungpdq@gmail.com
1
Подход,
основанный
на
использование
правил,
полученных
от
экспертов
лингвистических знаний, дает надежный результат, но его реализация требует
колоссальных усилий и мощного аппарата синтаксического и семантического анализа. В
последнее время с развитием более эффективных методов машинного обучения
(например, метод опорных векторов, индуктивно логическое программирование)
отдельные попытки их применения в задаче идентификации временных отношений
увенчались успехом. Однако применение методов машинного обучения требует наличия
большого корпуса аннотированных текстов. На английском языке уже создан корпус
аннотированных текстов TimeBank2.
Статья состоит из четырех частей. В первой части исследуются различные
грамматические аспекты временных отношений, передаваемых в тексте на русском языке,
выделяются параметры (features) для дальнейшего использования метода машинного
обучения и определяется база правил извлечения временных отношений. Во второй части
представляется архитектура системы предлагаемого подхода. В третьей – изложена
структура нечеткой нейронной сети. И в четвертой части описан метод оптимизации
параметров нечеткой сети.
1 Анализ грамматических аспектов временных отношений, передаваемых в
тексте на русском языке
Извлечение временных отношений заключается в определении взаимосвязей между
событиями или между событиями и моментами времени. В процессе вывода временных
отношений возникает проблема, связанная с тем, что временная информация выражается в
тексте на естественном языке явным или неявным образом. В любом случае остается
неоспоримым тот факт, что события всегда связаны друг с другом или с моментами
времени.
1.1
Параметры
В построении временного порядка используется множество грамматических
категорий. К ним относятся видо-временные формы глаголов, наречия времени. Кроме
того,
в
построении
порядка
участвуют
лексико-семантическая
информация
и
представление о познавательном мире.
Параметры события чаще всего описывается с помощь глагольных конструкций.
Известно, что видо-временные формы глаголов однозначно определяют порядок
следования событий.
2
http://timeml.org/site/timebank/timebank.html
2
Таблица 1- Видо-временная форма
Грамматическая категория
Значения
Временная форма
Прошедшее, Настоящее, Будущее
Вид глаголов
Несовершенный, Совершенный
Кроме глагола, существуют другие грамматические единицы, описывающие
событие. В русском языке к ним можно отнести: краткое прилагательное, отглагольное
имя существительное (или отпредикатное имя [6]), причастие и деепричастие.
Параметры между 2-мя событиям чаще всего выражаются временными союзами, к
которым относятся перед тем как, после, во время, с тех пор, когда, пока, как, в то время
как. Кроме временных союзов, существуют другие грамматические единицы, которые
отражают временной порядок событий в тексте. Это временные предлоги, наречия,
местоимения и частицы.
1.2 Правило вывода
Согласно стандарту TimeML3 для извлечения динамической информации
принимаются следующие временные отношения: AFTER, BEFORE, DURING,
INCLUDES, OVERLAPS, IS_OVERLAPPED, EQUALS, BEGIN (starts) и END (finishes).
DURING(e1,e2)
e2
e1
BEFORE(e1,
BEFORE(e
1,e2)
e)
OVERLAPS(e1,e2)
e1
e2
EQUALS (e1,e2)
)
e2
AFTER(e2,e1)
IS_OVERLAPPED (e2,e1)
e1
INCLUDES (e2,e1)
e1
e2
EQUALS (e2,e1)
)
Рисунок 1 - Временные отношения
На основании данных рассуждений строится база правил для вывода
временных отношений в тексте на русском языке.
3
http://timeml.org/site/publications/specs.html
3
Модель временных отношений описывается следующим образом:
TR(T )
, где
R : TF  
TR
(
e
,
e
)

1 2
R – правило вывода,
TF - параметры временных отношений,
T= {te, tr, ts} (te – интервал события, tr – точка отсчета, ts – интервал речи),
TR(T)={BEGIN, END, FUTURE, DURING, BEFORE, AFTER, OVERLAPS,
EQUALS }, т.е. отношение между временем события и одним из двух отсчетов
времени (времени отсчета и времени речи) в Т может принимать одно из восьми
вышеуказанных отношений.
TR(e1,e2)={ AFTER, BEFORE, DURING, INCLUDES, OVERLAPS,
IS_OVERLAPPED, EQUALS },
База содержит пять групп правил для определения временных отношений
между событиями или между событиями и временными отсчетами.
2 Архитектура система
Аннотиро
ванный
корпус
База правил
вывода
Обучаемый пример
Неаннотир
ованный
корпус
Добавление
временных
отношений
Обучаемая выборка
(x1,x2,…,xn,y)
Нечеткий кластеризатор
Генерация
нечетких правил
Метод опорных векторов
Оптимизация
параметров
Рисунок 2 - Архитектура системы
Обработка происходит на 3-х стадиях. На первой стадии используются правила для
увеличения размера обучаемого набора. Здесь без особых усилий создается больший
аннотированный корпус текстов. На втором этапе, решается задача классификации
4
временных отношений с помощью метода машинного обучения. При этом используется
корпус текстов для генерации нечетких правил нечеткой нейронной сети (которые
описаны более подробно в п.3). Наиболее эффективным методом классификации в
настоящее время является метод опорных векторов [4]. Идея этого метода заключается в
нахождении оптимальной разделяющей гиперплоскости между двумя классами. Для
оптимизации параметров нечетких правил мы используем метод опорных векторов.
3 Структура нечеткой нейронной сети
Предлагается нечеткая нейронная сеть, состоящая из 4-х слоев (рисунок 3).
x1
...
x2
R1
∑
R2
∑
y
...
...
...
...
Rc
∑
xn
...
Рисунок 3 - Структура нечеткой нейронной сети
В слое 1 осуществляется фаззификация параметров, описанных в п.1.
В слое 2 вычисляются функции принадлежности лингвистических переменных
(функции принадлежности вычисляют по формуле (1)).
В слое 3 представлены нечеткие правила.
В слое 4 суммируются веса из правил для вычисления степени принадлежности
выходной переменной y к каждому классу.
Рассмотрим структуру более подробно.
Нечеткое правило Rr:
Если x1 есть A1r & x2 есть A2r & … & xn есть Anr, то y есть (α1r, α2r,…, αСr),
где xi – входная лингвистическая переменная, i=1,2,…,n;
Air представляет собой нечеткое множество для лингвистической переменной xi;
αir – степень принадлежности y к классу Сi .
5
В качестве функции принадлежности для оптимизации параметров сети с помощью
метода опорных векторов выбирается функция Гаусса:
ir ( xi )  exp(
( xi  zir ) 2
2 i 2
, (1)
)
где zir - центр (математическое ожидание) функции принадлежности множества Air ,
 i - ширина (дисперсия) функции принадлежности множества Air.
Согласно [9] введем ограничение:
C
  ir  0 , r  1, M (2),
i 1
где М – количество нечетких правил.
Из аннотированного корпуса обучаемая выборка имеет вид (Xs,ys), причем
Xs=(x1,x2,…,xn) и ys  [1,2,…,C] указывает номер класса. Для того чтобы эта выборка могла
обучаться в сети, номер класса y преобразуется следующим образом:
Ys =(y1,y2,…,yc)
1

если i  y s
 yi  
c 1

 yi  1
если i  y s

(3)
C
Следовательно, появляется ограничение:  yi  0
i 1
Работа сети:
В слое 2 вычисляются функции принадлежности для каждой лингвистической
переменной по (1).
В слое 3 выполняется операция & (and). Для правила Rr:
n
n
( xi  zir ) 2
i 1
i 1
 2i
 kr ( X )   kr  ir ( xi )   kr  exp( 
)
,
где
 rk (X )
степень
принадлежности X к классу K по правилу Rr.
В 4 слое суммируются степени принадлежности всех правил, полученные на слое 3:
M
n
r 1
i 1
 k ( X )    kr  ir ( xi ) , k=1,2,…,С.
6
C
Чтобы k (X ) , k=1,2,…,C удовлетворяло условие   k ( X )  0, вводится следующее
i 1
правило:
Если x1 есть A10 & x2 есть A20 & … & xn есть An0, то y есть (α10, α20,…, αn0),
где Ai0 - универсальное нечеткое множество. Функция принадлежности переменной
к этому множеству принимает значение единицы во всех входных значений.
Тогда, k (X ) примет вид:
M
n
r 1
i 1
k ( X )   k 0    kr  ir ( xi )
Выходная переменная y определяется:
y  arg max k ( X )
k 1, 2,..., C
4 Оптимизация параметров нечеткой сети
Определяется нечеткое ядро (fuzzy kernel function).
Обозначим Zr=(z1r,z2r,…,znr)T
n
n
( xi  zir ) 2
i 1
i 1
 i2
K ( X , Z r )   ir ( xi )   exp( 
)
Тогда  k (X ) можно записать в следующем виде:
M
 k ( X )   k 0    kr K ( X , Z r )
r 1
Параметры нечеткой сети оптимизируются с помощью метода опорных векторов,
описанного в [9]. Эта задача формулируется как задача минимизации:
n
1 C
min {  L( yi ).(  ( X i )  Yi )     h j
 i 1
2 j 1
2
[9],
HC
где (Xi,Yi) - обучаемая выборка (3),
L(yi) – C-мерный вектор с 0 в координате yi и 1 в остальных (например если yi=1 то
L(yi)=(0,1,…,1)
 ( X i )  ( 1 ( X i ), 2 ( X i ),..., C ( X i )T
(u)+= u если u>0 и (u)+= 0 в противном случае
 - регулярный параметр
7
Список литературы
[1] Allen, J.F. Maintaining knowledge about Temporal Intervals / J.F. Allen //
Communications of the ACM. - 1983. -Vol. 26. - P. 832-843
[2] Filatova,E. Assigning Time-Stamps to Event-Clauses / E. Filatova, E. Hovy // Readings
on Temporal Information Processing, 2004
[3] Boguraev, B. TimeML-compliant text analysis for temporal reasoning/ B. Boguraev
and Rie Kubota Ando// Proceedings of the International Joint Conference on Artificial
Intelligence (IJCAI).-2005.- P. 997-1003.
[4] Mani, I. Robust Temporal Processing of News / I. Mani and G. Wilson // Proceedings
of the 38th Annual Meeting of the Association for Computational. - 2004. - P. 113-117
[5] Mani, I. Machine Learning of Temporal Relations / I. Mani, M. Verhagen, J.
Pustejovsky // Proceedings of ACL.- 2004.- P. 582-588.
[6] Mani, I. Inferring Temporal Ordering of Events in News / I. Mani, B. Schiffman, J.
Zhang // Proceedings of the Human Language Technology Conference (HLT-NAACL’03). 2003. – Vol. 2. - P. 55–57
[7] Verhagen, M. SemEval-2007 Task 15: TempEval Temporal Relation Identification /
M.Verhagen, I. Mani, J. Pustejovsky // Fourth International Workshop on Semantic
Evaluations,ACL.-2007
[8] Vapnik.- Statistical Learning Theory / Vapnik.- New York: Wiley, 1998.
[9]Yoonkyung Lee.- Multicategory Support Vector Machine, Theory and
Application to
the Classification of Microarray Data and Satellite Radiance Data / Yoonkyung Lee, Yi Lin,
Grace Wahba
8
Download