РСТ - ucrel - Lancaster University

advertisement
Разработка Инструментария для
Семантической Разметки Текста
О.В. Мудрая, Б.В. Бабич,
S. Piao, P. Rayson, A. Wilson
Корпусная лингвистика 2006
Санкт-Петербург
Содержание
Важность лексическо-семантических
ресурсов и семантической аннотации в
автоматическом анализе текста
Lancaster UCREL semantic analysis
system – система семантической
разметки текста USAS
Русский семантический теггер (РСТ)
Оценка лексического покрытия РСТ
Применения РСТ
Роль лексическо-семантических ресурсов
В корпусной лингвистике.
В автоматической обработке естественного языка.
В автоматическом анализе текста:
семантическая аннотация / анализ по
семантическим полям – в качестве
дополнительной процедуры снятия
лексической омонимии и многозначности
для разграничения различных значений
слова.
Система семантической разметки текста
USAS
USAS = UCREL semantic analysis system
UCREL = [Lancaster] University Centre for
Computer Corpus Research on Language
Разрабатывалась в течение последних 20ти лет в университете г. Ланкастер, Великобритания.
Доступна для научных исследований в
качестве составной части системы Wmatrix
http://www.comp.lancs.ac.uk/ucrel/wmatrix/.
Семантический теггер USAS:
Система семантической разметки текста
В основе -- система классификации
лексики в соответствии с Лонгманским
лексиконом современного английского
языка Тома МакАртура.
Лонгманский лексикон МакАртура:
 15 тыс. слов, относящихся к основной
лексике
 сгрупированны по 14 семантическим
полям / темам, которые подразделены на
127 групп и 2441 подгруппу.
McArthur T., Longman Lexicon of Contemporary English.
London, 1981.
Система семантической разметки текста
USAS
Первоначально разрабатывалась для
анализа расшифровок интервью на
английском языке (Wilson and Rayson, 1993).
Охватывает 21 семантическую категорию,
обозначенную заглавными буквами
латинского алфавита, и 232
пронумерованные (до трех уровней)
подкатегории.
Полная семантическая разметка USAS на
http://www.comp.lancs.ac.uk/ucrel/usas/.
Основные семантические категории USAS
Пример категории с подкатегориями
T
T1
T1.1
T1.1.1
T1.1.2
T1.1.3
T1.2
T1.3
T2
T3
T4
Time
Time
Time: General
Time: General: Past
Time: General: Present; simultaneous
Time: General: Future
Time: Momentary
Time: Period
Time: Beginning and ending
Time: Old, new and young; age
Time: Early/late
Лексикон USAS
Английский лексикон содержит около 55 тыс.
словоформ and почти 19 тыс. многословных
выражений (МСВ), многие из которых являются шаблонами, способными распознавать
варианты лексем в составе МСВ.
Клаcсифицируется набором широко определенных категорий семантичексих полей,
организованных в структуру, подобную
тезаурусу.
Используя номенклатуру семантических полей,
отображает слова и шаблоны МСВ на их
потенциальные семантические категории.
Лексическое покрытие Английского семантического теггера (АСТ) на BNC – 98.49% (Piao et
al., 2004).
Дальнейшая разработка и
усовершенствование USAS
Увеличение лексических ресурсов.
Включение новых языков: для задач
проектов Benedict (Löfberg et al, 2005) и
ASSIST (Sharoff et al, 2006) АСТ был
перенесен на финский и русский
языки.
Снятие омонимии -- в соответствии с
употреблением слов и МСВ в контексте
(Rayson et al, 2004).
Русский семантический теггер (РСТ)
Разрабатывается в ходе работы над
проектом ASSIST – Automated semantic
assistance for translators.
Совместными усилиями исследователей
из двух британских университетов:
Ланкастерского и Лидского.
Работа поддержана грантами фонда UKEPSRC – EP/C004574/1 для Ланкастерского
Университета и EP/C005902 для Лидского
Университета.
РСТ
В основе -- семантические категории USAS,
которые совместимы с семантической
категоризацией объектов и явлений в
русском языке, например:
poor
JJ I1.1- A5.1- N5- E4.1- X9.1бедный A
I1.1- A6.3- N5- O4.2- E4.1I1.1- = Деньги: недостаток
A5.1- = Оценка: плохо
N5- = Количество: мало
E4.1- = Несчастный
X9.1- = Способность, интеллект: плохие
A6.3- = Сравнение: мало разнообразия
O4.2- = Суждение о внешности: плохо
Особые метки
+/- для обозначения положительных /
отрицательных аспектов значений
m, f и n = мужской, женский и неопределенный пол
Многозначные лексические единицы
Отображаются во множественных семантических категориях. Также указывается грамматическая категория части речи с целью
уменьшения неоднозначности.
Семантические метки расставляются в
порядке употребительности, т.е. метка,
соответствующая наиболее употребительному значению, проставляется первой в
списке значений:
для английского языка – на основе Collins
COBUILD on CD-ROM 2001 Lingea Lexicon, ver. 3.1,
и Encarta World English Dictionary 1999 Microsoft
Corporation.
 для русского языка – ABBYY Lingvo 10 EnglishRussian Electronic Dictionary 2004 и ГРАМОТА.РУ
http://www.gramota.ru/.

Гибридные семантические категории
Когда лексемы одновременно принадлежат
к двум или более семантическим категориям, образуя гибридную категорию, что
обозначается с помощью косой черты:
rebel
VV0
G1.2/A6.1- S8- A6.1-
waiter
NN1
I3.1/F1/S2.2m
адмирал
S
G3/S7.1+/S2mf L2mf
больничный
A
B3/H1 Q1.2/B2-
Модификации в архитектуре РСТ
(в отличие от архитектуры АСТ)
mystem (Segalovich, 2003) в РСТ = POS
tagger CLAWS (Garside and Smith, 1997) в
АСТ;
кодировка Cp1251 → UTF8;
в словнике однословных лексических
единиц РСТ – только леммы, в отличие от
словоформ в лексиконе АСТ;
выделение имен собственных в особый
подлексикон однословных лексических
единиц РСТ из-за того, что mystem не
различает имена собственные и нарицательные.
Рабочий процесс РСТ:
необработанный русский текст
↓
морфологизатор mystem
↓
русский семантический компонент
(однословные лексические единицы /
имена собственные + МСВ)
↓
семантическая аннотация
Разработка словника РСТ
Путем эксплуатации словарей и корпусов -- в
первую очередь, легкодоступных материалов:
списки имен собственных.
Разработка началась с включения 3000
наиболее частотных лемм из Национального
корпуса русского языка: http://ruscorpora.ru/, а
также http://corpus.leeds.ac.uk/list.html.
Пополнение тематическими списками с
помощью онлайновых ресурсов:
http://www.terms.ru/.
Дальнейшее расширение посредством
загрузки в РСТ текстов из различных
источников и последующей семантической
классификации ненайденных слов.
Состав словника РСТ
На данный момент в словнике РСТ:
16 103 леммы, из которых 11 671 – имена
нарицательные и 4432 – имена собственные
713 МСВ – многие являются шаблонами (с
возможными словами-вставками), способными распознавать варианты лексем в составе
МСВ:
без_* видим*_* {на/то} причин*_*
в_* {сам*} разгар*_*
X2.5- A2.2X5.2+ N5.1+
Цель – 30 тыс. лемм и около 9 тыс. МСВ к
концу марта 2007.
Лексическое покрытие словника РСТ
Оценка произведена на специально созданном
для проекта ASSIST Русском новостном корпусе (газеты Труд, Известия и Страна.Ru,
опубликованные в 2002-2004 гг.) в 70 млн. слов.
Корпус пролемматизирован (mystem).
Пунктуация включена. Омонимия частично
снята через выбор наиболее частотной леммы
для данной словоформы, представленной в
размеченной вручную части Национального
корпуса русского языка в 1,6 млн. слов.
Результат – 79%. Цель – 90%.
Частотные слова, не представленные в
словнике РСТ, принадлежат к области современных политических и общественных
событий → словник РСТ будет расширен за
счет таких слов.
Пользовательский интерфейс РСТ
http://148.88.224.86:8080/nlp_tools/rus_sem_tagger
Веб-интерфейс включает 3 веб-страницы.
Первая страница -- имя и пароль доступа.
Основная страница -- введение текста в
текстовую область для последующей семантической разметки. Результат выводится в
таблицу, содержащую код части речи и
семантический тег / теги для каждого слова в
исходном тексте. Члены МСВ обозначаются в
специальной колонке.
Третья страница -- получение лексических
вхождений для заданного семантического тега,
с возможностью выбора между лексиконами
однословных лексических единиц и МСВ.
Применения РСТ
Компьютерный семантический анализ русского
текста.
Компьютерный контент-анализ – статистический анализ семантических признаков текстов
посредством группировки слов и словосочетаний по категориям семантических полей и
определения частотности слов и семантических тегов в текстах.
Разработка автоматизированных средств для
переводчиков: семантическая аннотация русского текста с целью нахождения в сравнимых
корпусах непрямых переводных эквивалентов
фраз, составляющих трудность при переводе.
Поиск осуществляется через установление
соответствий между похожими описаниями
ситуаций, описанных в терминах семантических тегов.
Download