ПОДХОД К РАЗРАБОТКЕ РУССКО- АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

advertisement
ПОДХОД К РАЗРАБОТКЕ РУССКОАНГЛИЙСКОГО ТЕЗАУРУСА
ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ
Загорулько Ю.А., Боровикова О.И., Кононенко И.С.,
Соколова Е.Г.
Институт систем информатики имени А.П. Ершова СО РАН,
Новосибирск
Российский государственный гуманитарный университет,
Москва
Текущее положение



Наблюдается значительный интерес к компьютерной лингвистике
(КЛ), как к прикладной научной дисциплине, включающей знания о
методах извлечения информации из текстов, индексирования и
содержательного поиска документов, построения естественноязыковых, в том числе речевых, интерфейсов.
Возникла острая потребность в систематизированных знаниях по
терминологии КЛ, которые, с одной стороны, способствовали бы
повышению образовательного уровня, а с другой стороны,
использовались для индексирования публикаций по КЛ с целью
облегчения доступа к представленным в них знаниях по КЛ.
Однако в данный момент в КЛ отсутствует четкая и общепринятая
система научной терминологии, причем многие термины
современной КЛ не представлены на русском языке ни в одном из
существующих лингвистических источников.
Текущее положение (сборники терминов)









Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике. – М.: Наука,
1978.
Демьянков В.З. Англо-русские термины по прикладной лингвистике и
автоматической переработке текста. Вып. 2. Методы анализа текста // Тетради
новых терминов. № 39. – М.: ВЦП, 1982.
Лингвистический энциклопедический словарь. //Под ред. В. Н. Ярцевой.
М.:Советская энциклопедия, 1990. — 685 с. [3 изд. 2002.]
Ахманова О.С. Словарь лингвистических терминов. – 3-е изд., стер. – М.: УРСС,
2005. – 576 с.
Онлайн Энциклопедия «Кругосвет»: [2001-2009]. URL: http://www.krugosvet.ru/.
Языкознание. Информационно-поисковый тезаурус ИНИОН РАН. – М., 2007.
Толковый словарь по искусственному интеллекту / Авторы-составители: А.Н.
Аверкин, М.Г. Гаазе-Рапопорт, Д.А. Поспелов. – М.: Радио и связь, 1992. –256с.
Большой энциклопедический словарь (БСЭ) / гл. ред. А.М.Прохоров. - Изд. 2-е,
перераб. и доп. – М. : Большая Российская энциклопедия; –– СПб.: Норинт, 2004. –
1456 с.
Интернет-энциклопедия «Википедия» http://ru.wikipedia.org
Цели разработки
Русско-английский тезаурус по компьютерной лингвистике (КЛ)
разрабатывается учеными из РГГУ, МГУ, СПбГУ, ИНИОН РАН,
ИСИ СО РАН им. А.П.Ершова при финансовой поддержке РГНФ
(проект № 10-04-12108в).
Главная цель разработки

Построить тезаурус по КЛ двойного назначения, т.е. тезаурус,
ориентированный на
(1) непосредственное использование людьми, желающими
обратиться к системе понятий из области КЛ, так и
(2) решение задач индексирования и информационного
поиска.
Цели разработки





Обеспечение возможности структурировать и накапливать
информацию о терминологии КЛ,
Приведение терминологии КЛ в единую систему, создание
представительного компактного собрания терминов современной
КЛ и их толкований.
Поддержка решения задач индексирования и информационного
поиска.
Повышение уровня профессиональной подготовки будущих
специалистов в сфере КЛ и информационных технологий
Двуязычность тезауруса должна помочь отечественным ученым и
специалистам (1) быстрее и эффективнее ориентироваться в
мировой ситуации в области КЛ, (2) выявлять различия и сходства
между понятиями, используемыми в отечественной и зарубежной
науке, (3) создавать новые понятия и лингвистические термины,
отсутствующие в русском языке и др.
Виды информационно-поисковых
тезаурусов (ИПТ)
Термины
По составу:
Дескрипторы
(предпочтительные
термины)
Аскрипторы
(синонимы, квазисинонимы
...)
используются при
индексировании
документов и в поисковых
запросах
заменяются одним или
несколькими
дескрипторами
ИПТ
По языковой
направленности:
Многоязычные ИПТ
Одноязычные ИПТ
Основная единица –
термин предметной
области
Основная единица составной дескриптор из
эквивалентных
дескрипторов одноязычных
версий, связанных
отношениями
эквивалентности
Стандарты для разработки ИПТ

Для разработки одноязычных ИПТ:
Международный стандарт ISO 2788-1986
 Межгосударственный стандарта ГОСТ 7.25-2001
 Американский стандарт Z39.19-2005


Для разработки многоязычных ИПТ:
Межгосударственный стандарт ГОСТ 7.24-2007
 Международный стандарт ISO 5964-1985

Структура тезауруса

Тезаурус включает два типа терминов: дескрипторы
(предпочтительные термины) и аскрипторы (остальные термины или
текстовые входы), а также источники терминов.
Дескрипторы могут использоваться при индексировании документов и в
поисковых запросах, а аскрипторы при выполнении этих задач подлежат
замене одним или несколькими дескрипторами.




Все дескрипторы снабжены определениями.
Термины, связаны между собой семантическими отношениями,
отражающими место каждого термина в системе понятий КЛ.
Тезаурус включает одновременно две версии – русскоязычную и
англоязычную. Для связи английской версии с русской служит
отношение «Эквивалент на другом языке», которым связываются
соответствующие дескрипторы из разных версий.
Для каждого термина задаются его связи с источниками, т.е.
текстовыми документами или коллекциями текстовых документов, в
которых данный термин встречается или определяется.
Структура тезаурусных статей
Дескриптор:








Название термина
Релятор
Язык термина
Определения термина
Подобласть знаний
Признак корневого термина
Комментарий
Автор тезаурусной статьи
Аскриптор:




Название термина
Язык термина
Комментарий
Автор тезаурусной статьи
Отношения между терминами
Отношения между дескрипторами:
•
•
•
•
•
•
недифференцированная иерархическая связь Выше (Ниже)
родовидовая связь ВышеРод (НижеВид)
партонимическая связь ВышеЦелое (НижеЧасть)
для связи класса понятий и экземпляра этого класса
ВышеКлассЭкземпляра (НижеЭкземпляр)
произвольная ассоциативная связь Ассоциируется с
эквивалентность дескрипторов из разных одноязычных версий
Эквивалент на другом языке
Отношения между дескрипторами и аскрипторами:
Синоним (Смотри)
• Используй альтернативно (Сравни альтернативный выбор)
• Используй комбинацию (Сравни комбинацию)
•
Описание источника терминов









Название источника
Тип источника
Язык источника
Описание
Библиографическая ссылка
URL
Количество документов (для коллекции текстов)
Количество словоупотреблений (для коллекции текстов)
Комментарий
Отношения, задающие связи термина с источниками:



Встречается в, при которой можно указать частоту
встречаемости термина в источнике;
Встречается в части документа, с помощью которой отмечается,
что данный термин встречается в предметном указателе или
глоссарии источника;
Дается определение в, позволяет связать термин-дескриптор с
источником определения.
Пример описания дескриптора











Название термина акцент
Релятор просодия
Язык термина русский
Определение термина 1 Смысловое подчеркивание звуковыми
средствами какого либо слога или слова во фразе.
Комментарий Многие авторы проводят довольно тонкое
разграничение между акцентом (смысловым подчеркиванием или
выделением, ср. термин Акцентное выделение) и ударением.
Автор статьи Кривнова О.Ф.
Источники термина Книга Трахтерова А.Л.
Источники определения термина Книга Трахтерова А.Л.
Ниже громкостной акцент, долготный акцент, тональный акцент
Синонимы АВ, акцентное выделение, логическое ударение,
эмфатическое ударение
Эквивалент на другом языке accent(prosody)
Пример описания аскриптора





Название термина логическое ударение
Язык термина русский
Автор статьи Кривнова О.Ф.
Источники термина Энциклопедия РЯ
Смотри акцент(просодия)
Пример описания документа





Название источника Книга Трахтерова А.Л.
Тип источника книга
Язык источника русский
Описание Пособие направлено на повышение научного уровня
преподавания общей фонетики и фонетики английского языка,
координации русских и английских фонетических терминов, а также
терминов из смежных дисциплин и областей науки, тесно связанных
с фонетикой.
Библиографическая ссылка Трахтеров А.Л. Английская
фонетическая терминология. М., Изд-во литературы на
иностранных языках, 1962
Дескриптор человеко-машинный перевод
язык
русский
определение 1 Системы человеко-машинного перевода
выполняют перевод в интерактивном режиме.
определение 2 Все методы и системы, автоматизирующие
процесс перевода, независимо от того, выполняет основную часть
работы человек или компьютер. (перевод)
автор словарной статьи Кононенко И.С.
Встречается дескриптор в
Источник Учебник Баранова А.Н.
Дается определение в
Источник определение 1 Справочник по искусственному
интеллекту
Источник определение 2 Статья Boitet
Выше род
Дескриптор машинный перевод
Аспект деления иерархии участие человека
Ниже вид
Дескриптор автоматизированный перевод
Дескриптор машинный перевод с участием человека Аспект
деления иерархии участие человека
Синоним
Аскриптор человекомашинный перевод
Аскриптор ЧМП
Эквивалент на другом языке
Дескриптор machine aided translation
Аскриптор ЧМП
язык
русский
автор словарной статьи Кононенко И.С.
Встречается аскриптор в
Источник Учебник Баранова А.Н.
Смотри
Дескриптор Человеко-машинный перевод
Общий пример
Дескриптор автоматизированный перевод
язык
русский
определение 1 Перевод текстов на компьютере с
использованием компьютерных технологий.
От машинного перевода он отличается тем,
что весь процесс перевода осуществляется
человеком, компьютер лишь помогает ему
произвести готовый текст либо за меньшее
время, либо с лучшим качеством.
автор словарной статьи Кононенко И.С.
Дается определение в
Источник определение 1 Интернет
энциклопедия «Википедия»
Встречается дескриптор в
Источник Коллекция текстов Диалог 20002010 Частота 8
Синоним
Аскриптор человеческий перевод с участием
машины
Выше род
Дескриптор человеко-машинный перевод
Аспект деления иерархии участие человека
Эквивалент на другом языке
Дескриптор machine-aided human translation
Пример описания дескриптора
Пример описания дескриптора
Пример описания аскриптора
Пример описания дескриптора
Пример описания документа
Реализация прототипа электронного
тезауруса

Для разработки тезауруса по КЛ была использована методология и
программные компоненты технологии построения порталов
научных знаний, которая была ранее применена для создания
порталов знаний по археологии и компьютерной лингвистике.

Данная технология базируется на онтологии и предоставляет
средства настройки на предметную область, средства создания и
редактирования контента информационной системы, а также
средства навигации и поиска.

Средства настройки на предметную область достаточно хорошо
подходят для разработки концептуальной схемы тезауруса, а
остальные из перечисленных средств могут выполнять роль его
основных программных компонентов.

Эта технология удобна для моделирования тезауруса, когда его
структура и состав словарных статей еще окончательно не
определены и могут меняться в процессе разработки.
Онтология представления знаний
OR  C , R,T , D, A, F , Ax , где
C  C1,..., Cn  – конечное непустое множество классов,
описывающих понятия некоторой предметной или проблемной
области;
R   R1 ,..., Rm , Ri  C  C, R  {RT }  {RP }  RA – конечное
множество бинарных отношений, заданных на классах (понятиях);
T – множество стандартных типов;
D  { d1 ,..., d n } – множество доменов di  { s1 ,..., sk };
A   a1 ,..., aw  – конечное множество атрибутов, описывающих
свойства понятий C и отношений RA ;
F – множество ограничений на значений атрибутов понятий и
отношений, т.е. предикатов вида pi (e1 ,..., em ) ;
Ax – множество аксиом, задающих дополнительную семантику
классов и отношений онтологии.
Концептуальная схема тезауруса
Th  Tr, S , At, R, P, Axt
, где
Tr  A  D
– конечное непустое множество терминов,
представляющих понятия некоторой предметной области;
S – множество источников терминов;
At   at1 ,..., at w  – множество атрибутов, описывающих свойства
источников и терминов;
R  R T  R TS – конечное множество отношений, заданных на
терминах и источниках терминов;
P  P1 ,... Pn  – множество формальных свойств отношений R T ;
Axt – множество аксиом, задающих дополнительные ограничения
на связи между терминами.
Задание структурных единиц тезауруса,
отношений и их свойств

В редакторе онтологий описывается концептуальная схема
тезауруса, в которой определяется структура тезаурусных статей,
вид и свойства отношений, задаваемых между терминами, а также
характеристики источников терминов и их определений.

Для отношений могут быть заданы не только структурные свойства
отношений (типы их аргументов и ограничения на существование
(число) и обязательность связей), но и формальные
(математические) свойства – симметричность, рефлексивность,
транзитивность, асимметричность, антирефлексивность, а также
обратные отношения.

Эти свойства используются встроенными в редактор данных
механизмами контроля и вывода для поддержки логической
целостности системы понятий тезауруса. В частности, на основе
этих свойств происходит корректное установление связей между
терминами тезауруса, при необходимости осуществляется их
автоматическое добавление и/или удаление.
Обеспечение корректного установления
связей между терминами
Свойства отношения «Смотри»:
- обратное отношение «Синоним»,
- возможна только одна связь данного типа для каждого терминааскриптора.
Смотри (АВТОМАТИЧЕСКИЙ ПЕРЕВОД, МАШИННЫЙ ПЕРЕВОД)
+ Синоним (МАШИННЫЙ ПЕРЕВОД, АВТОМАТИЧЕСКИЙ ПЕРЕВОД)
Для аскриптора АВТОМАТИЧЕСКИЙ ПЕРЕВОД будет
обеспечиваться запрет на создание связей «Смотри» и «Синоним»
с другими дескрипторами.
Навигация по контенту тезауруса

Удобный доступ к терминам тезауруса обеспечивается
пользовательским web-интерфейсом, предоставляемым
технологией построения порталов научных знаний.

В этом интерфейсе содержимое тезауруса представляется
пользователю в виде сети взаимосвязанных информационных
объектов – элементов тезауруса: терминов и описаний источников
терминов и их определений.

При навигации по тезаурусу обеспечивается возможность выбора
необходимых пользователю терминов, детального просмотра их
описаний (тезаурусных статей), а также источников (публикаций или
коллекций текстов), в которых встречается термин и/или его
определение.
Навигация по контенту тезауруса
Навигация по контенту тезауруса
Навигация по контенту тезауруса
Методика выбора терминов для
включения в тезаурус
Две проблемы:

подбор терминов – кандидатов на включение в тезаурус,

выбор терминов-дескрипторов из множеств синонимичных
терминов.
Подбор терминов – кандидатов

В качестве основного источника русскоязычных терминов была
выбрана коллекция текстов докладов, представленных на
международной конференции «Диалог» в 2000-2010 гг.

Для английской части словника, с учетом русско-английской
направленности создаваемого тезауруса выбирались
переводные эквиваленты из доступных англоязычных
источников по КЛ.

Чтобы дополнить картину российской части КЛ в тех ее
разделах, где имеются пробелы, при сборе терминов по таким
разделам пришлось опираться преимущественно на
англоязычные источники: в частности, предметные указатели
нескольких современных и наиболее авторитетных
англоязычных книжных источников обзорно-учебного профиля
и глоссарии, входящие в документацию известных звуковых
анализаторов.
Выбор основного термина-дескриптора
из множества синонимичных терминов

Эта проблема связана с появлением новых понятий и
соответствующих им терминов.

Пример: термин translation memory (в сфере
автоматизированного перевода);
Практики-переводчики предлагают: память переводов,
научное сообщество: переводческая память
(синонимический ряд: переводческая память – 8, память
переводов – 0, архив переводов – 1, накопитель переводов – 0,
копилка переводов – 0) .
Выбор основного термина-дескриптора
из множества синонимичных терминов

Развитие некоторых направлений КЛ привело к столкновению
вариантов старых терминов.

Так, тезаурус ИНИОН и ЛЭС основным термином в паре
автоматический перевод и машинный перевод считают
автоматический перевод, присвоив ему статус дескриптора.
Однако показатели встречаемости в коллекции «Диалог»
говорят в пользу термина машинный перевод:
машинный перевод – 318 vs. автоматический перевод – 58 .
Интернет-энциклопедии «Википедия» и «Кругосвет», а также
учебники придерживаются этой же традиции.

Таким образом, при выборе терминов дескрипторов мы
опирались не только на статистику, но и на традиции
словоупотребления, сложившиеся к настоящему времени в
лингвистическом научном сообществе.
Текущее состояние
Тезаурус включает термины из пяти основных терминологических
областей:

1. Автоматическая обработка текста.

2. Речевые технологии.

3. Корпусная лингвистика.

4. Информационный поиск.

5. Машинный перевод.

а также термины, которые могут быть отнесены к теоретической
компьютерной лингвистике.
Текущее состояние
Сейчас в тезаурусе

Терминов около 1150, из них

Дескрипторов – около 730

Аскрипторов – около 420

Видов связей между терминами – около 20

Связей между терминами – около 3700

Источников терминов и их определений – 128
Заключение

Представлен подход к разработке русско-английского электронного
тезауруса по компьютерной лингвистике, общий состав и структура
которого были разработаны на основе международных и
отечественных стандартов.

В качестве инструмента разработки использовались ранее
созданных в нашем коллективе инструментальные и программные
средств, предоставляемые технологией построения порталов
научных знаний.

Благодаря тому, что эта технология базируется на онтологии, с
помощью которой описывается концептуальная схема тезауруса,
обеспечивается не только целостность и непротиворечивость
терминологической системы тезауруса, но и удобный доступ к его
контенту.

Эта технология может быть использована для построения
многоязычных тезаурусов для любых языков и предметных
областей.
Download