Машинный перевод - Высшая школа экономики

advertisement
Правительство Российской Федерации
Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
"Национальный исследовательский университет
"Высшая школа экономики"
Факультет филологии
Программа дисциплины «Машинный перевод»
для направления 035800.68 «Фундаментальная и прикладная лингвистика»
для магистерской программы «Компьютерная лингвистика»
Автор программы:
Иомдин Л.Л., к.ф.н., iomdin@iitp.ru, Иомдин Б.Л., к. ф. н., iomdin@ruslang.ru
Одобрена на заседании кафедры [Введите название кафедры] «___»____________ 20 г
Зав. кафедрой [Введите И.О. Фамилия]
Рекомендована секцией УМС [Введите название секции УМС] «___»____________ 20 г
Председатель [Введите И.О. Фамилия]
Утверждена УС факультета [Введите название факультета] «___»_____________20 г.
Ученый секретарь [Введите И.О. Фамилия] ________________________ [подпись]]
Москва, 201_
Настоящая программа не может быть использована другими подразделениями университета и другими вузами без разрешения кафедры-разработчика программы.
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Машинный перевод» для направления
035800.68 «Фундаментальная и прикладная лингвистика» подготовки магистра
1
Область применения и нормативные ссылки
Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности.
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов для направления 035800.68 «Фундаментальная и прикладная лингвистика» для
магистерской программы «Компьютерная лингвистика», изучающих дисциплину «Машинный перевод».
Программа разработана в соответствии с:
 Образовательным стандартом федерального государственного автономного образовательного учреждения высшего профессионального образования национального исследовательского университета «Высшая школа экономики», в отношении которого
установлена категория «национальный исследовательский университет»
 Учебным планом университета по направлению подготовки 035800.68 «Фундаментальная и прикладная лингвистика» для подготовки магистра для магистерской программы «Компьютерная лингвистика» утвержденным в 2012г.
2
Цели освоения дисциплины
Целями освоения дисциплины «Машинный перевод» являются:
 получение представления о месте теоретической лингвистики в задачах, решаемых
компьютерной лингвистикой;
 знакомство магистрантов с важнейшими областями междисциплинарных исследований на стыке лингвистики и смежных дисциплинами, в первую очередь компьютерной науки;
 приобретение умения обнаруживать типологические сходства и различия естественных языков, между которыми осуществляется машинный перевод, и творчески использовать эти умения;
 освоение методологии обратной связи, т.е. развитие способности применять полученные при разработке автоматических систем результаты для извлечения новых знаний
о естественном языке;
 ознакомление с современными подходами к решению задачи машинного перевода, в
том числе с правиловыми, гибридными и статистическими подходами и приемами
машинного обучения.
3
Компетенции обучающегося, формируемые в результате освоения дисциплины
Процесс изучения дисциплины направлен на формирование следующих компетенций:
1. Общие научно-исследовательские и профессиональные компетенции
 способность совершенствовать и развивать свой интеллектуальный и общекультурный уровень;
 способность к самостоятельному освоению новых методов исследования, к изменению научного и научно-производственного профиля своей профессиональной деятельности;
 способность самостоятельно приобретать с помощью информационных технологий и
использовать в практической деятельности новые знания и умения, в том числе в новых областях знаний, непосредственно не связанных со сферой деятельности;
 умение анализировать, сопоставлять и критически оценивать различные лингвистические и компьютерно-лингвистические направления, теории и гипотезы;
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Машинный перевод» для направления
035800.68 «Фундаментальная и прикладная лингвистика» подготовки магистра
 способность адаптироваться к новым теориям и результатам мировой науки и расширять сферу научной деятельности, участвовать в междисциплинарных исследованиях
на стыке наук;
 способность выбирать оптимальные теоретические подходы и методы решения конкретных научных и практических задач в области теоретической и компьютерной
лингвистики и новых информационных технологий.
2. Приобретаемые знания
 краткая история машинного перевода в СССР и России и в мире;
 основные цели и задачи, стоящие перед системами машинного перевода;
 основные типы системы машинного перевода;
 основные подходы к построению систем машинного перевода, в частности, эмпирические и основанные на данных;
 современные средства построения систем машинного перевода: системы машинного
обучения, глубокий семантический анализ текстов с помощью онтологии и ризонеров,
интерлингвы, параллельные и одноязычные корпусы текстов разного уровня аннотации;
 знание современной отечественной и зарубежной литературы по проблематике машинного перевода и смежной проблематике.
3. Приобретаемые умения
 Применение полученные знаний с целью разработки систем машинного перевода и
решения других компьютерно-лингвистических задач
 Умение анализировать, структурировать и применять информацию о новейших российских и зарубежных исследованиях и разработках в области машинного перевода;
4. Приобретаемые навыки
 Работа с формальными описаниями грамматики и лексики языка;
 Работа с правилами систем автоматической обработки текстов;
 Работа с компьютерными словарями разного типа и назначения.
В результате освоения дисциплины студент осваивает следующие компетенции:
Компетенция
Способен предлагать концепции,
модели, изобретать и апробировать способы и инструменты профессиональной деятельности.
Способен к самостоятельному
освоению новых методов исследования, изменению научного и
научно-производственного профиля своей деятельности
Способен анализировать, верифицировать, оценивать полноту информации в ходе профессиональной деятельности, при необходимости восполнять и синтезировать
Код по
ФГОС/
НИУ
Дескрипторы – основные признаки освоения (показатели достижения результата)
СК-2
владеет ключевыми моделями,
методами и средствами машинного перевода
СК-3
владеет ключевыми моделями,
методами и средствами машинного перевода
СК-6
обладает указанными навыками
в применении к реализации
профессиональной деятельности в сфере разработки систем
машинного перевода
Формы и методы обучения, способствующие
формированию и развитию компетенции
практические занятия;
обзор и анализ существующих систем машинного перевода
выполнение самостоятельных заданий
анализ полученных данных
практические занятия
(освоение методологии
и инструментария);
выполнение самостоятельных заданий
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Машинный перевод» для направления
035800.68 «Фундаментальная и прикладная лингвистика» подготовки магистра
Компетенция
Код по
ФГОС/
НИУ
Дескрипторы – основные признаки освоения (показатели достижения результата)
недостающую информацию и работать в условиях неопределенности
Способен вести профессиональную, в том числе научноисследовательскую деятельность в
международной среде
СК-8
знает основные российские,
зарубежные и международные
научно-исследовательские и
разработческие коллективы, а
также создаваемые ими подходы, методы и средства
знает международно- признанные эталоны и приемы в области представления знаний в системах машинного перевода,
владеет соответствующими моделями и инструментами
Способен осуществлять лингвистическую обработку текстов в
производственно-практических
целях
4
ПК-17
Формы и методы обучения, способствующие
формированию и развитию компетенции
чтение специальной литературы; обзор и анализ существующих разработок; практические
занятия
чтение специальной литературы; обзор и анализ существующих разработок; практические
занятия
Место дисциплины в структуре образовательной программы
Настоящая дисциплина относится к циклу дисциплин по выбору.
Изучение данной дисциплины базируется на следующих дисциплинах:
 Введение в лингвистику (адаптационный курс) или курс по теории языка программы
подготовки бакалавра;
 Введение в математику (адаптационный курс) или курс по дискретной математики
программы подготовки бакалавра;
 Введение в программирование (адаптационный курс) или начальный курс по программированию программы подготовки бакалавра;
 Компьютерная лингвистика.
Для освоения учебной дисциплины студенты должны владеть следующими знаниями и компетенциями:
 Иметь представление о структуре естественного языка;
 Иметь представление об основных подходах к обработке естественного языка, методах и средствах компьютерной лингвистики;
 Владеть представлениями об основных принципах организации информационных систем;
 Владеть базовыми представлениями в области математической логики;
 Уметь читать научные работы и базовые технологические документы на английском
языке.

5
№
1
Тематический план учебной дисциплины
Название раздела
Лингвистическое моделирование. Действующие модели языка
Всего
часов
12
Аудиторные часы
ПрактиЛекСемические
ции
нары
занятия
2
Самостоятельная работа
10
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Машинный перевод» для направления
035800.68 «Фундаментальная и прикладная лингвистика» подготовки магистра
2
3
4
5
6
7
8
9
6
Грамматика и словарь естественного языка. Краткий обзор формальных грамматик.
Порождающие грамматики. Грамматики
составляющих и грамматики зависимостей. Гибридные грамматики.
Автоматический анализ и синтез текста
различного уровня. Правиловые и статистические подходы к анализу текста.
Языковая неоднозначность разных типов и
методы ее разрешения при автоматической
обработке текста.
Задача машинного перевода в кругу задач
автоматической обработки текста на естественном языке.
Этапы алгоритма систем машинного перевода, основанных на правилах.
Лексикография в системе автоматической
обработки текстов. Лексические функции
Статистический подход к машинному переводу.
Смежные задачи компьютерной лингвистики. Интеллектуальный анализ данных.
Вопросно-ответные системы. Лингвистические онтологии. Современные цифровые
лингвистические ресурсы.
итого
2
2
20
24
2
2
20
11
1
2
8
14
2
2
10
12
2
2
8
24
2
2
20
11
1
2
8
12
2
2
8
144
16
16
112
Формы контроля знаний студентов
Тип кон- Форма контроля
троля
Домашнее
задание
Итоговый
6.1
24
Экзамен
1
1 год
2 3
2
4
Параметры
4
2
6
Решение 5 задач;
Подготовка рефератов и докладов (срок сдачи – следующее семинарское занятие);
Исследование и оценка системы правилового машинного
перевода
+ Устный экзамен, включающий письменную часть объемом 30 минут
Критерии оценки знаний, навыков
1) Коллоквиум, основные навыки: уметь применять полученные знания с целью разработки
практически значимых решений,
2) Домашнее задание, основные навыки: работать с грамматическими правилами, словарями, правилами трансфера, ориентироваться в задачах и методах машинного перевода
Оценки по всем формам текущего контроля выставляются по 10-балльной шкале.
Дистанционная поддержка: студентам высылаются презентации и другие информационные
материалы по каждому разделу, проводится удаленное консультирование путем переписки по электронной почте.
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Машинный перевод» для направления
035800.68 «Фундаментальная и прикладная лингвистика» подготовки магистра
6.2
Порядок формирования оценок по дисциплине
Преподаватель оценивает работу студентов на семинарских и практических занятиях: оценивается активность студента на семинарах, правильность ответов на задаваемые вопросы. Оценки за
работу на семинарских и практических занятиях преподаватель выставляет в рабочую ведомость.
Накопленная оценка по 10-балльной шкале за работу на семинарских и практических занятиях
определяется перед промежуточным или итоговым контролем - Оаудиторная.
Преподаватель оценивает самостоятельную работу студентов: оценивается правильность
выполнения домашних заданий, сформулированных в форме задач, которые выдаются на семинарских занятиях, полнота освещения темы и навыки практической работы с представляемыми методами и средствами, в рамках представляемых подходов при подготовке докладов. Оценки за самостоятельную работу студента преподаватель выставляет в рабочую ведомость. Накопленная оценка
по 10-балльной шкале за самостоятельную работу определяется перед итоговым контролем – Осам.
работа.
Способ округления накопленной оценки текущего контроля: в пользу студента.
Результирующая оценка за итоговый контроль в форме экзамена выставляется по следующей
формуле, где Оэкзамен – оценка за работу непосредственно на экзамене:
Оитоговый = k1·Оэкзамен + k2·Осам. работа + k3·Оаудиторная
При этом удельный вес форм контроля распределяется следующим образом:
k1 = 0,2
k2 = 0,4
k3 = 0,4
Способ округления накопленной оценки итогового контроля в форме экзамена: в пользу студента.
На экзамене студент может получить дополнительный вопрос (дополнительную практическую задачу), ответ на который оценивается в 1 балл.
7
Содержание дисциплины
Раздел 1. Лингвистическое моделирование. Действующие модели языка. Лингвистика как наука о языке. Представление об уровнях представления языка: фонетика,
морфология, синтаксис, семантика. Теория «Смысл – Текст» и возможности ее использования для построения систем автоматической обработки текста. Лингвистика
и прагматика.
Раздел 2. Грамматика и словарь естественного языка. Представление об интегральном описании языка. Краткий обзор формальных грамматик. Порождающие грамматики. Грамматики составляющих и грамматики зависимостей. Гибридные грамматики.
Раздел 3. Автоматический анализ и синтез текста. Морфологический анализ текста.
Синтаксический анализ текста (парсинг). Различные подходы к синтаксическому
анализу: анализ «сверху вниз» и «снизу вверх». Правиловые и статистические подходы к автоматической обработке текста.
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Машинный перевод» для направления
035800.68 «Фундаментальная и прикладная лингвистика» подготовки магистра
Раздел 4. Языковая неоднозначность и методы ее разрешения при автоматической
обработке текста. Неоднозначность как принципиальное свойство языка. Типы
неоднозначности. Интерактивное разрешение лексической и синтаксической неоднозначности. Применение онтологии и других внешних ресурсов для разрешения
неоднозначности. Методы машинного обучения в применении к разрешению однозначности. Корпусные методы.
Раздел 5. Задача машинного перевода в кругу задач автоматической обработки текста на естественном языке. Краткий обзор действующих систем машинного перевода. Автоматический и автоматизированный перевод. Память переводов. Интерлингва. UNL (универсальный сетевой язык) как тип интерлингвы и его использование в
задаче машинного перевода.
Раздел 6. Этапы алгоритма систем машинного перевода, основанных на правилах.
Морфологический компонент системы автоматической обработки текстов. Морфологическая структура слова и предложения. Синтаксический компонент системы
автоматической обработки текстов. Синтаксическая структура предложения. Алгоритм синтаксического анализа. Синтаксические отношения. Синтагмы. Правила
межъязыкового перевода в узком смысле (трансфер). Система машинного перевода
как механизм обратной связи и источник новых лингвистических знаний.
Раздел 7. Лексикография в системе автоматической обработки текстов. Словарь системы автоматической обработки текстов. Словарь системы машинного перевода.
Структура словарной статьи. Синтаксические признаки. Семантические признаки
(дескрипторы). Теория валентностей. Модель управления. Лексические функции в
машинном переводе.
Раздел 8. Статистические системы машинного перевода. Модель языка. Модель перевода. N-граммы. Статистическая поддержка правилового перевода. Оценки систем машинного перевода.
Раздел 9. Смежные задачи компьютерной лингвистики. Информационный поиск.
Интеллектуальный анализ данных. Вопросно-ответные системы. Лингвистические
онтологии. Синонимическое перифразирование высказываний и его прикладное
значение. Некоторые современные цифровые лингвистические ресурсы и их роль в
задачах автоматической обработки текстов. Аннотированные корпусы текстов.
Word Net, Frame Net, Treebanks (включая SynTagRus), Semantic Web.
8
Образовательные технологии
Лекции в интерактивном режиме (во взаимодействии со студентами), разбор практических
заданий и кейсов. Встречи с представителями российских компаний и иностранными специалистами, разрабатывающими системы машинного перевода.
9
9.1
Оценочные средства для текущего контроля и аттестации студента
Вопросы для оценки качества освоения дисциплины
Примерный перечень вопросов к экзамену:
1. Что такое дерево зависимостей?
2. Дерево составляющих и дерево зависимостей: в чем разница?
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Машинный перевод» для направления
035800.68 «Фундаментальная и прикладная лингвистика» подготовки магистра
3. Дерево составляющих и скобочная структура предложения: в чем разница?
4. Что такое синтаксический анализ?
5. Что такое нормализованная синтаксическая структура?
6. Что такое расширенная синтаксическая структура?
7. Что такое сильноуправляемые предлоги и союзы?
8. Что такое синтаксический признак?
9. Что такое модель управления?
10. Каковы различия между синтаксическими и семантическими валентностями слова?
11. Что такое лексическая функция?
12. Что такое трансфер? Каковы этапы трансфера? Что такое треугольник Вокуа?
13. Что такое синтаксический синтез?
14. Что такое морфологический синтез?
Примеры заданий промежуточного /итогового контроля
Билет № 1.
1. Построить МорфС предложения
Для меня загадка, как он смог получить пятерку.
2. Построить СинтС этого предложения.
3. Что такое нормализованная синтаксическая структура?
Билет № 2.
1. Построить МорфС предложения
Что за девушку видел я сегодня в твоем саду?
2. Построить СинтС этого предложения.
3. Что такое трансфер? Приведите примеры правил трансфера в машинном переводе с русского языка на английский.
Билет № 15.
1. Построить МорфС предложения
Я прежде знал его ребенком, а теперь полюбил созревшим человеком. (Тютчев)
2. Построить СинтС этого предложения.
3. Что такое проективность? Какую роль она может играть в алгоритме синтаксического анализа?
Билет № 16.
1. Построить МорфС предложения
Интересно писать просто.
2. Построить СинтС этого предложения.
3. Что такое статистический машинный перевод? Что такое модель языка и модель перевода
в СМТ?
9.2
10 Учебно-методическое и информационное обеспечение дисциплины
10.1 Базовый учебник
Jurafsky, Daniel, and James H. Martin. (2009). Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics . 2nd edition. Prentice-Hall.
10.2 Основная литература
Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце Введение в информационный поиск,
М. Вильямс, 2011
Апресян Ю.Д. Трехуровневая теория управления: лексикографический аспект // Апресян Ю.Д. и др.
Теоретические проблемы русского синтаксиса. Взаимодействие грамматики и словаря. М., 2010.
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Машинный перевод» для направления
035800.68 «Фундаментальная и прикладная лингвистика» подготовки магистра
10.3 Дополнительная литература
1. Apresjan Ju, Boguslavsky I., Iomdin L. et al. ETAP-3 Linguistic Processor: a Full-Fledged NLP Implementation of the MTT // MTT 2003, First International Conference on Meaning – Text Theory (June
16-18 2003). Paris: École Normale Supérieure, 2003. P. 279-288.
2. Philipp Koehn. Statistical Machine Translation. Cambridge University Press. 2009.
3. И. А. Мельчук. Язык: от смысла к тексту. Москва: Языки славянских культур, 2012. 176 с.
4. Boguslavsky I, Iomdin L. Nivre J. Parsing the Russian Dependency Treebank. Proceedings of COLING-2008. Manchester, 2008.
5. Jury D. Apresjan, Igor M. Boguslavsky, Leonid L. Iomdin, Leonid L. Tsinman. Lexical Funtions in Actual NLP-Applications // Selected Lexical and Grammatical Issues in the Meaning–Text Theory. In
honour of Igor Mel'čuk. (Ed. by Leo Wanner). John Benjamins, Studies in Language Companion. Series
84. ISBN 978 90 272 3094 2. 2007. Р. 199-230.
6. New Trends of Research in Ontologies and Lexical Resources: Ideas, Projects, Systems. Eds: Allessandro Oltramari, Piek Vossen, Lu Qin, Eduard Hovy. Springer, Theory and And Applications in
Natural Language Processing Series. 2013.
7. I. Boguslavsky, L. Iomdin, L. Tsinman, V. Sizov, V.Petrochenkov. Rule-Based Dependency Parser Refined by Empirical and Corpus Statistics. Proceedings of the International Conference on Dependency
Linguistics (Depling’2011). Barcelona, September 5-7, 2011, 318–327;
8. I. Boguslavsky. Semantic Analysis based on linguistic and ontological resources. Proceedings of the 5th
International Conference on Meaning-Text Theory (МТТ’2011). Barcelona, September 8 – 9, 2011, 25–
36;
11 Материально-техническое обеспечение дисциплины
Для проведения практических занятий требуются компьютерные классы, для проведения
лекций требуется компьютер, проектор и экран.
Download