МОДЕЛИ КОРПУСНОЙ ЛИНГВИСТИКИ

advertisement
НИУ ВШЭ – Нижний Новгород
Программа дисциплины «Модели корпусной лингвистики» для направления 010400.68 «Прикладная математика и информатика» подготовки магистра
Правительство Российской Федерации
Нижегородский филиал
Федерального государственного автономного образовательного
учреждения высшего профессионального образования
"Национальный исследовательский университет
"Высшая школа экономики"
Факультет бизнес-информатики и прикладной математики
Программа дисциплины
«Модели корпусной лингвистики»
для направления 010400.68 «Прикладная математика и информатика»
подготовки магистра
Магистерская программа «Прикладная математика и информатика»
Специализация «Компьютерная лингвистика»
Автор программы:
Захаров В.П., к.ф.н., ИЛИ РАН, vs1311@yandex.ru
Cибирцева В.Г., к.ф.н., НИУ ВШЭ-Нижний Новгород, vsibirtseva@hse.ru
Одобрена на заседании кафедры прикладной лингвистики и межкультурной коммуникации
«30» октября 2012 г.
Зав. кафедрой докт. филол.н., проф.В.Г.Зусман _______________________
«
Рекомендована секцией УМС «Гуманитарные науки» «30 » октября 2012г.
Председатель В.Г. Зусман _______________________
Утверждена УМС НИУ ВШЭ – Нижний Новгород «25» декабря 2012г.
Председатель Н.С. Петрухин ________________________
Нижний Новгород, 2012
Настоящая программа не может быть использована другими подразделениями университета и другими вузами без разрешения кафедры-разработчика программы
НИУ ВШЭ – Нижний Новгород
Программа дисциплины «Модели корпусной лингвистики» для направления 010400.68 «Прикладная математика и информатика» подготовки магистра
1. Область применения и нормативные ссылки
Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности.
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 010400.68 "Прикладная математика и информатика", обучающихся по магистерской программе
"Прикладная математика и информатика", специализация «Компьютерная
лингвистика», изучающих дисциплину.
Программа разработана в соответствии с:
 образовательным стандартом НИУ ВШЭ для направления 010400.68
«Прикладная математика и информатика»;
 Образовательной программой направления 010400.68 «Прикладная математика и информатика» (магистерская программа "Прикладная математика и информатика" специализация «Компьютерная лингвистика»).
 Рабочим учебным планом университета по направлению подготовки
010400.68 «Прикладная математика и информатика» (магистерская программа "Прикладная математика и информатика" специализация «Компьютерная лингвистика»), утвержденным в 2012г.
2. Цели освоения дисциплины
Цель освоения дисциплины «Модели корпусной лингвистики» состоит в том, чтобы познакомить студентов с концепциями корпусной лингвистики, дать им возможность освоить основы корпусных технологий, приобрести
навыки работы с корпусами, определить место дисциплины и собственно корпусов в ряду информационных технологий.
3. Компетенции обучающегося, формируемые в результате освоения
дисциплины
В результате обучения студент:
- должен знать:
основные понятия корпусных технологий
основные типы корпусов
понятие разметки
основные стандарты разметки
средства создания корпусов
основные имеющиеся корпуса
типы программных средств для работы с корпусами в целом
поисковые средства (конкордансеры и корпусные менеджеры)
- должен уметь:
НИУ ВШЭ – Нижний Новгород
Программа дисциплины «Модели корпусной лингвистики» для направления 010400.68 «Прикладная математика и информатика» подготовки магистра
работать с программами-менеджерами и конкордансерами
осуществлять поиск и исследования на базе корпусов.
В результате освоения дисциплины студент осваивает следующие компетенции (в соответствии с НИУ ВШЭ по направлению подготовки 010400.68
«Прикладная математика и информатика»):
Формы и методы обуДескрипторы – основные
чения, способствуюКод по признаки освоения (покаКомпетенция
щие формированию и
НИУ затели достижения резульразвитию компетентата)
ции
Способен к обобщению,
Формы обучения:
Системные компеанализу, восприятию ин-лекции,
тенции:
-способен рефлексиформации
-семинарские занятия,
ровать (оценивать и
-самостоятельная раперерабатывать)
бота,
освоенные научные СК-реферирование научметоды и способы М1
ной литературы.
деятельности;.
- способен к само- СКстоятельному освое- М3
нию новых методов
исследования;
- способен при необходимости
выпол- СКнять и синтезировать М6
недостающую
информацию.
НИУ ВШЭ – Нижний Новгород
Программа дисциплины «Модели корпусной лингвистики» для направления 010400.68 «Прикладная математика и информатика» подготовки магистра
Компетенция
Социальноличностные и общекультурные:
способен разрешать мировоззренческие, социально и
личностно значимые
проблемы;
Инструментальные
компетенции:
- способен анализировать и воспроизводить смысл междисциплинарных
текстов с использованием языка и аппарата
прикладной математики;
- способен публично
представлять результаты
профессиональной деятельности (в том числе с
использованием информационных технологий);
- способен понимать
и применять в исследовательской и прикладной деятельности современный математический аппарат.
Дескрипторы – основные
Код по признаки освоения (покаНИУ затели достижения результата)
Знает содержание основных понятий корпусной
лингвистики,
методологию корпусного
анализа
СЛКМ6
ИКМ2.1п
ми
ИК- Сопоставляет информацию
М2.5 из разных предметных областей
Умеет разрабатывать экспертную шкалу оценки
ИКМ7.3п
ми
Формы и методы обучения, способствующие формированию и
развитию компетенции
Методы обучения:
-поисковые задачи,
-проблемные ситуации,
-проектирование
(например, корпуса
текстов),
-моделирование.
НИУ ВШЭ – Нижний Новгород
Программа дисциплины «Модели корпусной лингвистики» для направления 010400.68 «Прикладная математика и информатика» подготовки магистра
4. Место дисциплины в структуре образовательной программы
Настоящая дисциплина относится к блоку обязательных дисциплин программы (базовая часть) для направления «Прикладная математика и информатика» (1-й год обучения,1-2 модули). Основные положения дисциплины должны
быть использованы одновременно и в дальнейшем при изучении следующих дисциплин: структуры и модели когнитивной лингвистики; основы компьютерной
лингвистики.
5. Тематический план учебной дисциплины
№
1
2
3
4
5
6
Название раздела
Введение в корпусную
лингвистику.
Обзор существующих корпусов различных типов.
История создания корпусов.
Зарубежные национальные
корпусы. Корпусы русского
языка. Специальные корпусы.
Создание корпусов.
Корпусные менеджеры. Языки
запросов. Выходные интерфейсы.
Использование корпусов.
Корпусные исследования.
Использование корпусов в социологии, исторической науке
и др.
Всего
Всего
часов
24
61
12
8
41
101
14
14
43
37
4
8
25
25
2
2
21
216
36
34
146
6. Формы контроля знаний студентов
Тип
контроля
Текущий
(неде-
Форма
контроля
Контрольная работа
Реферат
Аудиторные часы
СамоПракстояСеЛектичетельная
миции
ские
работа
нары
занятия
6
2
16
1 год Параметры
1м 2м
12 Письменная, 90 мин
17 защита в виде до-
НИУ ВШЭ – Нижний Новгород
Программа дисциплины «Модели корпусной лингвистики» для направления 010400.68 «Прикладная математика и информатика» подготовки магистра
ля)
Домашнее
задание
Итоговый
Экзамен
клада
Полекционное, 1
неделя на подготовку
18 Устный, 10 мин на
ответ
1. Критерии оценки знаний, навыков
Результатом проверки работы студентов является оценка, выставляемая по 10-ти
балльной шкале в соответствии со следующими критериями.
Высшая оценка(10 баллов) выставляется при качественной подготовке теоретических вопросов к устной части зачёта по всему курсу, при отсутствии фактических ошибок в контрольной работе ( допускается 1-2 негрубые ошибки, которые
студент сам исправляет в беседе с преподавателем).
Оценка 8-9 баллов предполагает качественную подготовку к устной части зачёта,
1-2 фактические ошибки в контрольной работе.
Оценка 6-7 баллов выставляется при наличии отдельных неточностей, допускает
частичную неполноту ответа и 1-4 фактические ошибки в контрольной работе.
Оценка в 5 баллов выставляется, если контрольная работа содержит более 5 ошибок и устный ответ содержит значительное количество ошибок.
4 балла выставляется, если обнаружены значительные пробелы в области теоретических знаний и при наличии серьёзных ошибок в контрольной работе.
Оценка в 3 балла выставляется при наличии лишь отдельных положительных моментов в устном ответе или в контрольной работе.
2 балла выставляется при полном отсутствии знаний.
1;0 – неправильные ответы сопровождаются демонстративными проявлениями
безграмотности или неэтичного отношения к теме и предмету в целом.
7. Содержание дисциплины
Дисциплина состоит из трех частей, которые могут изучаться как последовательно, так и каждая в отдельности:
Часть 1. Введение в корпусную лингвистику (18 лекций, 10 семинаров).
Основные понятия и определения. Лингвистические (языковые) и нелингвистические корпусы. Обзор существующих корпусов различных типов. История лингвистических корпусов: от картотеки к корпусу. Корпусная лингвистика: современное состо-
НИУ ВШЭ – Нижний Новгород
Программа дисциплины «Модели корпусной лингвистики» для направления 010400.68 «Прикладная математика и информатика» подготовки магистра
яние. Зарубежные национальные корпусы. Корпусная лингвистика в России. Специальные корпусы.
Часть 2. Создание корпусов (14 лекций, 14 семинаров).
Экстралингвистическая разметка. Метаданные. Графематический анализ.
Лингвистическая разметка. Автоматическая морфологическая и синтаксическая
разметка. Снятие неоднозначности. Параллельные корпусы. Многоязычие. Проблема выравнивания.
Конкордансер и корпусный менеджер как поисковая система. Сравнение с
архитектурой поисковых систем в сети Интернет. Языки запросов корпусных менеджеров. Выходные интерфейсы. Обзор существующих корпусов различных типов. Сравнительный анализ корпусов и корпусных менеджеров. Классификация
(типология) корпусов по различным основаниям. Типы корпусов по задачам. Типы корпусов по формальным признакам. Языковые средства представления размеченных текстов. Международные стандарты и проекты (TEI, EAGLES, CDIF,
XCES).
Часть 3. Использование корпусов (6 лекций, 10 семинаров).
Лингвистические исследования, базирующиеся на корпусах. Использование
корпусов в обучении языкам и в других гуманитарных исследованиях. Использование корпусов в настройке и самообучении лингвистических автоматов.
Все три части между собою связаны, так, например, методы создания корпусов
определяются их назначением и типологией, которые рассматриваются в первой
части. Языки запросов и возможности корпусных менеджеров во многом определяются разметкой, которая рассматривается в третьей части.
8. Образовательные технологии
Дистанционные лекции, семинары, разбор практических задач по НКРЯ; встреча с
ведущими специалистами-разработчиками НКРЯ, мастер-классы ведущих ученых.
9. Оценочные средства для текущего контроля и аттестации
студента
1. Вопросы для оценки качества освоения дисциплины
Примерная тематика рефератов
Способы использования корпусов в лингвистических исследованиях.
Исследование способов использования корпусов в лексикографии.
Изучение средств обработки корпусных данных, представленных на языке
XML.
Создание электронной хрестоматии по корпусной лингвистике.
Создание веб-сайта по корпусной лингвистике.
Графематический анализ текстов.
НИУ ВШЭ – Нижний Новгород
Программа дисциплины «Модели корпусной лингвистики» для направления 010400.68 «Прикладная математика и информатика» подготовки магистра
Унификация текстов внутри корпуса 19 века.
Автоматическая морфологическая разметка текстов 19 века.
Исследование набора метаданных для корпуса 19 века.
База данных «Морфологический словарь языка 19 века».
Создание параллельного англо-русского корпуса.
Методы снятия морфологической неоднозначности.
Исследование механизмов взаимодействия корпуса текстов и электронной
картотеки (корпусы цитат).
2. Примеры заданий итогового контроля
Вопросы к экзамену
Дать определения терминов:
Корпус
Разметка
Репрезентативность
Метаданные
Корпусный менеджер
Treebank
Лемматизация
Конкорданс
Параллельный корпус
Перечислить типы корпусов
Назвать и охарактеризовать наиболее известные корпусы.
Проблемы репрезентативности корпусов.
Проблемы хронологии в общеязыковых корпусах.
Отбор текстов для корпусов.
Графематический анализ.
Понятие разметки.
Типы разметки.
Морфологическая разметка.
Синтаксические корпуса.
Семантическая разметка.
Технология создания корпусов. Стадии работы.
Автоматическая морфоразметка.
Автоматический синтаксический анализ (parsing).
Языковые средства представления размеченных текстов (языки SGML, XML).
Международные стандарты (TEI, EAGLES, CDIF, XCES).
10. Порядок формирования оценок по дисциплине
В течение семестра студентами выполняются практические домашние
работы, подготавливаются рефераты по одной из выбранных тем, которые
«защищаются» в конце курса в виде докладов. В конце курса — экзамен.
НИУ ВШЭ – Нижний Новгород
Программа дисциплины «Модели корпусной лингвистики» для направления 010400.68 «Прикладная математика и информатика» подготовки магистра
Накопленная оценка по 10-ти балльной шкале за работу на семинарских и
практических занятиях определяется перед итоговым контролем.
Онакопл.= 0,35·Осам.работа + 0,2·Оконтрольная работа + 0,2·Оаудиторная активность+
0,25·Озащита реферата
Оитоговый = 0,25·Оэкзамен + 0,75·Онакопленная
Способ округления оценок – арифметический.
11. Учебно-методическое и информационное обеспечение
дисциплины
1.
Основная литература
В.П. Захаров В.П., Богданова С.Ю. Корпусная лингвистика. - Иркутск,
ИГЛУ, 2011.
2. Дополнительная литература
1. Богуславский И.М. и др. Аннотированный корпус русских текстов: Концепция, инструменты разметки, типы информации // Труды Международного семинара по компьютерной лингвистике и ее приложениям
«Диалог-2000». Протвино, 2000.
2. Венцов А.В., Касевич В.Б., Ягунова Е.В. Корпус русского языка и восприятие речи // Научно-техническая информация. Сер. 2. 2003. № 6. С. 25–
32.
3. Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под ред. А.С. Герда. СПб., 2002.
4. Захаров В.П. Чешский национальный корпус текстов: организация и способы использования // Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под ред. А.С. Герда. СПб.,
2002. С. 72–79.
5. Копотев М.В. Корпусная лингвистика в Финляндии (обзор ресурсов) //
Научно-техническая информация. Сер. 2. 2003. № 6. С. 37–41.
6. Копотев М.В., Мустайоки А. Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети Интернет // Научно-техническая информация. Сер. 2. 2003. № 6. С. 33–36.
7. Труды Международного семинара по компьютерной лингвистике и ее
приложениям «Диалог-2000» - «Диалог-2011».
8. Aarts Jan. Комментарий к статье «A New Corpus of English» (Sidney
Greenbaum) // Directions in Corpus Linguistics. Berlin, 1992.
9. Burnard L. The Text Encoding Initiative: an Overview. // Spoken English on
Computer / Leech G., Myers G., Thomas J. (eds.) New York, 1995. P. 223–
235.
10.BNC: The BNC Users Reference Guide, 2000.
НИУ ВШЭ – Нижний Новгород
Программа дисциплины «Модели корпусной лингвистики» для направления 010400.68 «Прикладная математика и информатика» подготовки магистра
11. Leech G. Corpus Annotation Schemes // Literary and Linguistics Computing.
2003. Vol. 8. N. 4. P.275–281
12.Proceedings of the LREC (Language Resource Evaluating Conference). 20022011.
13.Sharoff S. Towards Basic Categories for Describing Properties of Texts in a
Corpus. In Proc. of Language Resources and Evaluation Conference
(LREC04). May, 2004, Lisbon, Portugal // http://www.comp.leeds.ac.uk/
ssharoff/texts/lrec-04.pdf
14. XML Corpus Encoding Standard Document http://www.xces.org/
12. Материально-техническое обеспечение дисциплины
Для лекций и семинаров используется компьютер/ноутбук, проектор, экран.
Составитель
Сибирцева В.Г.
Download