Комп. инстр-ты лингв. иссл-я 2к. ФиПЛ 15

advertisement
Правительство Российской Федерации
Нижегородский филиал
Федерального государственного автономного образовательного учреждения высшего профессионального образования
"Национальный исследовательский университет
"Высшая школа экономики"
Факультет гуманитарных наук
Кафедра иностранных языков
Рабочая программа дисциплины
«Компьютерные инструменты лингвистического исследования»
для образовательной программы
45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
Разработчик программы:
Малафеев А.Ю., к.филол.н., aumalafeev@hse.ru
Одобрена на заседании кафедры иностранных языков
«___»____________ 2015 г.
Зав. кафедрой В.М. Бухаров____________
Утверждена «___»____________ 2015 г.
Академический руководитель образовательной программы
45.03.03 «Фундаментальная и прикладная лингвистика»
А.Ю.Малафеев _________________
Нижний Новгород
2015
Настоящая программа не может быть использована другими подразделениями университета и другими вузами без разрешения кафедры-разработчика программы
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Компьютерные инструменты лингвистического исследования»
для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика» уровня подготовки бакалавр
1
Область применения и нормативные ссылки
Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности.
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 45.03.03 «Фундаментальная и прикладная лингвистика», изучающих дисциплину «Компьютерные инструменты лингвистического исследования»
 образовательным стандартом НИУ ВШЭ для направления 45.03.03 «Фундаментальная и
прикладная лингвистика»;
 образовательной программой направления 45.03.03 «Фундаментальная и прикладная
лингвистика»;
 учебным планом университета по направлению подготовки направления 45.03.03 «Фундаментальная и прикладная лингвистика», утвержденным в 2015г.
2
Цели освоения дисциплины
Дисциплина нацелена на приобретение студентами знаний об актуальных компьютерных инструментах и ресурсах, применяемых лингвистами в исследованиях в области корпусной, прикладной и компьютерной лингвистики, а также практических навыков использования этих инструментов. Компьютерные инструменты, изучаемые в рамках дисциплины, включают в себя конкордансеры, корпусные менеджеры, программы для автоматического создания корпусов, лемматизаторы,
стеммеры, морфологические анализаторы и автоматические разметчики текста, регулярные выражения, а также средства языка программирования Python для обработки текстовых данных.
3
Компетенции обучающегося, формируемые в результате освоения дисциплины
В результате освоения дисциплины студент должен:
 Иметь представление о возможностях и ограничениях применения компьютерных инструментов в лингвистических исследованиях; знать основные типы и виды этих инструментов, а также наиболее известные и широко применяемые корпусы / программы / вебсервисы, нацеленные на работу с текстом на английском, русском и других языках.
 Уметь определять функциональность и способы применения новых компьютерных инструментов, осваивать их на основе уже имеющихся знаний и навыков, интерпретировать
данные, полученные с помощью этих инструментов, сравнивать и оценивать функциональность инструментов по результатам работы с ними.
 Иметь навыки (приобрести опыт) работы с несколькими существующими иноязычными и
русскоязычными корпусами, корпусными менеджерами, тэггерами, а также формулирования сложных лингвистических запросов с использованием специальных обозначений и
регулярных выражений, разметки текстов и чтения разметки, выполнения корпусных мини-исследований, проектирования собственного корпуса, создания небольших специализированных корпусов.
В результате освоения дисциплины студент осваивает следующие компетенции:
Компетенция
Универсальные
тенции:
Код по
единому
классификатору
Дескрипторы – основные признаки
освоения (показатели достижения
результата)
Формы и методы обучения, способствующие
формированию и развитию компетенции
компе-
2
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Компьютерные инструменты лингвистического исследования»
для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика» уровня подготовки бакалавр
Компетенция
Код по
единому
классификатору
Дескрипторы – основные признаки
освоения (показатели достижения
результата)
Формы и методы обучения, способствующие
формированию и развитию компетенции
Способен выявлять научную сущность проблем в
профессиональной области.
(УК-2)
(СК-Б3)
Анализирует лингвистические проблемы и задачи; понимает, какие
научные теории и методики могут
быть использованы для их решения.
Лекции, семинары, самостоятельная работа, работа в группах
Способен решать проблемы в профессиональной
деятельности на основе
анализа и синтеза.
(УК-3)
(СК-Б4)
Анализирует конкретные лингвистические задачи; предлагает пути
их решения на основе опыта и знаний об аналогичных или смежных
задачах.
Самостоятельная работа,
групповая работа, проекты
Способен оценивать потребность в ресурсах и
планировать их использование при решении задач в
профессиональной деятельности.
(УК-4)
(СК-Б5)
Демонстрирует понимание того,
какие ресурсы необходимы для решения задач прикладной лингвистики, а также как целесообразно использовать эти ресурсы.
Семинары, самостоятельная работа, групповая
работа, проектная деятельность
Способен работать с информацией: находить, оценивать и использовать информацию из различных
источников, необходимую
для решения научных и
профессиональных задач
(в том числе на основе системного подхода)
(УК-5)
(СК-Б6)
Находит, оценивает и использует
информацию о существующих методах, ресурсах и подходах к решению задач в области прикладной
лингвистики; умеет соотносить полученную информацию с системой
общелингвистического знания.
Семинары, самостоятельная работа, групповая
работа, проектная деятельность
Способен вести исследовательскую деятельность,
включая анализ проблем,
постановку целей и задач,
выделение объекта и
предмета исследования,
выбор способа и методов
исследования, а также
оценку его качества.
Профессиональные компетенции:
(УК-6)
(СК-Б7)
Проводит индивидуальные и групповые мини-исследования в области
корпусной лингвистики.
Самостоятельная работа,
групповая работа, проектная деятельность
Способен проводить формализацию лингвистических знаний, анализ и синтез
лингвистических
структур, квантитативный
анализ
лингвистических
данных с использованием
математических знаний и
методов.
ПК-2
Анализирует лингвистические данные при проведении самостоятельных и групповых миниисследований.
Семинары, самостоятельная работа, групповая
работа, проектная деятельность
3
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Компьютерные инструменты лингвистического исследования»
для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика» уровня подготовки бакалавр
Компетенция
Код по
единому
классификатору
Дескрипторы – основные признаки
освоения (показатели достижения
результата)
Формы и методы обучения, способствующие
формированию и развитию компетенции
Способен создавать и редактировать тексты профессионального назначения, в том числе квалификационные работы, тезисы,
презентации, научные статьи.
ПК-3
Успешно готовит и проводит презентации мини-исследований.
Семинары, самостоятельная работа, групповая
работа, проектная деятельность
Способен проводить сбор
и документацию лингвистических данных.
ПК-6
Успешно собирает и систематизирует данные, полученные в ходе групповых и индивидуальных миниисследований.
Семинары, самостоятельная работа, групповая
работа, проектная деятельность
Способен спланировать и
провести лингвистический
эксперимент, описать его
результаты и сформулировать выводы.
ПК-7
Успешно проводит индивидуальные
и групповые лингвистические эксперименты, представляет их результаты на семинарах.
Семинары, самостоятельная работа, групповая
работа, проектная деятельность
Социально-личностные
компетенции:
Способен к осознанному
целеполаганию, профессиональному и личностному
развитию
СЛК-Б3
Обосновывает для себя необходимость изучения и практики в области корпусной лингвистики для
профессионального и личностного
развития
Лекции, семинары, групповые дискуссии
Способен к социальному
взаимодействию, к сотрудничеству и разрешению конфликтов
СЛК-Б4
Оценивает предложения коллег в
контексте проектной деятельности,
обосновывает собственную позицию
Проекты, групповая работа
1.1ПД
Обосновывает принятые решения,
оценивает проекты коллег
Проекты, групповая работа, презентации
Инструментальные компетенции:
Способен участвовать в
проектной деятельности
Способен грамотно и аргументировано публично
представлять результаты
своей деятельности (научной, профессиональной и
др.), используя современные средства ИКТ
ИКПрименяет современные средства
Б2.5.2_3.1 ИКТ для презентации результатов
_3.2
своей деятельности в области корпусной лингвистики
Семинары, презентации,
групповые дискуссии
4
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Компьютерные инструменты лингвистического исследования»
для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика» уровня подготовки бакалавр
4
Место дисциплины в структуре образовательной программы
Настоящая дисциплина относится к циклу гуманитарных дисциплин для направления
45.03.03 «Фундаментальная и прикладная лингвистика». Дисциплина изучается на втором курсе, в
3 и 4 модулях.
Изучение данной дисциплины базируется на следующих дисциплинах: «Введение в лингвистику», «Теория языка». При практической работе на семинарах студенты используют навыки, полученные в рамках освоения дисциплины «Программирование».
Основные положения дисциплины должны быть использованы в дальнейшем при изучении
дисциплин «Автоматическая обработка естественного языка (преподается на английском языке)»,
«Современные лингвистические теории (преподается на английском языке)», «Методика текстового
анализа. Корпусные методы исследования», полученные практические навыки – при освоении дисциплины «Практикум по проектированию и разработке лингвистических систем и компонентов».
5
№
1
2
3
4
5
6
Тематический план учебной дисциплины
Название раздела
Введение в корпусную лингвистику
20
История создания и типология англоязыч22
ных корпусов
Создание корпусов
22
Корпусы русского языка
22
Обзор компьютерных инструментов. Ис22
пользование корпусов
Всего
104
Количество зачетных единиц на дисциплину – 3.
Аудиторные часы
ПрактиЛекСемические
ции
нары
занятия
6
8
Самостоятельная
работа
8
7
6
7
8
8
8
7
7
7
7
7
7
40
34
34
Формы контроля знаний студентов
Тип кон- Форма контроля
троля
Итоговый Экзамен
6.1
Всего
часов
1 год
3
4
+
Параметры
Устный, 2 вопроса на билет, 30 минут на подготовку,
10 минут на ответ. Дополнительные вопросы в случае
спорной оценки (без времени на подготовку)
Критерии оценки знаний, навыков
Студент должен продемонстрировать знание основных понятий и актуальных проблем корпусной лингвистики в объеме, достаточном для осуществления практической деятельности в области корпусных технологий и исследований. Студент должен обладать навыками эффективного использования компьютерных инструментов, изучаемых в рамках дисциплины.
Оценки по всем формам текущего контроля выставляются по 10-ти балльной шкале.
Несколько студентов освобождаются "автоматом" при условии 80% посещения лекций и отличной работы на семинарах. "Автомат" подразумевает оценку не ниже 8 баллов.
5
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Компьютерные инструменты лингвистического исследования»
для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика» уровня подготовки бакалавр
6.2
Порядок формирования оценок по дисциплине
Преподаватель оценивает работу студентов на практических занятиях: результаты проверочных работ, активность в дискуссиях, ответы на вопросы преподавателя, выполнение мини-проектов
и командных заданий. Оценки за работу на практических занятиях преподаватель выставляет в рабочую ведомость. Накопленная оценка по 10-ти балльной шкале (среднее арифметическое) за работу на практических занятиях определяется перед итоговым контролем.
Результирующая оценка за дисциплину рассчитывается следующим образом:
Орезульт = 0,5 * Онакопл + 0,5 * Оэкз
Способ округления – арифметический.
На пересдаче студенту не предоставляется возможность получить дополнительный балл для
компенсации оценки за текущий контроль.
7
Содержание дисциплины
В содержание дисциплины «Компьютерные инструменты лингвистического исследования»
входит изучение следующих вопросов: краткий обзор актуальных проблем корпусной, прикладной
и компьютерной лингвистики; понятие корпуса, дихотомия корпус и текст; типология корпусов;
история создания и критерии оценки корпусов; конкордансеры и корпусные менеджеры; возможности и ограничения языков запросов; методика создания корпусов; методы автоматического создания корпусов; стеммеры, лемматизаторы, морфологические анализаторы; программы для автоматической морфологической, синтаксической и семантической разметки текстов; средства визуализации синтаксических деревьев; регулярные выражения; средства языка программирования Python
для обработки текста.
1. Раздел 1. Введение в корпусную лингвистику
(3 ч. лекций, 1 ч. практ. занятий)
Основные понятия корпусной лингвистики. Понятие корпуса. Корпус и текст. Корпусная
лингвистика как дисциплина. Виды и свойства корпусов. Web as a corpus. Применение корпусов. Значение корпусов. Корпусы и компьютерная лингвистика. Разметка. Конкорданс,
конкордансер. Критика корпусной лингвистики.
2. Раздел 2. История создания и типология англоязычных корпусов
(8 ч. лекций, 4 ч. практ. занятий)
Создание англоязычных корпусов – периодизация. Первые машиночитаемые корпусы. Брауновский корпус. Ланкастерско-Осло-Бергенский корпус. Синтаксически размеченные корпусы. The Penn Treebank. Британский национальный корпус. Международный корпус английского языка. Корпус «Банк английского». Корпус современного американского английского.
Оксфордский корпус английского. Корпусы TenTen. Корпус Google Books Ngram. Корпусы с
семантической разметкой. FrameNet. Groningen Meaning Bank.
3. Раздел 3. Создание корпусов
(1 ч. лекций, 2 ч. практ. занятий)
Проектирование корпусов. Техпроцесс создания корпусов. Машинная обработка текстов: токенизация, лемматизация, стемминг, парсинг. Автоматическая разметка. Проблема авторских
прав. Стандартизация. Техники бутстрэпинга.
6
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Компьютерные инструменты лингвистического исследования»
для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика» уровня подготовки бакалавр
4. Раздел 4. Корпусы русского языка
(4 ч. лекций, 3 ч. практ. занятий)
Уппсальский корпус русского языка. Тюбингенские корпусы русских текстов. Компьютерный корпус текстов русских газет конца XX века. Система Диктум-1. Большой Корпус русского языка. Машинный фонд русского языка. Корпус русского литературного языка. ХАНКО. НКРЯ. OpenCorpora.
5. Раздел 5. Обзор компьютерных инструментов. Использование корпусов
(2 ч. лекций, 10 ч. практ. занятий)
Закон Ципфа. Визуализация синтаксических деревьев с phpSyntaxTree. Web-интерфейсы к
корпусам (COCA, НКРЯ). Регулярные выражения. NLTK – библиотека для Python. Конкордансер AntConc. Корпусные менеджеры. Xaira. CQP. DDC. Manatee/Bonito. GATE. Sketch Engine. Game with a purpose. BootCaT.
8
Образовательные технологии
Проектная деятельность, практическая работа с компьютерными инструментами, компьютерные симуляции, мастер-классы экспертов в корпусной лингвистике.
Методические указания студентам
Самостоятельная работа студентов осуществляется в соответствии с «Методическими рекомендациями по организации самостоятельной работы студентов НИУ ВШЭ – Нижний Новгород»,
утвержденными УМС от 30.04.2014, протокол № 4.
8.1
9
9.1
Оценочные средства для текущего контроля и аттестации студента
Тематика заданий текущего контроля
1) корпусная лингвистика
2) корпус
3) общий (общеязыковой) корпус
4) специализированный корпус
5) параллельный корпус
6) метаданные
7) аннотации
8) тэг
9) репрезентативность корпуса
10) "Googleology"
11) конкорданс
12) тип
13) токен
14) лексема
15) лемма
16) словоформа
17) ключевое слово
18) коллокация
19) коллигация
20) парсинг
21) время создания Брауновского корпуса
22) количество слов в Брауновском корпусе
7
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Компьютерные инструменты лингвистического исследования»
для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика» уровня подготовки бакалавр
23)
24)
25)
26)
27)
28)
29)
30)
31)
32)
33)
34)
35)
36)
37)
38)
39)
40)
41)
42)
43)
44)
45)
46)
47)
48)
49)
50)
51)
52)
53)
54)
55)
56)
57)
58)
59)
60)
61)
62)
63)
64)
65)
66)
67)
68)
69)
70)
71)
состав Брауновского корпуса
основной недостаток Брауновского корпуса
суть закона Ципфа применительно к частотности слов
что общего между более чем половиной слов в Брауновском корпусе
какой корпус стал моделью для Ланкастерско-Осло-Бергенского корпуса
сколько компьютерных корпусов было разработано к 1990 г. (приблизительно)
treebank
NP (синтаксис)
VP (синтаксис)
время создания Penn Treebank
количество слов в Penn Treebank
состав Penn Treebank
как кодируется иерархическая структура в Penn Treebank
количество слов в British National Corpus
соотношение устной и письменной речи в BNC
время создания BNC
разметка в BNC
тэггер
корпусный менеджер / менеджер корпусов
Xaira
цель проекта International Corpus of English
количество слов в каждом подкорпусе ICE
соотношение устной и письменной речи в ICE
виды разметки в ICE
количество слов в COCA
количество жанров в COCA
wildcard
n-грамма
синхронический корпус
диахронический корпус
национальный корпус
мониторный (мониторинговый, динамический) корпус
сбалансированный корпус
Sketch Engine
как собираются большие корпуса (>2 млрд. слов)
недостатки корпусов, сформированных из "очищенных" веб-страниц
как происходит автоматическое создание специализированных корпусов
чем отличается термин от ключевого слова
какие тексты содержатся в Google Books Ngram Corpus
вид представления данных в GBNC
виды разметки в GBNC
аболютная частота
относительная частота
к какому виду корпусов относятся FrameNet и GMB
на какой теории основан проект FrameNet
семантический фрейм
"глубина" разметки FrameNet
количество семантических фреймов во FrameNet
количество аннотированных примеров во FrameNet
8
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Компьютерные инструменты лингвистического исследования»
для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика» уровня подготовки бакалавр
72) назовите не менее 4 видов разметки в Groningen Meaning Bank
73) количество токенов в последнем релизе GMB
74) бутстрэппинг - основная идея
75) game with a purpose
76) примеры экстралингв. разметки (не менее 3)
77) главное отличие стемминга от лемматизации
78) BootCaT
79) на основе чего BootCaT отбирает тексты
80) что использует BootCaT для получения web-страниц
81) Уппсальский корпус - объем
82) Уппсальский корпус - тексты
83) есть ли treebank на русском языке?
84) Машинный фонд русского языка - тексты
85) акцентуированный корпус
86) Хельсинкский аннотированный корпус русского языка - объем
87) Хельсинкский аннотированный корпус русского языка - виды разметки
88) НКРЯ - объем основного корпуса
89) НКРЯ - назовите не менее 4 подкорпусов
90) НКРЯ - хронологический диапазон текстов
91) OpenCorpora - объем
92) OpenCorpora - главное преимущество
93) как переводчики используют паралл. корпусы
94) как комп. лингвисты используют паралл. корпусы
95) выравнивание / стыковка
96) параллельный корпус в НКРЯ - структура
97) LF aligner
98) проект Татоэба
99) российск. проект по созд. устных корпусов на русском и др. языках
100) корпус устной речи в НКРЯ - состав
101) COCA: walk как глагол
102) COCA: все словоформы walk
103) COCA: синонимы к walk
104) COCA: все слова, начинающиеся на walk (walker, walking, ...)
105) COCA: биграммы walk + любое слово
106) COCA: биграммы walk + любое слово, кроме away
107) COCA: walk или stroll
108) COCA: walk в конце повествовательного предложения
109) AntConc
110) AntConc: что нужно для корректной работы с текстовыми файлами
111) AntConc: для чего кнопка Clone Results
112) AntConc: как экспортировать результаты во внешний файл
113) AntConc: Concordance Plot (для чего)
114) AntConc: File View (для чего)
115) AntConc: Clusters (для чего)
116) AntConc: N-Grams (для чего)
117) AntConc: Collocates (для чего)
118) AntConc: Word List (для чего)
119) AntConc: Keyword List (для чего)
120) откуда AntConc "знает", какие слова являются ключевыми
9
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Компьютерные инструменты лингвистического исследования»
для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика» уровня подготовки бакалавр
121) AntConc: "негативные" ключевые слова
122) может ли AntConc определять леммы слов
123) возможности TreeTagger для текстов на русском языке
124) рекомендуемый текстовый редактор
125) Python: открыть текстовый файл (без чтения)
126) Python: прочитать открытый текстовый файл
127) Python: сохранить строку в текстовый файл
128) Python: разбить текст на отдельные строки
129) Python: разбить текст на "слова"
130) Python: "собрать" текст из отдельных строк
131) Python: "собрать" текст из отдельных слов
132) Python: структура данных для слов/строк в определенном порядке
133) Python: структура данных для набора уникальных словоформ
134) Python: структура данных для лемм и соотв. словоформ
9.2
Вопросы для оценки качества освоения дисциплины
1. Основные понятия корпусной лингвистики. Понятие корпуса. Корпус и текст.
2. Корпусная лингвистика как дисциплина. Критика корпусной лингвистики.
3. Виды и свойства корпусов. Web as a corpus.
4. Применение корпусов. Значение корпусов. Корпусы и компьютерная лингвистика.
5. Разметка и метаданные. Конкорданс, конкордансер.
6. Создание англоязычных корпусов – периодизация.
7. Первые машиночитаемые корпусы. Брауновский корпус. Ланкастерско-Осло-Бергенский
корпус.
8. Синтаксически размеченные корпусы. The Penn Treebank.
9. Британский национальный корпус.
10. Международный корпус английского языка. Корпус «Банк английского».
11. Корпус современного американского английского.
12. Оксфордский корпус английского. Корпусы TenTen.
13. Корпус Google Books Ngram.
14. Корпусы с семантической разметкой. FrameNet. Groningen Meaning Bank.
15. Проектирование корпусов. Техпроцесс создания корпусов.
16. Машинная обработка текстов: токенизация, лемматизация, стемминг, парсинг.
17. Автоматическая разметка. Техники бутстрэпинга. Автоматическая семантическая разметка.
USAS.
18. Проблема авторских прав. Стандартизация.
19. Уппсальский корпус русского языка. Машинный фонд русского языка. Хельсинкский аннотированный корпус (ХАНКО).
20. НКРЯ.
21. OpenCorpora.
22. Параллельные корпусы – возможности и применение. Параллельный подкорпус НКРЯ. Проект Татоэба.
23. Web-интерфейсы к корпусам (COCA, НКРЯ) – возможности, достоинства и недостатки.
24. Регулярные выражения. Обработка текста с помощью языка программирования Python (2
или 3).
25. Корпусные менеджеры. AntConc. Xaira. Sketch Engine.
26. Достоинства и недостатки корпусов, собранных автоматически из сети Интернет. BootCaT.
10
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Компьютерные инструменты лингвистического исследования»
для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика» уровня подготовки бакалавр
10 Учебно-методическое и информационное обеспечение дисциплины
10.1 Основная литература
1. McEnery T., Hardie A., Corpus Linguistics: Method, Theory and Practice. Cambridge University Press, 2012.
10.2 Дополнительная литература
1. Копотев М., Введение в корпусную лингвистику. Учебное пособие для студентов филологических и лингвистических специальностей университетов. Прага, Animedia
Company, 2014.
10.3 Литература для самостоятельного изучения студентами
1. Aston G., Burnard L. The BNC handbook: exploring the British National Corpus with
SARA. – Capstone, 1998.
2. Baker C. F., Fillmore C. J., Lowe J. B. The berkeley framenet project //Proceedings of the
36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics-Volume 1. – Association for Computational Linguistics, 1998. – С. 86-90.
3. Basile V. et al. Developing a large semantically annotated corpus // LREC. – 2012. – Т. 12.
– С. 3196-3200.
4. Baroni M., Bernardini S. BootCaT: Bootstrapping Corpora and Terms from the Web //
LREC. –2004.
5. Cheng W. Exploring Corpus Linguistics – Language in Action. – Routledge, 2012.
6. Davies M. The 385+ million word Corpus of Contemporary American English (1990–
2008+): Design, architecture, and linguistic insights //International Journal of Corpus Linguistics. – 2009. – Т. 14. – №. 2. – С. 159-190.
7. Greenbaum S. (ed.). Comparing English worldwide: The international corpus of English. –
Clarendon Press, 1996.
8. Jarvinen T. Annotating 200 million words: the Bank of English project //Proceedings of the
15th conference on Computational linguistics-Volume 1. – Association for Computational
Linguistics, 1994. – С. 565-568.
9. Johansson S. Some aspects of the development of corpus linguistics in the 1970s and 1980s
// Ludeling A., Kyto M., eds. Corpus Linguistics. An International Handbook. Volume 1. –
Berlin & New York: Walter de Gruyter, 2008. – С. 33-53.
10. Johansson S., Leech G. N., Goodluck H. Manual of Information to Accompany the Lancaster-Oslo/Bergen Corpus of British English, for Use with Digital Computer. – Department of
English, University of Oslo, 1978.
11. Kilgarriff A. et al. Itri-04-08 the sketch engine //Information Technology. – 2004. – Т. 105.
– С. 116.
12. Kucera H., Francis W. N. Computational analysis of present-day American English //
Brown, Providence, 1967.
13. Leech G., Rayson P., Wilson A. Word frequencies in written and spoken English: based on
the British National Corpus. – Longman, 2001.
14. Lin Y. et al. Syntactic annotations for the google books ngram corpus //Proceedings of the
ACL 2012 System Demonstrations. – Association for Computational Linguistics, 2012. –
С. 169-174.
15. Marcus M. P., Marcinkiewicz M. A., Santorini B. Building a large annotated corpus of English: The Penn Treebank //Computational linguistics. – 1993. – Т. 19. – №. 2. – С. 313-330.
11
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Компьютерные инструменты лингвистического исследования»
для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика» уровня подготовки бакалавр
16. O'Keeffe A., McCarthy M. (ed.). The Routledge handbook of corpus linguistics. –
Routledge, 2010.
17. Sinclair J. M. Preliminary recommendations on text typology. 1996. EAGLES Document
EAG-TCWG-TTYP/P.
18. Tognini-Bonelli E. Corpus linguistics at work. – John Benjamins Publishing, 2001.
19. Захаров В.П., Богданова С.Ю. Корпусная лингвистика. – Иркутск, ИГЛУ, 2011.
20. Грудева Е.В. Корпусная лингвистика. – М.: ФЛИНТА, 2012.
21. Национальный корпус русского языка: 2003—2005. Сборник статей. М.: Индрик,
2005.
22. Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы.
СПб.: Нестор-История, 2009.
23. Плунгян В. А. Зачем мы делаем Национальный корпус русского языка? // Отечественные записки. 2005. № 2, 296—308.
24. Резникова Т. И. Корпуса славянских языков в интернете: Обзор ресурсов // Die Welt
der Slaven LIII, 2008, 10—38.
25. Шмелёв А. Д. Языковые факты и корпусные данные // Русский язык в научном освещении, 2010, 19 (1), 236—265.
11 Материально-техническое обеспечение дисциплины
Для лекций и практических занятий используется компьютер/ноутбук, проектор, экран. Для
практических занятий студентам необходимо иметь цифровые устройства (ноутбуки, планшеты) с
доступом в Интернет. Возможно использование стационарных компьютеров, подключенных к Интернету, в компьютерном классе.
Автор
Малафеев А.Ю.
12
Download