DOCX, 55 Кб - Высшая школа экономики

advertisement
Правительство Российской Федерации
Нижегородский филиал
Федерального государственного автономного образовательного учреждения высшего профессионального образования
"Национальный исследовательский университет
"Высшая школа экономики"
Кафедра иностранных языков
Рабочая программа дисциплины
«Корпусная лингвистика и компьютерные инструменты»
(Corpus Linguistics and Computer Tools)
для образовательной программы «Фундаментальная и прикладная лингвистика»
направления подготовки 45.03.03 «Фундаментальная и прикладная лингвистика»
уровень бакалавр
Разработчик программы:
Малафеев А.Ю., к.филол.н., aumalafeev@hse.ru
Одобрена на заседании кафедры иностранных языков
«___»____________ 2015 г.
Зав. кафедрой В.М. Бухаров____________
Рекомендована Академическим советом образовательной программы
«___»_______________ 2015 г., № протокола____
Утверждена «___»____________ 2015 г.
Академический руководитель образовательной программы
А.Ю.Малафеев _________________
Нижний Новгород
2015
Настоящая программа не может быть использована другими подразделениями университета и другими вузами без разрешения кафедры-разработчика программы
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
The course Corpus Linguistics and Computer Tools is aimed at imparting to students knowledge of
modern computer tools and resources used in research in the fields of corpus, applied and computational
linguistics, as well as teaching students to apply these tools and resources to linguistic problems. The computer tools covered in this course include: concordancers, corpus managers, corpus-building (and bootstrapping) tools, lemmatizers, stemmers, morphological analyzers, part-of-speech taggers, syntactic and
semantic taggers, regular expressions, as well as the text-processing capabilities of the Python programming language. The course involves conducted individual and group research and presenting the results to
the class.
1. Introduction to corpus linguistics
Basic concepts of corpus linguistics. Text and corpus. Corpus linguistics as a discipline. Types and
properties of corpora. Web as a corpus. The use of corpora. The value of corpora. Corpora and computational linguistics. Markup. Concordance, concordancer. Criticism of corpus linguistics.
2. History and typology of English-language corpora
Periods of corpora history. First machine-readable corpora. The Brown Corpus. Syntactic treebanks.
The Penn Treebank. The British National Corpus. The International Corpus of English. The Corpus of
Contemporary American English. TenTen Corpora. The Google Books Ngram Corpus. Semantic treebanks. FrameNet. Groningen Meaning Bank.
3. Building corpora
Corpus design. Stages of corpus compilation. Text processing: tokenization, lemmatization, stemming, parsing. Tagging. Copyright. Standardization. Bootstrapping.
4. Computer tools review. Using corpora
Zipf’s law. Visualization of syntax trees with phpSyntaxTree. Web interfaces to corpora (COCA,
RNC). Regular expressions. AntConc. Sketch Engine. Games with a purpose. BootCaT.
Prerequisites: knowledge of linguistics, basic programming skills (Python).
Author: Alexey Malafeev, Foreign Languages Department, Associate Professor.
Exam type: oral.
2
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
1
Область применения и нормативные ссылки
Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности.
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 45.03.03 «Фундаментальная и прикладная лингвистика», изучающих дисциплину «Корпусная лингвистика и компьютерные инструменты».
Программа разработана в соответствии с:
 образовательным стандартом НИУ ВШЭ для направления 45.03.03 «Фундаментальная и
прикладная лингвистика»;
 образовательной программой «Фундаментальная и прикладная лингвистика» направления подготовки 45.03.03 «Фундаментальная и прикладная лингвистика»;
 учебным планом университета по направлению подготовки направления 45.03.03 «Фундаментальная и прикладная лингвистика», утвержденным в 2013 г.
2
Цели освоения дисциплины
Целями освоения дисциплины «Корпусная лингвистика и компьютерные инструменты» являются ознакомление с историей и основными проблемами современной корпусной лингвистики, а
также приобретение практических навыков работы с корпусами и связанными с ними компьютерными инструментами (конкордансеры, корпусные менеджеры, программы для автоматического создания корпусов и др.). Дисциплина преподается на английском языке, поэтому дополнительная
цель ее изучения – развитие навыков профессионального общения на английском языке.
3
Компетенции обучающегося, формируемые в результате освоения дисциплины
В результате освоения дисциплины студент должен:
 Знать ключевые понятия и актуальные проблемы корпусной лингвистики, вехи ее развития, основные типы корпусов, наиболее известные и широко применяемые иноязычные и
русскоязычные корпусы, способы использования корпусов для различных целей (исследовательских и практических), методику создания корпусов, основные форматы и способы организации корпусов.
 Уметь определять тип и способы применения незнакомых корпусов, осваивать новые
компьютерные инструменты, в частности, (веб-)интерфейсы к корпусам на основе уже
имеющихся знаний и навыков, интерпретировать данные, полученные из корпусов, сравнивать и оценивать функциональность корпусов и инструментов по результатам работы с
ними.
 Иметь навыки (приобрести опыт) работы с несколькими существующими иноязычными и
русскоязычными корпусами и корпусными менеджерами, формулирования сложных
лингвистических запросов с использованием специальных обозначений (тэгов) и регулярных выражений, разметки текстов и чтения разметки, выполнения корпусных миниисследований, проектирования собственного корпуса, создания небольших специализированных корпусов.
В результате освоения дисциплины студент осваивает следующие компетенции:
3
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
Компетенция
Код по
ОС НИУ
ВШЭ
Дескрипторы – основные признаки
освоения (показатели достижения
результата)
Формы и методы обучения, способствующие
формированию и развитию компетенции
Профессиональные компетенции:
Способен создавать и редактировать тексты профессионального назначения.
ПК-5
Успешно готовит и проводит презентации мини-исследований.
Семинары, самостоятельная работа, групповая
работа, проектная деятельность
Способен свободно вести
профессиональное письменное и устное общение
на первом иностранном
языке.
ПК-6
Формулирует и отвечает на вопросы
по тематике дисциплины на английском языке.
Лекции, семинары, групповые дискуссии
Владеет
современными
компьютерными инструментами лингвистического
исследования.
ПК-8
Использует современное лингвистическое программное обеспечение.
Семинары, самостоятельная работа, групповая
работа, проектная деятельность
Владеет принципами создания представительных
текстовых массивов, корпусов текстов, корпусов
звучащей речи, мультимодальных корпусов, лингвистических и социолингвистических баз данных и
умением
пользоваться
этими ресурсами.
Общекультурные компетенции:
ПК-15
Выполняет проекты, целью которых
является создание собственных корпусов.
Проектная деятельность,
самостоятельная работа.
Стремится к саморазвитию, повышению своей
квалификации и мастерства.
ОК-6
Обосновывает для себя необходимость изучения и практики в области корпусной лингвистики для
профессионального и личностного
развития.
Лекции, семинары, групповые дискуссии
Способен работать с информацией в глобальных
компьютерных сетях.
ОК-13
Получает информацию, необходимую для выполнения заданий и проектов, из сети Интернет.
Проекты, самостоятельная работа
4
Место дисциплины в структуре образовательной программы
Настоящая дисциплина относится к математическому и естественнонаучному циклу для
направления 45.03.03 «Фундаментальная и прикладная лингвистика». Дисциплина изучается на
третьем курсе, в 1 и 2 модулях.
4
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
Изучение данной дисциплины базируется на следующих дисциплинах: «Введение в лингвистику», «Теория языка». При практической работе на семинарах студенты используют навыки, полученные в рамках освоения дисциплины «Программирование для лингвистов».
Основные положения дисциплины должны быть использованы в дальнейшем при изучении
дисциплин «Автоматическая обработка естественного языка (преподается на английском языке)»,
«Современные лингвистические теории (преподается на английском языке)», «Методика текстового
анализа. Корпусные методы исследования», полученные практические навыки – при освоении дисциплин «Практикум по проектированию и разработке лингвистических систем и компонентов»,
«Язык профессиональных коммуникаций (преподается на английском языке)».
5
Тематический план учебной дисциплины
№
1
2
3
4
5
6
Введение в корпусную лингвистику
28
История создания и типология англоязыч28
ных корпусов
Создание корпусов
27
Корпусы русского языка
27
Обзор компьютерных инструментов. Ис34
пользование корпусов
Всего
144
Количество зачетных единиц на дисциплину – 4.
Самостоятельная
работа
4
6
18
18
3
3
4
6
6
8
18
18
22
18
32
94
Формы контроля знаний студентов
Тип контроля
Текущий
Форма контроля
Домашнее задание
Итоговый Экзамен
6.1
Всего
часов
Название раздела
Аудиторные часы
ПрактиЛекСемические
ции
нары
занятия
6
4
1 год
1
2
№
+
Параметры
????
Устный, 2 вопроса на билет, 30 минут на подготовку,
10 минут на ответ. Дополнительные вопросы в случае
спорной оценки (без времени на подготовку)
Критерии оценки знаний, навыков
Студент должен продемонстрировать знание основных понятий и актуальных проблем корпусной лингвистики в объеме, достаточном для осуществления практической деятельности в области корпусных технологий и исследований. Студент должен обладать навыками эффективного использования компьютерных инструментов, изучаемых в рамках дисциплины.
Оценки по всем формам текущего контроля выставляются по 10-ти балльной шкале.
Несколько студентов освобождаются "автоматом" при условии 80% посещения лекций и отличной работы на семинарах. "Автомат" подразумевает оценку не ниже 8 баллов.
5
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
6.2
Порядок формирования оценок по дисциплине
Преподаватель оценивает работу студентов на практических занятиях: результаты проверочных работ, активность в дискуссиях, ответы на вопросы преподавателя, выполнение мини-проектов
и командных заданий. Оценки за работу на практических занятиях преподаватель выставляет в рабочую ведомость. Накопленная оценка по 10-ти балльной шкале (среднее арифметическое) за работу на практических занятиях определяется перед итоговым контролем.
Результирующая оценка за дисциплину рассчитывается следующим образом:
Орезульт = 0,5 * Онакопл + 0,5 * Оэкз
Онакопл = 0,5 * Од/з + 0,5 * Оаудит
Способ округления – арифметический.
На пересдаче студенту не предоставляется возможность получить дополнительный балл для
компенсации оценки за текущий контроль.
7
Содержание дисциплины
1. Раздел 1. Введение в корпусную лингвистику
(4 ч. лекций, 6 ч. практ. занятий)
Основные понятия корпусной лингвистики. Понятие корпуса. Корпус и текст. Корпусная
лингвистика как дисциплина. Виды и свойства корпусов. Web as a corpus. Применение корпусов. Значение корпусов. Корпусы и компьютерная лингвистика. Разметка. Конкорданс,
конкордансер. Критика корпусной лингвистики.
2. Раздел 2. История создания и типология англоязычных корпусов
(4 ч. лекций, 6 ч. практ. занятий)
Создание англоязычных корпусов – периодизация. Первые машиночитаемые корпусы. Брауновский корпус. Ланкастерско-Осло-Бергенский корпус. Синтаксически размеченные корпусы. The Penn Treebank. Британский национальный корпус. Международный корпус английского языка. Корпус «Банк английского». Корпус современного американского английского.
Оксфордский корпус английского. Корпусы TenTen. Корпус Google Books Ngram. Корпусы с
семантической разметкой. FrameNet. Groningen Meaning Bank.
3. Раздел 3. Создание корпусов
(3 ч. лекций, 6 ч. практ. занятий)
Проектирование корпусов. Техпроцесс создания корпусов. Машинная обработка текстов: токенизация, лемматизация, стемминг, парсинг. Автоматическая разметка. Проблема авторских
прав. Стандартизация. Техники бутстрэпинга.
4. Раздел 4. Корпусы русского языка
(3 ч. лекций, 6 ч. практ. занятий)
Уппсальский корпус русского языка. Тюбингенские корпусы русских текстов. Компьютерный корпус текстов русских газет конца XX века. Система Диктум-1. Большой Корпус русского языка. Машинный фонд русского языка. Корпус русского литературного языка. ХАНКО. НКРЯ. OpenCorpora.
6
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
5. Раздел 5. Обзор компьютерных инструментов. Использование корпусов
(4 ч. лекций, 8 ч. практ. занятий)
Закон Ципфа. Визуализация синтаксических деревьев с phpSyntaxTree. Web-интерфейсы к
корпусам (COCA, НКРЯ). Регулярные выражения. NLTK – библиотека для Python. Конкордансер AntConc. Корпусные менеджеры. Xaira. CQP. DDC. Manatee/Bonito. GATE. Sketch Engine. Game with a purpose. BootCaT.
8
Образовательные технологии
Проектная деятельность, практическая работа с компьютерными инструментами, компьютерные симуляции, мастер-классы экспертов в корпусной лингвистике.
Методические указания студентам
Самостоятельная работа студентов осуществляется в соответствии с «Методическими рекомендациями по организации самостоятельной работы студентов НИУ ВШЭ – Нижний Новгород»,
утвержденными УМС от 30.04.2014, протокол № 4.
8.1
9
9.1
Оценочные средства для текущего контроля и аттестации студента
Тематика заданий текущего контроля
1) корпусная лингвистика
2) корпус
3) общий (общеязыковой) корпус
4) специализированный корпус
5) параллельный корпус
6) метаданные
7) аннотации
8) тэг
9) репрезентативность корпуса
10) "Googleology"
11) конкорданс
12) тип
13) токен
14) лексема
15) лемма
16) словоформа
17) ключевое слово
18) коллокация
19) коллигация
20) парсинг
21) время создания Брауновского корпуса
22) количество слов в Брауновском корпусе
23) состав Брауновского корпуса
24) основной недостаток Брауновского корпуса
25) суть закона Ципфа применительно к частотности слов
26) что общего между более чем половиной слов в Брауновском корпусе
27) какой корпус стал моделью для Ланкастерско-Осло-Бергенского корпуса
28) сколько компьютерных корпусов было разработано к 1990 г. (приблизительно)
29) treebank
7
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
30)
31)
32)
33)
34)
35)
36)
37)
38)
39)
40)
41)
42)
43)
44)
45)
46)
47)
48)
49)
50)
51)
52)
53)
54)
55)
56)
57)
58)
59)
60)
61)
62)
63)
64)
65)
66)
67)
68)
69)
70)
71)
72)
73)
74)
75)
76)
77)
78)
NP (синтаксис)
VP (синтаксис)
время создания Penn Treebank
количество слов в Penn Treebank
состав Penn Treebank
как кодируется иерархическая структура в Penn Treebank
количество слов в British National Corpus
соотношение устной и письменной речи в BNC
время создания BNC
разметка в BNC
тэггер
корпусный менеджер / менеджер корпусов
Xaira
цель проекта International Corpus of English
количество слов в каждом подкорпусе ICE
соотношение устной и письменной речи в ICE
виды разметки в ICE
количество слов в COCA
количество жанров в COCA
wildcard
n-грамма
синхронический корпус
диахронический корпус
национальный корпус
мониторный (мониторинговый, динамический) корпус
сбалансированный корпус
Sketch Engine
как собираются большие корпуса (>2 млрд. слов)
недостатки корпусов, сформированных из "очищенных" веб-страниц
как происходит автоматическое создание специализированных корпусов
чем отличается термин от ключевого слова
какие тексты содержатся в Google Books Ngram Corpus
вид представления данных в GBNC
виды разметки в GBNC
аболютная частота
относительная частота
к какому виду корпусов относятся FrameNet и GMB
на какой теории основан проект FrameNet
семантический фрейм
"глубина" разметки FrameNet
количество семантических фреймов во FrameNet
количество аннотированных примеров во FrameNet
назовите не менее 4 видов разметки в Groningen Meaning Bank
количество токенов в последнем релизе GMB
бутстрэппинг - основная идея
game with a purpose
примеры экстралингв. разметки (не менее 3)
главное отличие стемминга от лемматизации
BootCaT
8
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
79) на основе чего BootCaT отбирает тексты
80) что использует BootCaT для получения web-страниц
81) Уппсальский корпус - объем
82) Уппсальский корпус - тексты
83) есть ли treebank на русском языке?
84) Машинный фонд русского языка - тексты
85) акцентуированный корпус
86) Хельсинкский аннотированный корпус русского языка - объем
87) Хельсинкский аннотированный корпус русского языка - виды разметки
88) НКРЯ - объем основного корпуса
89) НКРЯ - назовите не менее 4 подкорпусов
90) НКРЯ - хронологический диапазон текстов
91) OpenCorpora - объем
92) OpenCorpora - главное преимущество
93) как переводчики используют паралл. корпусы
94) как комп. лингвисты используют паралл. корпусы
95) выравнивание / стыковка
96) параллельный корпус в НКРЯ - структура
97) LF aligner
98) проект Татоэба
99) российск. проект по созд. устных корпусов на русском и др. языках
100) корпус устной речи в НКРЯ - состав
101) COCA: walk как глагол
102) COCA: все словоформы walk
103) COCA: синонимы к walk
104) COCA: все слова, начинающиеся на walk (walker, walking, ...)
105) COCA: биграммы walk + любое слово
106) COCA: биграммы walk + любое слово, кроме away
107) COCA: walk или stroll
108) COCA: walk в конце повествовательного предложения
109) AntConc
110) AntConc: что нужно для корректной работы с текстовыми файлами
111) AntConc: для чего кнопка Clone Results
112) AntConc: как экспортировать результаты во внешний файл
113) AntConc: Concordance Plot (для чего)
114) AntConc: File View (для чего)
115) AntConc: Clusters (для чего)
116) AntConc: N-Grams (для чего)
117) AntConc: Collocates (для чего)
118) AntConc: Word List (для чего)
119) AntConc: Keyword List (для чего)
120) откуда AntConc "знает", какие слова являются ключевыми
121) AntConc: "негативные" ключевые слова
122) может ли AntConc определять леммы слов
123) возможности TreeTagger для текстов на русском языке
124) рекомендуемый текстовый редактор
125) Python: открыть текстовый файл (без чтения)
126) Python: прочитать открытый текстовый файл
127) Python: сохранить строку в текстовый файл
9
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
128) Python: разбить текст на отдельные строки
129) Python: разбить текст на "слова"
130) Python: "собрать" текст из отдельных строк
131) Python: "собрать" текст из отдельных слов
132) Python: структура данных для слов/строк в определенном порядке
133) Python: структура данных для набора уникальных словоформ
134) Python: структура данных для лемм и соотв. словоформ
9.2
Вопросы для оценки качества освоения дисциплины
1. Основные понятия корпусной лингвистики. Понятие корпуса. Корпус и текст.
2. Корпусная лингвистика как дисциплина. Критика корпусной лингвистики.
3. Виды и свойства корпусов. Web as a corpus.
4. Применение корпусов. Значение корпусов. Корпусы и компьютерная лингвистика.
5. Разметка и метаданные. Конкорданс, конкордансер.
6. Создание англоязычных корпусов – периодизация.
7. Первые машиночитаемые корпусы. Брауновский корпус. Ланкастерско-Осло-Бергенский
корпус.
8. Синтаксически размеченные корпусы. The Penn Treebank.
9. Британский национальный корпус.
10. Международный корпус английского языка. Корпус «Банк английского».
11. Корпус современного американского английского.
12. Оксфордский корпус английского. Корпусы TenTen.
13. Корпус Google Books Ngram.
14. Корпусы с семантической разметкой. FrameNet. Groningen Meaning Bank.
15. Проектирование корпусов. Техпроцесс создания корпусов.
16. Машинная обработка текстов: токенизация, лемматизация, стемминг, парсинг.
17. Автоматическая разметка. Техники бутстрэпинга. Автоматическая семантическая разметка.
USAS.
18. Проблема авторских прав. Стандартизация.
19. Уппсальский корпус русского языка. Машинный фонд русского языка. Хельсинкский аннотированный корпус (ХАНКО).
20. НКРЯ.
21. OpenCorpora.
22. Параллельные корпусы – возможности и применение. Параллельный подкорпус НКРЯ. Проект Татоэба.
23. Web-интерфейсы к корпусам (COCA, НКРЯ) – возможности, достоинства и недостатки.
24. Регулярные выражения. Обработка текста с помощью языка программирования Python (2
или 3).
25. Корпусные менеджеры. AntConc. Xaira. Sketch Engine.
26. Достоинства и недостатки корпусов, собранных автоматически из сети Интернет. BootCaT.
10 Учебно-методическое и информационное обеспечение дисциплины
10.1 Основная литература
1. McEnery T., Hardie A., Corpus Linguistics: Method, Theory and Practice. Cambridge University Press, 2012.
10
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
10.2 Дополнительная литература
1. Копотев М., Введение в корпусную лингвистику. Учебное пособие для студентов филологических и лингвистических специальностей университетов. Прага, Animedia
Company, 2014.
10.3 Литература для самостоятельного изучения студентами
1. Aston G., Burnard L. The BNC handbook: exploring the British National Corpus with
SARA. – Capstone, 1998.
2. Baker C. F., Fillmore C. J., Lowe J. B. The berkeley framenet project //Proceedings of the
36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics-Volume 1. – Association for Computational Linguistics, 1998. – С. 86-90.
3. Basile V. et al. Developing a large semantically annotated corpus // LREC. – 2012. – Т. 12.
– С. 3196-3200.
4. Baroni M., Bernardini S. BootCaT: Bootstrapping Corpora and Terms from the Web //
LREC. –2004.
5. Cheng W. Exploring Corpus Linguistics – Language in Action. – Routledge, 2012.
6. Davies M. The 385+ million word Corpus of Contemporary American English (1990–
2008+): Design, architecture, and linguistic insights //International Journal of Corpus Linguistics. – 2009. – Т. 14. – №. 2. – С. 159-190.
7. Greenbaum S. (ed.). Comparing English worldwide: The international corpus of English. –
Clarendon Press, 1996.
8. Jarvinen T. Annotating 200 million words: the Bank of English project //Proceedings of the
15th conference on Computational linguistics-Volume 1. – Association for Computational
Linguistics, 1994. – С. 565-568.
9. Johansson S. Some aspects of the development of corpus linguistics in the 1970s and 1980s
// Ludeling A., Kyto M., eds. Corpus Linguistics. An International Handbook. Volume 1. –
Berlin & New York: Walter de Gruyter, 2008. – С. 33-53.
10. Johansson S., Leech G. N., Goodluck H. Manual of Information to Accompany the Lancaster-Oslo/Bergen Corpus of British English, for Use with Digital Computer. – Department of
English, University of Oslo, 1978.
11. Kilgarriff A. et al. Itri-04-08 the sketch engine //Information Technology. – 2004. – Т. 105.
– С. 116.
12. Kucera H., Francis W. N. Computational analysis of present-day American English //
Brown, Providence, 1967.
13. Leech G., Rayson P., Wilson A. Word frequencies in written and spoken English: based on
the British National Corpus. – Longman, 2001.
14. Lin Y. et al. Syntactic annotations for the google books ngram corpus //Proceedings of the
ACL 2012 System Demonstrations. – Association for Computational Linguistics, 2012. –
С. 169-174.
15. Marcus M. P., Marcinkiewicz M. A., Santorini B. Building a large annotated corpus of English: The Penn Treebank //Computational linguistics. – 1993. – Т. 19. – №. 2. – С. 313-330.
16. O'Keeffe A., McCarthy M. (ed.). The Routledge handbook of corpus linguistics. –
Routledge, 2010.
17. Sinclair J. M. Preliminary recommendations on text typology. 1996. EAGLES Document
EAG-TCWG-TTYP/P.
18. Tognini-Bonelli E. Corpus linguistics at work. – John Benjamins Publishing, 2001.
19. Захаров В.П., Богданова С.Ю. Корпусная лингвистика. – Иркутск, ИГЛУ, 2011.
20. Грудева Е.В. Корпусная лингвистика. – М.: ФЛИНТА, 2012.
11
Национальный исследовательский университет «Высшая школа экономики»
Рабочая программа дисциплины «Корпусная лингвистика и компьютерные инструменты» для образовательной программы 45.03.03 «Фундаментальная и прикладная лингвистика»
уровня подготовки бакалавр
21. Национальный корпус русского языка: 2003—2005. Сборник статей. М.: Индрик,
2005.
22. Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы.
СПб.: Нестор-История, 2009.
23. Плунгян В. А. Зачем мы делаем Национальный корпус русского языка? // Отечественные записки. 2005. № 2, 296—308.
24. Резникова Т. И. Корпуса славянских языков в интернете: Обзор ресурсов // Die Welt
der Slaven LIII, 2008, 10—38.
25. Шмелёв А. Д. Языковые факты и корпусные данные // Русский язык в научном освещении, 2010, 19 (1), 236—265.
11 Материально-техническое обеспечение дисциплины
Для лекций и практических занятий используется компьютер/ноутбук, проектор, экран. Для
практических занятий студентам необходимо иметь цифровые устройства (ноутбуки, планшеты) с
доступом в Интернет. Возможно использование стационарных компьютеров, подключенных к Интернету, в компьютерном классе.
Разработчик
Малафеев А.Ю.
12
Download