Компьютерные методы обработки текста_соц 2012

advertisement
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Компьютерные методы обработки текста» для направления 040100.62
«Социология» подготовки бакалавра
1
Область применения и нормативные ссылки
Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности.
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 040100.62 Социология для подготовки бакалавров
изучающих дисциплину «Компьютерные методы обработки текста».
Программа разработана в соответствии с:
 ОС НИУ ВШЭ для направления 040100.62 «Социология» подготовки бакалавра
http://www.hse.ru/data/2012/07/26/1257346946/standart-040100-62.pdf
 Образовательной программой для направления 040100.62 Социология для подготовки бакалавра..
 Рабочим учебным планом университета по направлению подготовки бакалавров
040100.62 Социология
2
Цели освоения дисциплины
Целями освоения дисциплины «Компьютерные методы обработки текста» являются ознакомление студентов-социологов с кругом решенных и нерешенных задач в области автоматической
обработки естественного языка (natural language processing) и компьютерной лингвистики
(computational linguistics), а также с доступным программным инструментарием для решения прикладных задач обработки текста. В рамках курса будут рассмотрены основные понятия компьютерной лингвистики, необходимые для чтения литературы в данной области, а также существующее программное обеспечение для работы с русскоязычными текстами..
3
Компетенции обучающегося, формируемые в результате освоения дисциплины
В результате освоения дисциплины студент должен:
 Знать круг решенных и нерешенных задач компьютерной лингвистики, ориентироваться в современных методах обработки текста на естественном языке, владеть
лингвистической и статистической терминологией, необходимой для чтения литературы в этой области (на русском и английском языках).
 Уметь обоснованно выбирать методы автоматического анализа текста для применения в
социологических исследованиях, строить и анализировать частотные списки языковых
единиц, извлекать данные из текста с помощью регулярных выражений, формулировать
правила извлечения информации в терминах контекстно-свободных грамматик.
 Иметь навыки (приобрести опыт) работы с программным обеспечением для автоматического анализа текстов: морфологическими и синтаксическими анализаторами, конкордансами, системами извлечения фактов и отношений, инструментами кластеризации,
классификации и тематического моделирования коллекций документов.
В результате освоения дисциплины студент осваивает следующие компетенции:
Компетенция
Способен работать с информацией: находить, оценивать и использовать информацию из различных
Код по Дескрипторы – основные признаки
ФГОС/ освоения (показатели достижения
НИУ
результата)
СК-Б6
Грамотно формулирует поисковый
запрос для подбора литературы по
методологии анализа текстов на
естественном языке в целях со-
2
Формы и методы обучения,
способствующие формированию и развитию компетенции
Чтение литературы к семинарам, выполнение практических заданий
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Компьютерные методы обработки текста» для направления 040100.62
«Социология» подготовки бакалавра
Компетенция
Код по Дескрипторы – основные признаки
ФГОС/ освоения (показатели достижения
НИУ
результата)
источников, необходимую
для решения научных и
профессиональных задач
(в том числе на основе системного подхода)
Способен применять
профессиональные знания и умения на практике.
Формы и методы обучения,
способствующие формированию и развитию компетенции
циологического исследования
Формулирует технические тре- Выполнение практических
бования к программному инзаданий по анализу текста
струментарию на основании
в рамках практических
исследовательской задачи, умезанятий и в качестве доет выбрать и применить промашнего задания
граммное обеспечение, соответствующее требованиям задачи
Способен понимать и
СЛК-Б6 Осознает роль речевой коммуСвободная дискуссия во
анализировать мировозникации и языковых форм для время лекций и семинаров
зренческие, социально и
социальных процессов, протеличностно значимые
кающих в современных инфорпроблемы и процессы,
мационных средах, в первую
происходящие в общеочередь в интернете
стве.
4
СКБ2
Место дисциплины в структуре образовательной программы
Настоящая дисциплина относится к циклу математических и естественнонаучных дисциплин, обеспечивающих подготовку бакалавров.
Для направления 040100.62 Социология является дисциплиной по выбору.
Для освоения учебной дисциплины, студенты должны владеть следующими знаниями и
компетенциями:
 иметь представление о классических методах анализа текста, применяемых в социологии: контент-анализ, качественный анализ, анализ дискурса.
 иметь навыки элементарной статистической обработки данных: сортировка, построение
графиков, вычисление средних значений.
Основные положения дисциплины должны быть использованы в дальнейшем при изучении
следующих дисциплин:
 Б.3.В.8 Социология массовой коммуникации
 Б.3.В.17 Социология социальных сетей
 ФТД.12 Интернет как инструмент и сфера социологических исследований
 ФТД.9 Интернет как инструмент и сфера социологических исследований
 проведении собственных исследований в рамках курсовых и выпускных квалификационных работ, а также в рамках научно-исследовательской практики.
3
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Компьютерные методы обработки текста» для направления 040100.62
«Социология» подготовки бакалавра
5
№
Тематический план учебной дисциплины
Всего
часов
Название раздела
Аудиторные часы
Лекции
1
2
3
4
5
6
7
8
6
Введение
Частотный анализ лексики и ключевые
слова
Локальные модели контекста. Вероятностные языковые модели
Автоматическое определение тематики
Извлечение мнений и оценок
Извлечение фактов и отношений
Автоматический анализ стиля
Домашнее задание
ВСЕГО
1
3
14
18
12
16
10
12
108
2
2
2
10
Практические
занятия
2
2
2
10
2
2
10
6
2
4
20
2
2
2
10
10
8
8
8
12
68
Формы контроля знаний студентов
Тип кон- Форма контроля
троля
1 год
1
Текущий Домашнее
(неделя) задание
ИтогоЗачет
вый
6.1
3
17
Семинары
Самостоятельная
работа
2
3
*
Параметры **
4
*
Задание по обработке массива текстовых данных
Устный ответ по экзаменационному
вопросу, письменное решение задачи
Критерии оценки знаний, навыков
Данный курс в качестве текущего контроля предполагает выполнение практических заданий
на семинарах и практических занятиях, а также одного домашнего практического задания. Кроме
того, на семинарах осуществляется постоянный текущий контроль в форме заданий, выполняемых
устно.
Оценки по всем формам текущего контроля выставляются по 10-ти балльной шкале.
Текстовые данные и другие электронные материалы для выполнения практических заданий
размещаются на электронном ресурсе, организованном автором программы. По всем вопросам обращайтесь на кафедру гуманитарных наук, либо к автору программы.
6.2
Порядок формирования оценок по дисциплине
Преподаватель оценивает работу студентов на семинарских и практических занятиях: развернутые ответы с места, активность в дискуссиях, полноту и правильность выполнения практических заданий, инициативу при выполнении коллективных заданий. Оценки за работу на семинар4
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Компьютерные методы обработки текста» для направления 040100.62
«Социология» подготовки бакалавра
ских и практических занятиях преподаватель выставляет в рабочую ведомость. Накопленная оценка по 10-ти балльной шкале за работу на семинарских и практических занятиях определяется перед
промежуточным или итоговым контролем - Оаудиторная.
Преподаватель оценивает самостоятельную работу студентов: полнота освещения темы при
выступлении с докладом, правильность выполнения заданий. Оценки за самостоятельную работу
студента преподаватель выставляет в рабочую ведомость. Накопленная оценка по 10-ти балльной
шкале за самостоятельную работу определяется перед промежуточным или итоговым контролем –
Осам. работа.
Преподаватель оценивает выполнение домашнего практического задания: полнота и точность данных, извлеченных из предложенного текстового массива. Полнота и точность оцениваются путем сравнения с эталонными данными, подготовленными преподавателем.
Накопленная оценка за текущий контроль учитывает результаты студента по текущему контролю следующим образом:
Онакопленная= 0,4* Одз + 0,4* Оауд + 0,2* Осам.работа
Способ округления накопленной оценки текущего контроля: – арифметический.
Результирующая оценка за дисциплину рассчитывается следующим образом:
Орезульт = 0,6* Онакопл + 0,4 *·Озач
Способ округления накопленной оценки промежуточного (итогового) контроля в форме зачета: – в пользу студента.
На зачете студент может получить дополнительный вопрос (дополнительную практическую
задачу, решить к пересдаче домашнее задание), ответ на который оценивается в 1 балл.
7
Содержание дисциплины
Раздел представляется в удобной форме (список, таблица). Изложение строится по разделам
и темам. Содержание темы может распределяться по лекционным и практическим занятиям.
Тема 1. Введение
Автоматическая обработка языка и компьютерная лингвистика — предмет и методы. Задачи
автоматической обработки текста в социологических исследованиях. Основные задачи компьютерной лингвистики и история развития автоматической обработки языка.
Иерархия языковых уровней и стандартный цикл обработки текста (графематика — морфология — синтаксис — семантика). Основные задачи автоматической обработки текста: токенизация
и нормализация текста; сегментация на предложения; стемминг; лемматизация и частеречные теги;
снятие омонимии; парсинг — поверхностный и полный; кореференция и разрешение анафоры. Задачи высокоуровневого анализа: извлчение фактов и отношений, анализ оценок (sentiment analysis).
Инструменты морфологического анализа для русского языка. Понятия словоформа, лексема,
лемма, основа. Стемминг. Алгоритм Портера. Stemka. Лемматизация. Словарный метод — грамматический словарь Зализняка. mystem. AOT. pymorphy. Грамматическая омонимия. Разметка частей
речи. TreeTagger. TnT.
Литература:


Большакова и др. 2011, часть 1, Глава 1; Часть 2, глава 3.
Jurafsky, Martin 2000. Chapter 1. Introduction.
5
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Компьютерные методы обработки текста» для направления 040100.62
«Социология» подготовки бакалавра
Тема 2. Частотный анализ лексики и ключевые слова.
Частотное распределение лексики в языке. Закон Ципфа. Доля hapax legomena. Скорость роста словаря. Коэффициент лексического разнообразия (type/token ratio).
Распределение лексики в текстах коллекции. Взвешенная частотность. TF-IDF. Прочие меры
лексической дисперсии. Мера отклонения пропорций DP и DPnorm.
Извлечение ключевых слов. Метод контрастного корпуса. Отношение правдоподобия. Диахронический анализ лексической частотности.
Практическое занятие 1. Построение и анализ частотных списков.
ПО для построения частотных списков лексики. Лексический состав вершины, середины,
хвоста частотного списка.
Литература:



Kornai 2008, 4.4 Zipf's law.
Маннинг, Рахгаван, Шютце 2011, 6.2 Частота термина и взвешивание; 6.4 Варианты функций tf-idf.
Baroni 2008.
Тема 3. Локальные модели контекста. Вероятностные языковые модели.
Понятие N-граммы. Буквенные и словарные n-граммы. Контекстное окно.
Применения N-грамм в автоматической обработке языка. Роль биграмм и триграмм. Определение языка по письменности. Языковые модели. Цепь Маркова.
Коллокации. Формальные определения и лингвистический смысл коллокаций. Меры ассоциации. Коэффициент взаимной информации (MI). T-score. Отношение правдоподобия (loglikelihood). Статистические тесты ассоциации: хи-квадрат и Fisher exact test. Выделение коллокаций
по синтаксическому шаблону. Разрывные коллокации.
Практическое занятие 2. Извлечение коллокаций.
ПО для извлечения коллокаций. WordSmith Tools. Конкордансы. Perl-модуль Text::NSP.
Литература:



Ягунова, Пивоварова 2010.
Manning, Schutze 1999. Chapter 5. Collocations. Chapter 6. Statistical inference: n-gram models
over sparse data.
Jurafsky, Martin 2000. Chapter 4. n-grams
Тема 4. Автоматическое определение тематики
Векторное представление текста для задач информационного поиска. Открытые и закрытые
классы слов. Стоп-слова. Динамические списки стоп слов. Порог отсечения по частотности и DF.
Дистрибутивная семантика. Совместная встречаемость и семантическая близость.
Кластеризация текстов. Задачи и область применения кластерных методов. Виды кластеризации: плоские, аггломеративные, нечеткие. Меры близости: евклидово расстояние, косинусная
мера. Популярные алгоритмы кластеризации: k-средних, DBCLUST, спектральные алгоритмы. ПО
для кластеризации текстов. Пакеты кластеризации для R. gCLUTO.
6
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Компьютерные методы обработки текста» для направления 040100.62
«Социология» подготовки бакалавра
Классификация текстов. Машинное обучение с учителем и без учителя в задачах классификации текстов. Популярные алгоритмы классификации: наивный байесовский метод, метод опорных векторов, деревья принятия решений. ПО для классификации текстов. SVMLight.
Пространственное моделирование семантических отношений (word space). Латентный семантический анализ. Вероятностный латентно семантический анализ. Тематическое моделирование. Метод латентного размещения Дирихле. ПО для латентного семантического анализа и тематического моделирования. Mallet. sTMT.
Литература:







Большакова и др. 2011, Часть 5
Jurafsky, Martin 2008. ch. 20 Distributional word sense similarity
Маннинг и др. 2011, 6.3 Модель векторного пространства для ранжирования
Маннинг и др.2011, гл. 13-15 Классификация текстов, гл. 16-17 Кластеризация текстов
Маннинг и др. 2011, гл. 18 Латентный семантический анализ.
Кронгауз 2001, с. 152-168
Митрофанова и др. 2007.
Тема 5. Извлечение мнений и оценок (Sentiment analysis).
Область применения методов извлечения мнений и оценок. Типы оценочных текстов: позитивный, негативный, нейтральный. Оценочные шкалы. Классификация документов по оценке. Извлечение оценочных предложений и фрагментов. Определение предмета оценки.
Методы извлечения оценок. Словарные методы. Машинное обучение. Комбинирование источников. Проблемы и ограничения методов извлечения оценок.
Практическое занятие 3. Регулярные выражения
Регулярные грамматики и регулярные выражения. Синтаксис регулярных выражений. Поиск
и замена при помощи регулярных выражений.
Литература:





Васильев и др. 2012
Котельников, Клековкина 2012
Кравченко 2012
Поляков и др. 2012
Indurkhya, Damerau 2010. Ch. 26. Sentiment analysis and subjectivity.
Тема 6. Извлечение фактов и отношений.
Синтаксис и формальные языки. Иерархия грамматик Хомского. Регулярные грамматики.
Контекстно-свободные грамматики. Основные понятия: терминал, нетерминал, правило. Форма
записи Бакуса-Наура.
Текст и дискурс. Методы сегментации текста с обучающей выборкой и без. Понятие связности текста. Автоматическое определение отношений связности. Коммуникативная структура текста. Понятия тема, рема, информационный статус. Теория риторической структуры. Риторические
отношения. Анализ нарративной структуры. Разрешение анафоры и анализ кореференции.
Методы извлечения информации из текстов на естественном языке. Словарные методы.
Синтаксические шаблоны. Распознавание именованных сущностей. Извлчение отношений. Извлечение ключевых слов текста.
Практическое занятие 4. Извлечение именованных сущностей и отношений.
7
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Компьютерные методы обработки текста» для направления 040100.62
«Социология» подготовки бакалавра
ПО для извлечения данных из текста. Tomita-парсер.
Литература:


Jurafsky, Martin 2000. Ch. 22 Information extraction
Indurkhya, Damerau 2010. Ch. 21. Information extraction
Тема 7. Автоматический анализ стиля.
Стилометрия. Автоматическое определение авторства: краткая история и обзор методов.
Формальные и лингвистические черты для стилистического анализа. Автоматическое определение
жанровой принадлежности текста.
Литература:

8
Jurafsky, Martin 2000. Сh. 21 Computational Discourse
Образовательные технологии
Для освоения материала на семинарских занятиях и практических занятиях используются
задания, предназначенные как для индивидуального решения задач по обработке текста, так и для
коллективного обсуждения стратегии решения той или иной задачи. Проводится обсуждение отдельных методов компьютерной лингвистики в форме мини-докладов студентов на семинарских
занятиях. Особое внимание уделяется организации самостоятельной работы студентов с программным обеспечением, рассматриваемым в рамках курса. Лекции носят информативно-диалогический
характер и проводятся с использованием мультимедийного проектора.
9
9.1
Оценочные средства для текущего контроля и аттестации студента
Тематика заданий текущего контроля
Примерные задания для домашних заданий:
1. Построить частотный список лемм для заданного корпуса текстов. Проиллюстрировать выполнение закона Ципфа графиком зависимости частотности от ранга на логарифмической шкале.
2. Построить список коллокаций по заданному корпусу. Выделить наиболее значимые
коллокации корпуса (биграммы, триграммы, разрывные коллокации). Использовать
различные подходы: коллокации словоформ и коллокации лемм. Выделить наиболее
значимые коллокаты к указанным ключевым словам (словоформы и леммы).
3. Написание регулярных выражений для извлечения эмотиконов (смайликов) из текста.
4. Разработать словари и грамматику для извлечения упоминаний организаций и связанных с ними событий в заданном корпусе текстов.
Тематика мини-докладов на семинарских занятиях:
1. Меры ассоциации для выделения коллокаций.
2. Алгоритмы кластеризации текстов.
3. Алгоритмы классификации текстов.
4. Обзор применений Sentiment analysis в социологических исследованиях.
8
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Компьютерные методы обработки текста» для направления 040100.62
«Социология» подготовки бакалавра
Тема мини-доклада для каждого студента утверждается преподавателем в индивидуальном
порядке.
Вопросы для оценки качества освоения дисциплины
Примерный перечень вопросов к зачету (экзамену) по всему курсу или к каждому промежуточному и итоговому контролю для самопроверки студентов.
1. Языковые уровни и стандартный цикл обработки текста.
2. Закон Ципфа.
3. Взвешенная частотность. TF-IDF. Лексическая дисперсия.
4. Статистические языковые модели. N-граммы.
5. Коллокации.
6. Дистрибутивная семантика.
7. Кластеризация текстов.
8. Классификация текстов.
9. Латентный семантический анализ.
10. Тематическое моделирование. Метод латентного размещения Дирихле.
11. Методы извлечения мнений (sentiment analysis).
12. Формальные грамматики. Регулярные грамматики. Контекстно-свободные грамматики.
13. Методы сегментации текста.
14. Распознавание именованных сущностей.
15. Стилометрия. Автоматическое определение жанровой принадлежности.
9.2
10 Учебно-методическое и информационное обеспечение дисциплины
10.1 Базовый учебник
Большакова и др. (2011). Автоматическая обработка текстов на естественном языке и компьютерная лингвистика : учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В.,
Носков А.А., Пескова О.В., Ягунова Е.В. — М.: МИЭМ, 2011. — 272 с.
http://clschool.miem.edu.ru/uploads/swfupload/files/011a69a6f0c3a9c6291d6d375f12aa27e349cb67
.pdf
10.2 Основная литература
Маннинг К. Д., Рагхаван П., Шютце Х. Введение в информационный поиск.: Пер. с англ. – М.: ООО
«Вильямс», 2011. – 528 с.: ил.
Митрофанова О.А., Мухин А.С., Паничева П.В. Автоматическая классификация лексики в русскоязычных текстах на основе латентного семантического анализа // Труды международной конференции «Диалог». М., 2007. С. 413-422.
Ягунова Е. В., Пивоварова Л.М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации // Сб. НТИ. Сер. 2. № 6. М., 2010. С. 30-40.
http://www.webground.su/services.php?param=priroda_collac&part=priroda_collac.htm
Jurafsky, D., Martin, J. H. (2000) Speech and language processing. NJ: Prentice Hall, 2000.
Manning, C., Schütze H. (1999) Foundations of Statistical Natural Language Processing.. Cambridge, MA:
MIT Press,1999.
http://nlp.stanford.edu/IR-book/
9
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Компьютерные методы обработки текста» для направления 040100.62
«Социология» подготовки бакалавра
10.3 Дополнительная литература
Васильев В. Г., Худякова М. В., Давыдов С. Классификация отзывов пользователей с использованием фрагментарных правил // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая - 3 июня 2012г.).
Вып. 11 (18).- М.: Изд-во РГГУ, 2012.
http://www.dialog-21.ru/digests/dialog2012/materials/pdf/132.pdf
Мартыненко Г. Я., Чебанов С. В. Стилеметрия // Прикладная лингвистика. СПб, 1996.
Котельников Е. В., Клековкина М. В. Автоматический анализ тональности текстов на основе методов машинного обучения // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая - 3 июня 2012г.).
Вып. 11 (18).- М.: Изд-во РГГУ, 2012.
http://www.dialog-21.ru/digests/dialog2012/materials/pdf/105.pdf
Кравченко А. Н. Генерация шаблонов оценочных выражений на основе неразмеченного текста //
Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая - 3 июня 2012г.). Вып. 11 (18).- М.: Изд-во РГГУ,
2012.
http://www.dialog-21.ru/digests/dialog2012/materials/pdf/129.pdf
Кронгауз М. А. Семантика. М.: Изд-во РГГУ, 2001.
Нехай И. В. Применение n-грамм и других статистик уровня символов и слов для семантической
классификации незнакомых собственных имен // Компьютерная лингвистика и интеллектуальные
технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая 3 июня 2012г.). Вып. 11 (18).- М.: Изд-во РГГУ, 2012.
http://www.dialog-21.ru/digests/dialog2012/materials/pdf/150.pdf
Поляков П. Ю., Калинина М. В., Плешко В. В. Исследование применимости методов тематической
классификации в задаче классификации отзывов о книгах // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая - 3 июня 2012г.). Вып. 11 (18).- М.: Изд-во РГГУ, 2012.
http://www.dialog-21.ru/digests/dialog2012/materials/pdf/103.pdf
Тестелец Я. Г. Введение в общий синтаксис. М.: Изд-во РГГУ, 2001.
Bird, S., Klein E., Loper, E. Natural Language Processing with Python. O'Reilly Media, 2009.
M. Baroni Distributions in text. In Anke Lüdeling and Merja Kytö (eds.), Corpus Linguistics: An International Handbook. Berlin: Mouton de Gruyter, 2008.
http://sslmit.unibo.it/~baroni/publications/hsk_39_dist_rev2.pdf
Bolshakov I. A., Gelbukh A. Computational linguistics: models, resources, applications. Mexico, 2004.
http://web.archive.org/web/20080125103030/http://www.gelbukh.com/clbook/ComputationalLinguistics.pdf
Evert, S. The statistics of word cooccurrences: Word pairs and collocations. Ph.D. thesis, Institut für maschinelle Sprachverarbeitung, University of Stuttgart. 2004.
http://elib.uni-stuttgart.de/opus/volltexte/2005/2371
Indurkhya N., Damerau F.J. Handbook of Natural Language Processing
Indurkhya N., Damerau F.J. Handbook of natural language processing. Second edition. Chapman & Hall,
2010.
Kornai A. Mathematical linguistics. London, Springer, 2008.
10
Национальный исследовательский университет «Высшая школа экономики»
Программа дисциплины «Компьютерные методы обработки текста» для направления 040100.62
«Социология» подготовки бакалавра
Steyvers M., Griffiths T. Probabilistic Topic Models. In Landauer, T., Mcnamara, D., Dennis, S., Kintsch,
W., Latent Semantic Analysis: A Road to Meaning. (2006).
http://cocosci.berkeley.edu/tom/papers/SteyversGriffiths.pdf
Интернет-ресурсы
http://www.dialog-21.ru/ — Диалог.Международная конференция по компьютерной лингвистике.
http://nlpub.ru — Каталог лингвистических ресурсов для обработки русского языка.
http://www.regular-expressions.info — The Premier website about Regular Expressions.
http://sentiment.christopherpotts.net/ — Sentiment symposium tutorial.
http://www.aclweb.org/anthology/ — ACL Anthology
A Digital Archive of Research Papers in Computational Linguistics.
10.4 Программные средства
Для успешного освоения дисциплины, студент использует следующие программные средства:






Программа построения частотных словарей.
http://alingva.ru/index.php/lingvosoft/12-ngramfrequency
mystem. Морфологический анализатор для русского языка.
http://company.yandex.ru/technologies/mystem/
LSA. Латентно-семантический анализ текстовых данных.
http://alingva.ru/index.php/lingvosoft/17--lsa
Tomita-пасрер. Инструмент для извлечения структурированных данных из текста на
естественном языке.
http://api.yandex.ru/tomita/
Модуль Perl Text::NSP. N-gram statistics and association measures.
http://search.cpan.org/dist/Text-NSP/lib/Text/NSP/Measures.pm
Stanford Topic Modeling Toolbox.
http://nlp.stanford.edu/software/tmt/tmt-0.4/
10.5 Дистанционная поддержка дисциплины
Тестовые массивы текстов для обработки публикуются на сайте:
http://maslinsky.spb.ru/courses/cmta2013/
11 Материально-техническое обеспечение дисциплины
Лекции и семинары проводятся с использованием мультимедийного проектора.
11
Related documents
Download