Document 2355191

advertisement
Волгоградский Государственный университет
Институт филологии и межкультурной коммуникации
Кафедра английской филологии
УТВЕРЖДЕНО
УЧЕНЫМ СОВЕТОМ
Протокол №
от «___» _________ 20__
РЕКОМЕНДОВАНО
КАФЕДРОЙ
Протокол №
от «___» __________ 20__
Директор института
филологии и межкультурной
коммуникации
__________ Н.Л. Шамне
Заведующий кафедрой
английской филологии
__________ Л.А. Кочетова
«___» ___________ 20__
«___» ___________ 20__
ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ
«Технологии обработки текста и звучащей речи»
Для обучающихся по основной образовательной программе подготовки
бакалавров
45.03.03 «Фундаментальная и прикладная лингвистика»
Количество зачетных единиц 5
Авторы:
к.п.н, доцент, Брылева В. А.
к.ф.н., доцент Сороколетова Н.Ю.
Оглавление
Оглавление ............................................................................................................... 3
Раздел I. Пояснительная записка ........................................................................... 5
Исходный уровень компетенций студента до изучения дисциплины. .... 5
Краткое описание дисциплины. ...................................................................... 5
Методика формирования результирующей оценки ........................................ 7
Раздел 2. Содержание дисциплины ....................................................................... 8
Структура изучения дисциплины (6 семестр) .................................................. 8
Тематический план дисциплины ....................................................................... 8
Формы самостоятельной работы студентов ............................................... 11
Раздел 3. Средства обучения ................................................................................ 12
Учебно-методическое обеспечение курса ...................................................... 12
Реестр электронных ресурсов .......................................................................... 12
Содержание зачета .................................................................... 14
Контрольные вопросы для подготовки к зачету ............................................ 14
Темы для рефератов ........................................................................................ 15
АННОТАЦИЯ
Учебная дисциплина «Технологии обработки текста и звучащей речи» является
курсом основной образовательной программы бакалавриата, реализуемой ФГАОУ
ВПО «Волгоградский государственный университет» по направлению подготовки
035800 «Фундаментальная и прикладная лингвистика». Дисциплина входит в базовые
курсы раздела «Б 3. Профессиональный цикл. Модуль «Языковые технологии».
Цель курса – сформировать общее представление об основных методологических
принципах изучения звучащей речи, технологиях анализа макроструктуры и
микроструктуры дискурса, обработки текста, сформировать профессионально
значимые компетенции для проведения экспериментальной работы и научной
интерпретации полученных данных.
Курс рассчитан на 180 часов, из них 68 часов – аудиторная работы, 112 –
самостоятельная работа (5 зач. ед.). По окончании курса сдается
дифференцированный зачет и студент отчитывается о курсовой работе (6 сем.). Курс
обеспечен
учебно-методической
литературой,
электронными
ресурсами,
мультимедийными средствами обучения.
Раздел I. Пояснительная записка
Исходный уровень компетенций студента до изучения дисциплины.
Студенты имеют: базовые знания в области фундаментальной лингвистики и
фонетики английского языка, представление о фонетических единицах сегментного и
супрасегментного уровней английского языка.
Уровень начальной подготовки предполагает знакомство с курсами общей фонетики,
морфологии, синтаксиса, семантики, информатики.
Краткое описание дисциплины.
Учебная дисциплина «Технологии обработки текста и звучащей речи» входит в
базовую часть общепрофессионального цикла (модуль «Языковые технологии»)
ФГОС ВПО, преподается в 6-ом семестре. Общая трудоемкость дисциплины
составляет 5 зачетных единиц.
Изучение курса требует знаний по следующим дисциплинам профессионального
блока: общая фонетика, общая морфология, общий синтаксис, семантика, общая и
компьютерная лексикография, технологии корпусной лингвистики, автоматическая
обработка естественного языка, математические методы обработки текстовой
информации.
Цель дисциплины состоит в формировании следующих компетенций:
-- владеть знанием основ математических дисциплин, которые используются при
формализации лингвистических знаний и процедур анализа и синтеза
лингвистических структур (ПК-2);
-- владеть основными методами инструментального анализа звучащей речи (ПК-8);
-- владеть основными способами описания и формальной репрезентации
денотативной, концептуальной, коммуникативной и прагматической информации,
содержащейся в тексте на естественном языке (ПК-11);
-- владеть навыками оформления и представления результатов научного исследования
(ПК-14);
-- уметь использовать лингвистические технологии для проектирования систем
анализа и синтеза естественного языка, в том числе лингвистических компонентов
интеллектуальных и информационных электронных систем (ПК-17);
-- владением методами проведения лингвистических экспертиз (ПК-19).
Целью организованной самостоятельной работы студентов является изучение
специальной литературы по предмету, знакомство с программными продуктами,
освоение приемов использования лингвистически ориентированных программных
продуктов для решения прикладных практических задач. Значительное время
отводится на освоение терминологического тезауруса курса, анализ технологий
обработки текста и звучащей речи.
В результате освоения дисциплины обучающийся должен
знать:
--- иметь представление о параметрах разнообразия естественных языков, их
ареальной и типологической классификации;
--- основные подходы и достижения в области речевых технологий, автоматического
распознавания и синтеза речи, общие принципы построения систем обработки
естественного языка, базовую структуру человеко-машинного взаимодействия,
устройство лингвистических процессоров, типологию систем, обеспечивающих
взаимодействие с ЭВМ на естественном языке;
уметь:
--- работать с основными системами автоматической обработки текста, анализа и
синтеза речи, информационными системами, системами автоматического перевода;
владеть:
--- основами методов фонологического, морфологического, синтаксического,
семантического, дискурсивного анализа;
--- основными методами инструментального анализа звучащей речи;
--- основными приемами построения обучающих систем, систем автоматического
реферирования, индексирования и перевода, систем распознавания и синтеза речи,
гипертекстовыми технологиями.
Формы работы:
-- лекционные и семинарские занятия по темам курса;
-- практикумы по работе с программными лингвистическими продуктами;
-- аудиторная и самостоятельная работа с информационными ресурсами;
-- чтение оригинальной специальной литературы на русском и английском языках;
-- ведение личного электронного портфолио, фиксирующего результаты учебной
деятельности;
-- написание и защита курсовой работы.
Курсовая работа является обязательной формой отчетности по курсу и
представляет собой законченное самостоятельное учебное исследование, в котором
решается конкретная задача, актуальная для теоретической и прикладной
лингвистики. Тематика курсовой работы соответствует видам и задачам
профессиональной деятельности, сформулированным в п.4.4. Федерального
государственного образовательного стандарта высшего профессионального
образования по направлению подготовки 035800 «Фундаментальная и прикладная
лингвистика» квалификация (степень) «бакалавр»).
Объем курсовой работы равен 20-25 страницам печатного текста, набранного
через 1,5 интервала 14 шрифтом. Ее выполнение нацелено на развитие навыков и
умений в области прикладной лингвистики.
При выполнении курсовой работы студент: овладевает основными методами
фонологического/ морфологического/ синтаксического/ дискурсивного анализа с
учетом языковых и экстралингвистических факторов (ПК 7); методами сбора и
документации лингвистических данных (ПК 9); умением спланировать и провести
лингвистический эксперимент, описать его результаты и сформулировать выводы (ПК
10); навыками оформления и представления результатов научного исследования (ПК
14).
Курсовая работа представляется на проверку научному руководителю по
окончанию 2-го учебного модуля, в период с 25 по 30 апреля кафедра организует
публичные защиты курсовых работ, текст работы представляется на кафедру до 30
мая текущего учебного года. Требования к содержанию, структуре и процедуре
защиты курсовой работы бакалавра лингвистики определяются вузом и уточняется
профильной кафедрой. Информация о требованиях к содержанию и оформлению
курсовой работы размещены в ПТК «УМНИК» (umka.volsu.ru), Moodle.
Виды контроля:
Текущий – устное собеседование; тесты, традиционные и электронные в системе
управления учебными курсами института МООДУС,
Промежуточный – модульные контрольные работы; индивидуальные научноисследовательские задания.
Итоговый – итоговое собеседование, представление портфолио, курсовая работа).
Даты, формы проведения модульных контрольных работ
шестой семестр:
Модуль 1
Тема
Лекции 1-6
дата
март
Форма контроля
Письменный тест
Модуль 2
Лекции 2-10
апрель
Письменный тест
Модуль 3
Лекции 6-8
май
Письменный тест
Методика формирования результирующей оценки
6 семестр – форма итоговой отчетности – зачет и защита курсовой работы
Итоговая зачетная оценка по дисциплине выставляется в зачетную книжку и зачетную
ведомость. Распределение баллов производится следующим образом:
первый модуль – 20 баллов,
второй модуль – 20 баллов,
третий модуль – 20 баллов.
Итоговая оценка складывается из посещений лекционных и семинарских занятий,
активности на семинарах (хорошие и полные ответы студентов обязательны),
результатов экспериментальной работы, самостоятельной подготовки, результатов
тестов, аттестаций.
Максимальный результат по каждому модулю – 20 баллов:
– до 10 баллов за выполнение контрольной модульной работы;
– до 5 баллов за текущий контроль знаний (письменный и устный опрос);
– до 5 баллов за активность на занятиях (посещаемость, участие в предлагаемых видах
работы, развернутость ответов, участие в проектной деятельности);
Третий модуль завершает зачет и защита курсовой работы.
Зачет включает: 10 баллов итоговая письменная работа, до 30 баллов – курсовая
работа.
Если студент не набирает 60-ти баллов, то в ведомости делается отметка
«незачтено».
Оценка курсовой работы:
25-30 баллов (отлично) – студент полностью справился с поставленной задачей, в
срок представил реферативную часть исследования, собрал и представил анализ
собственного материала исследования;
15-24 балла (хорошо) – студент в целом справился с поставленной задачей, в срок
представил реферативную часть исследования, собрал собственный материал,
иллюстрирующий теоретическую часть исследования, но испытывал затруднения при
описании собранного материала, не полностью владеет научным стилем изложения;
5-14 баллов (удовлетворительно) – студент представил реферативную часть по теме
исследования, но не владеет научным стилем изложения, испытывает затруднения в
сборе и описании собственного материала, выявлены нарушения в оформлении текста
курсовой (требования к оформлению ссылок, списка литературы, представлению
статистики).
За публичную защиту курсовой работы на научной сессии института и
получение одобрения в форме грамоты за 1, 2, 3 место, представление итогов работы
на конкурс научных работ студент дополнительно получает 1-10 баллов.
Баллы, полученные за выполнение и публичную защиту курсовой работы,
присоединяются к баллам по курсу.
Раздел 2. Содержание дисциплины
Структура изучения дисциплины (6 семестр)
Всего часов (общая трудоемкость в часах)
180 часов
В том числе:
Аудиторных занятий, из которых:
64 часа
Лекций
32 часа
семинарских/практических занятий
32 часа
Самостоятельных занятий, из которых:
112 часов
изучение основной и дополнительной
56 часов
литературы
выполнение письменных домашних
48 часов
заданий, проектов
выполнение контрольных
8 часов
работ/тестов
Подготовка к зачету
4 часа
Тематический план дисциплины
Темы учебных занятий курса
Модуль 1.
Вводная лекция
Прикладная лингвистика и информатика. Задачи и методы, области
приложения ПЛ. Широкое и узкое понимание интересов ПЛ. Компьютерная
лингвистика. АОЕЯ на стыке наук. Современные актуальные прикладные
задачи. Узкое понимание ПЛ как направления, связанного с автоматической
обработкой текста (АОТ), необходимой для распознавание устной речи,
машинного перевода, автоматической классификации документов,
аннотирования, поиска, организации гипертекста и т.п.
Лекция №1
Автоматическое распознавание текста. Современные программы
распознавания символов. Технические и собственно лингвистические
аспекты интерпретации. Автоматическая обработка печатного текста в
современных текстовых процессорах и издательских системах. ABBYY Fine
Reader
Семинар №1
Программы распознавания текста. Графические редакторы (Adobe, Corel).
Спеллчекер. Системы сканирования и распознавания печатного и
рукописного текста (Abbyy, Cuneiform, Corel). Распознавание и форматы
файлов (pdf, doc, cdr)
Лекция№2
Кол-во
часов
2 часа
2 часа
+2 часа
семинар
2 часа
Современные методы экспериментально-фонетического исследования
звучащей речи. Проблемы отбор материала исследования и выбора единицы
исследования. Основные этапы акустического исследования: исследование
частоты основного тона, длительности и интенсивности.
Семинар № 2
Акустические характеристики звучащей речи: Частота колебаний и высота
звука. Сила и громкость звука, Спектр звука и тембр. Общие параметры
частоты основного тона: частотный диапазон, частотный интервал скорость
изменения ЧОТ.
Лекция №3
Функциональные особенности компьютерных приложений: Praat, Speech
Analyzer, VoiceScan, WinCECIL WaveSurfer, WASP, Macquirer and Pcquirer.
Семинар №3
Функциональные особенности программного приложения Praat. Запись
звукового файла. Сегментация звукового файла. Создание осциллограммы,
спектрограммы, графика интенсивности, графика длительности.
Лекция № 4
Современные технологии синтеза речи. Применение синтеза речи. Способы
синтеза речи. Обзор современных программ синтеза речи.
Семинар №4
Функциональные особенности программного приложения Speech Analyzer.
Запись звукового файла. Сегментация звукового файла. Хранения
информации о записанных файлах. Измерение ЧОТ, длительности,
интенсивности.
Лекция №5
Автоматический анализ речи на основе получения спектров. Общие
сведения о спектральной структуре звуков речи. Осциллографический
анализ речи. Звуки речи на осциллограмме. Временные характеристики
речи. Физиологические временные константы
Лекция №6
Развитие компьютерного речевого интерфейса. Основные проблемы
распознавания звучащей речи. Пофонемное распознавание. Графематика.
Семинар №6
Классификация современных систем распознавания речи и примеры
работающих систем. Самостоятельное исследование (поиск) +презентация
обзора.
Модульная КР
Модуль 2
Лекция №7
Синтез устной речи. Проблемы компьютерного синтеза речи. Формантный
синтез. История и перспективы развития.
Семинар №7 Синтез речи. Обзор и анализ программ (на выбор Voice
Manager, Sayer V1.0, SPEECK_P, MP3book2005, Personal Voice Master,
Reader TTS, Синтезатор речи – ГОЛОС, Sakrament Talker, Govorilka, Speaker,
ARGUS, Рассказчик, SAPI Talker, Digalo Dit It, Talk-To-Me, TextAloud MP3,
BookReader, Speech2, Фонемафон, ABM Subtitles Reader
Голосовой поиск Google на Android
+2 часа
семинар
1 час
+1 час
семинар
1 час
+1 час
семинар
1 час
+1 час
семинар
1 час
+ 1 час
семинар
2 часа
2 часа
+2 часа
семинар
Лекция №8
Лингвистический морфологический анализ текста, лингвистический
процессор. Графематический анализ. Морфологический и морфемный
анализ. Системы морфологического анализа.
Семинар №8
Морфологическая разметка в XML формате (Dialing, mystem). Работа с
Mystem. Снятие омонимии.
Лекция №9
Синтаксический анализ.
Сегментация предложения. Способы изображения и выявления
синтаксических структур. Синтаксические (языковые) ограничения,
применяемые в прикладных моделях анализа. Общие проблемы парсинга.
Синтаксические модели и их визуализация.
Семинар №9
Системы автоматического синтаксического анализа. AOT, Dialing
Лекция №10
Семантический анализ.
Семантические сети. Семантическое отношение и возможности его
представления. Работа с тематической структурой текста. «Семантическая
сеть». Общие проблемы семантического анализа и перспективы его
использования.
Семинар №10
Системы современного автоматического семантического анализа.
2 часа
+2 часа
семинар
Лекция №11
Синтез текста. Порождение высказываний. Системы синтеза на современном
этапе. Синтез письменного текста. Системы синтеза текста на современном
этапе.
Перспективы развития.
Семинар №11
Чатботы, машины Тьюринга, бредогенераторы. Генератор шуток и стихов.
Пропп и морфология сказки. Моделирование структуры сюжета.
Лекция №12
Обработка естественного языка в гипертекстовые системах
Понятие «гипертекст» в информатике и филологии. Языки разметки
гипертекста и программы-браузеры (общий обзор). Информационнопоисковые системы. Поисковые машины. Закон Ципфа. Перспективы
развития лингвистических основ гипертекстовых технологий.
Семинар №12
Лингвистические процессы в основе глобального поиска Google.
http://habrahabr.ru/company/yandex/blog/201412/ Морфология Яндекс-поиска.
Языковые модели в основе поиска Яндекса. Виды поисковых запросов.
Модульная КР
Модуль 3
Лекция №13
Лингвистические основы поисковой оптимизации и копирайтинга
(SEO) веб-ресурсов
Базовые понятия контент-менеджмента. Эффективность веб-контента и его
показатели. Основные понятия SEO/SEM. Основы поисковой оптимизации и
естественного (органического) продвижения гипертекстовых ресурсов.
Онлайн системы анализа и оптимизации веб-текстов. Мониторинг репутации
в сети.
1 час
+ 1 час
семинар
2 часа
+2 часа
семинар
2 часа
+2 часа
семинар
1 час
+ 1 час
семинар
2 часа
2 часа
+ 2 часа
семинар
Семинар №13
Составление семантического ядра для сайта. Разработка структуры контента
веб-сайта. Управление контентом в CMS Wordpress. Блог-платформы (LJ,
Tubmlr). SEO копирайтинг, основные теги, составление сниппетов. Средства
управления репутацией в интернете.
Лекция №14
Введение в искусственный интеллект.
Экспертные системы. Базы знаний. Системы представления знаний на
основе когнитивных моделей (фреймы, сценарии, слоты, концепты).
Вопросно-ответные системы. Системы управления базами данных.
Перспективы развития слабого и сильного подходов к ИИ.
Семинар №14
Обзор
современных
вопросно-ответных
и
экспертных
систем.
Индивидуальные презентации.
Лекция №15
Прикладные системы автоматического сжатия текстов. Принципы
автоматического реферирования и аннотирования текста. Извлечение
информации из текста.
Семинар №15
Системы автоматического аннотирования и реферирования. Системы
автоматического контент-анализа. Системы типа «Антиплагиат».
Лекция №16
Автоматический контент-анализ
Понятие контент-анализа, его составляющие. Процедура формализации КА
http://www.vaal.ru/cont/etap.php. Тематический КА, статистический КА.
Коммуникативная и эмоциональная эффективность текста.
Семинар №16
Системы автоматического контент-анализа. Проект ВААЛ, Advego.
Модульная КР
Защита курсовой работы
2 часа
+2 часа
семинар
2 часа
+2 часа
семинар
2 часа
+2 часа
семинар
2 часа
Формы самостоятельной работы студентов
Форма ОргСРС
Объем и время
Чтение
специальной
литературы
(индивидуальное
чтение)
Чтение текстов по
выбранной
тематике реферата
Реферат
по
выбранной теме
Знакомство
прикладными
программами
составления
обзоров
3-3,5
знаков/нед.
Форма
выполнения
Резюмирование
и электронные
презентации
в
Mahara
тыс. аналитические
обзоры
10-15 стр. А4 14
Times New Roman
1,5 интервал
с 2-3 по каждой теме
для
Электронный
реферат
Mahara
Электронная
презентация
Mahara
форма контроля
Проверка
электронного
портфолио
Презентация
Обсуждение в форуме
(i.volsu.ru)
Устная презентация
в реферата
Презентация устная на
в семинаре
Раздел 3. Средства обучения
Учебно-методическое обеспечение курса
Базовый учебник:
1)Марчук, Ю.Н. Компьютерная лингвистика [Текст]: учебное пособие / Ю.Н. Марчук.
– М.: АСТ : Восток-Запад, 2007. – 317 с.
2) Автоматическая обработка текстов на естественном языке и компьютерная
лингвистика: учебное пособие / Е.И. Большакова, Э.С. Клышинский, Д.В. Ландэ, А.А.
Носков, О.В. Пескова, Е.В. Ягунова - М.: МИЭМ, 2011. - 272 с.
ISBN/ISSN:978-5-94506-294-8
Основная литература
1.
2.
3.
4.
5.
6.
7.
8.
1.
2.
3.
4.
5.
6.
7.
8.
Сороколетова Н.Ю. Основы экспериментально-фонетического исследования
звучащей речи. Учебное пособие для студентов вузов. – Волгоград: Изд-во ВолГУ,
2012.
Бурая Е.А, Галочкина И.Е., Шевченко Т.И. Фонетика современного
английского языка. Теоретический курс. – Москва: Академия, 2009. – 272 с.
Златоустова Л.В., Потапова Р.К., Потапов В.В., Трунин-Донской В.Н. Общая и
прикладная фонетика: Учеб. пособие. 2-е изд., перераб. и доп. – М.: Изд-во МГУ,
1997. – 416 с.
Потапова Р.К. Новые информационные технологии и лингвистика. – М.:
КомКнига, 2005. – 364с.
Турыгина
Л.А.
Моделирование
языковых
структур
средствами
вычислительной техники. – М. Высшая школа, 1988. – 176 c.
Baart J.A. Field Manual of Acoustic Phonetics. SIL International Dallas, 2010.
Johnson K. Acoustic and Auditory Phonetics, 2nd edition. – Cambridge, MA:
Blackwell Publishing, 2003.
Ladefoged P. Phonetic data analysis. – Malden, Massachusetts and Oxford,
England: Blackwell Publishing, 2003.
Дополнительная литература:
Бондарко Л.В. Фонетическое описание языка и фонологическое описание речи. –
Л.,1981.
Дубовский Ю.А. Просодические контрасты в языке. – Симферополь, 1983.
Николаева Т.М. Фразовая интонация славянских языков. – М., 1972.
Потапова Р.К. Речь. Коммуникация. Информация. Кибернетика. – М., 2001.
Проблемы и методы экспериментально-фонетического анализа речи. – Л.,1980.
Сорокин В.Н. Теория речеобразования. – М., 1985.
Фомиченко Л.Г. Когнитивные основы просодической интерференции : монография. –
Волгоград, 2005.
Фомиченко Л.Г. Просодическая прагматика спонтанной речи в английском языке //
Язык и речь. Динамические аспекты. Монография. Волгоград, 2010. – С. 10-40.
Видеоматериалы:
– Видео-лекции в электронном курсе
Электронные курсы/портфолио
– Курс Технологии обработки текста и речи на http://i.volsu.ru/moo
– Электронные портфолио для самостоятельной творческой деятельности на
http://i.volsu.ru/eportfolios
Реестр электронных ресурсов
1. Online Dictionaries
– Лингво
http://slovari.yandex.ru
– Webster Dictionary
http://www.m-w.com/
– Oxford Dictionaries
http://www.askoxford.com/
– Cambridge Advanced Learner's Dictionary
http://dictionary.cambridge.org/
– англо-русский словарь по вычислительной технике, информационным технологиям
и связи под общей редакцией В.А.Дмитриева http://www.morepc.ru/dict/
Ссылка на ПТК «УМКа» - http://umka.volsu.ru/newumka3/
Список интернет-источников
http://fonetica.philol.msu.ru/glossar.htm
http://ftp.phon.ucl.ac.uk/pub/sfs
http://model.org.spbu.ru/)
http://nit-for-you.wikispaces.com
http://web.ku.edu/~idea/index.htm)
http://www.abc.net.au
http://www.bbc.co.uk/radio
http://www.fon.hum.uva.nl/praat
http://www.linguistics.ucla.edu/faciliti/facilities/acoustic/acoustic.html#PC/Macquirer
http://www.sil.org/computing/
http://www.speech.kth.se/wavesurfer/download0.html
http://www.speech.nw.ru/Manual/glava3.htm#n3
Программное обеспечение и компьютерные средства обучения
Курс Автоматическая обработка естественного языка (ТиПЛ 3курс) на
http://moodle.volsu.ru
Автоматическая обработка текста. Технологии. www.aot.ru
The Association for Computational Linguistics http://www.aclweb.org/
Компьютерная лингвистика и интеллектуальные технологии //Конференция «Диалог»
http://www.dialog-21.ru/
Англо-русский словарь по вычислительной технике, информационным технологиям и
связи под общей редакцией В.А.Дмитриева http://www.morepc.ru/dict/
Технологии синтеза речи и распознавание голоса http://speech-soft.ru/
Современные технологии распознавания речи
http://bookmp3.com.ua/index.php?nma=catalog&fla=stat&cat_id=3&page=1&nums=9
Обзор компьютерных программных решений распознавания и синтеза речи
http://bookmp3.com.ua/index.php?nma=catalog&fla=stat&cat_id=3&page=1&nums=7
http://www.cti.ru/
CTI – Communications. Technology. Innovations.//российский системный интегратор и
разработчик программного обеспечения, специализирующийся в области IPкоммуникаций.
http://gladkos.livejournal.com/970.html
Коллекция ресурсов по распознаванию речи
- программы анализа и лингвистической обработки текстов;
- программы преобразования текстов;
- психолингвистические программы;
- генераторы текстов и "говорящие" программы;
- системы обработки естественного языка;
- коллекции ресурсов;
- словари и тезаурусы.
Вопросы к итоговому контролю
Содержание зачета
I.
Итоговая письменная работа включает развернутый ответ на 2
вопроса по теоретической проблематике (20 баллов)
II.
Электронный тест (multiple choice) по пройденным темам (в moodle)
(10 баллов)
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
Контрольные вопросы для подготовки к зачету
Современные программы распознавания символов. Автоматическая обработка
печатного текста в современных текстовых процессорах и издательских
системах. ABBYY Fine Reader
Распознавание речи. Артикуляторный аспект фонетики. Общие свойства
гласных и согласных.
Акустические характеристики звучащей речи. Основные проблемы
распознавания звучащей речи.
Автоматический анализ речи на основе получения спектров. Общие сведения о
спектральной структуре звуков речи: Гласные звуки. Согласные звуки.
Осциллографический анализ речи. Звуки речи на осциллограмме.
Временные характеристики речи. Физиологические временные константы
Феномен паузации. Перцептивные корреляты временной характеристики.
Восприятие звуков речи. Общие задачи перцептивной фонетики. Основные
методы исследования восприятия речи. Релевантные для автоматического
анализа звучащей речи характеристики
Физиологические факторы, обуславливающие изменения интенсивности.
Фонологический и фонетический слог. Фонетическая структура слога. Теории
слога. Восприятие просодических характеристик речи. Анализ и синтез слога.
Фонемный состав слова. Чередование фонем. Акцентно-ритмическая структура
слова. Проблемы компьютерного анализа и синтеза звучащей речи.
Лингвистический морфологический анализ: лингвистический процессор.
Графематический анализ. Морфологический и морфемный анализ. Системы
морфологического анализа. Морфологическая разметка (Dialing, mystem).
Синтаксический анализ. Сегментация предложения. Способы изображения и
выявления синтаксических структур. Синтаксические (языковые) ограничения,
применяемые в прикладных моделях анализа.
Общие проблемы парсинга. Синтаксические модели и их визуализация.
Системы автоматического синтаксического анализа.
Синтез текста и речи. Порождение высказываний. Синтез письменного текста.
Чатботы, машины Тьюринга, бредогенераторы. Генератор шуток и стихов.
В. Пропп и морфология сказки. Моделирование структуры сюжета. Системы
синтеза текста на современном этапе. Перспективы развития.
Системы синтеза речи на современном этапе. Перспективы развития.
Программы распознавания текста. Графические редакторы. Спеллчекеры.
Системы синтеза текста и звучащей речи. Обзор доступных и коммерческих
программных средств. MS, Dragon, ЗмейГорыныч.
Динамическая обработка звука. Спектральный анализ. Понятие спектра
звукового сигнала. Синтез электронного звука.
20. Гипертекст, основные характеристики. Лингвистическое обеспечение
поисковых систем. Виды поисковых запросов. Обработка запросов,
релевантность, ранжирование. Структура поисковой выдачи.
21. Основы поисковой оптимизации. Лингвистические основы копирайтинга и
моделирования контента в Web.
22. Лингвистическое обеспечение экспертных систем. Системы представления
знаний на основе когнитивных моделей (фреймы, сценарии, слоты, концепты).
Вопросно-ответные системы.
Темы для рефератов
1. Развитие компьютерного речевого интерфейса. Основные проблемы
распознавания звучащей речи.
2. Классификация систем распознавания речи и примеры работающих
систем.
3. Распознавание письменного текста. Обзор современных программ
распознавания символов.
4. Обзор систем автоматической обработки печатного текста в современных
текстовых процессорах и издательских системах.
5. Обзор систем графематического и морфологического анализа
6. Прикладное использование синтаксического анализа: обзор прикладных
программ
7. Синтаксические (языковые) ограничения, применяемые в прикладных
моделях анализа. Современные проблемы парсинга.
8. Автоматический семантический анализ. Обзор лингвистических
процессоров.
9. Общие проблемы семантического анализа и перспективы его
использования.
10. Системы синтеза речи на современном этапе. Перспективы развития.
Download