Uploaded by Di larka

обработка естесственного языка

advertisement
Компьютерная лингвистика и
обработка естественных языков
Выполнила: Ахметгалеева Д.Ф.
Компьютерная лингвистика
Компьютерная
лингвистика - это
междисциплинарная
область, занимающаяся
компьютерным
моделированием
естественного языка, а также
изучением соответствующих
вычислительных подходов к
лингвистическим вопросам.
Направления компьютерной
лингвистики
• Обработка естественного языка;
• Оптическое распознавание
символов;
• Автоматическое распознавание
речи;
• Автоматический синтез речи.
Обработка естественного языка
Обработка естественного языка (Natural
Language Processing, NLP) — пересечение машинного
обучения
и
математической
лингвистики,
направленное на изучение методов анализа и синтеза
естественного языка.
Сегодня NLP применяется во многих сферах, в
том числе в голосовых помощниках, автоматических
переводах текста и фильтрации текста. Основными
тремя направлениями являются: распознавание речи
(Speech Recognition), понимание естественного языка
(Natural Language Understanding) и генерация
естественного языка (Natural Language Generation).
Задачи NLP
• Уровень сигнала: распознавание текста, речи, синтез
речи;
• Уровень слова: морфологический анализ, канонизация,
исправление ошибок;
• Уровень словосочетаний: определение части речи,
распознавание именованных сущностей, выделение слов;
• Уровень предложений: синтаксический разбор,
устранение двусмысленности;
• Уровень абзацев: извлечение отношений, определение
языка, анализ эмоциональной окраски;
• Уровень документа: аннотация документа, перевод,
анализ тематики;
• Уровень корпуса: дедубликация, информационный
поиск.
Основные подходы
•
•
•
•
•
•
•
Предобработка текста;
Стемминг;
Лемматизация;
Векторизация;
Дедубликация;
Семантический анализ;
Распознавание именованных сущностей и
извлечение отношений;
• N-граммы;
• Частеречная разметка.
Download