Курсовая работа Нормализация коротких сообщений

advertisement
Курсовая работа
Нормализация коротких сообщений
пользователей социальных сетей
Выполнил:
Александров Никита
328 группа
Научный руководитель:
Коршунов Антон Викторович
Проблема нормализации
• Нормализация – приведение ошибочных слов к словарной форме
• В рассматриваемой области проблема усложняется большим
количеством ошибок:
1. Количество символов (Twitter – 140)
2. Неформальный стиль
3. Обильное использование сленга
Постановка задачи
1. Исследовать существующие методы нормализации
коротких сообщений
2. Разработать и реализовать алгоритм нормализации
3. Произвести экспериментальную оценку качества
результатов реализованного метода
Общая схема существующих
алгоритмов
• Выделение из сообщений несловарных
конструкций
• Для каждого выделенного слова,
построить множество слов, которые могут
быть его словарной формой
• Отбор самого подходящего кандидата (на
основе каких-то критериев) из множества,
полученного на предыдущем шаге,
который будет являться результатом
нормализации данного слова
Существующие методы
• TENOR (TExt NORmalisation)
Aspell -> Phonetic Similarity -> Lexical Similarity -> Trigram Language Model
• Kaufmann
Preprocessing (Orthographic Normalization, Syntactic Disambiguation) ->
Machine Translation
• NICTA Victoria Research Laboratory
Aspell -> Phonetic Similarity , Lexical Similarity , Trigram Language Model ->
SVM(words dependencies)
• F. Liu, F. Weng
Letter Transformations: Web based Data Collection -> Letter-level Alignment > Sequence Labeling Model
Разработанный метод
За основу взят подход TENOR
Схема работы:
1. Выделить из сообщения OOV-слова, которые
необходимо привести к нормальной форме (GNU
Aspell)
2. Для каждого OOV-cлова построить список слов,
которые могут являться его нормальной формой
2.1. Определение часто употребляющихся
простых трансформаций слов
2.2. Фильтрация списка слов по фонетической
близости (Double Metaphone)
2.3. Фильтрация списка слов по лексической
близости (Gestalt Pattern Matching)
3. Выбор самого подходящего кандидата (Trigram
Language Model)
Пример работы
Source tweet
new pix comming tomoroe
Possible variants
new*IV~pictures*OOV~cumming*gumming*comings*commi
ngle*cummings*cameoing*gaming*coming*comming*OOV~
tumor*tumour*tomoroe*OOV~
Normalized tweet
new pictures coming tumor
Анализ результатов
OOV
IV
Точность: P = A / (A+B)
Найден
A
B
Полнота: R = A / (A+C)
Не найден
C
D
F1: F=2PR / (P+R)
Нормализация:
Точность, %
Полнота, %
F1, %
89.4
97.5
93.3
Обнаружение OOV:
Немодифицированный корпус.
Использование словаря
исключений
Немодифицированный корпус. Без
использования словаря
исключений
Модифицированный корпус.
Использование словаря
исключений
Точность, %
80.0
Полнота, %
48.5
F1, %
60.4
53.4
37.8
44.3
90.7
65.3
76.0
Результаты
1. Исследованы существующие алгоритмы
нормализации коротких сообщений
2. Разработан метод нормализации
коротких сообщений, основанный на
сравнении слов по фонетической и
лексикологической близости
3. Создан прототип системы нормализации,
подтверждающий работоспособность
данного метода
4. Произведена экспериментальная оценка
качества результатов разработанного
метода
Спасибо за внимание!
Download