Морфологический анализатор имен существительных русского

advertisement
«Морфологический анализатор
имен существительных
русского языка»
Дипломная работа студента 544 группы
Галлямова Антона Фаридовича
Научный руководитель: Тузов Виталий Алексеевич
Рецензент: Фоминых Николай Федорович
Санкт-Петербург
2007
Постановка задачи:
• Прямая и обратная и дополнительная задачи.
• Прямой задачей является генерация по исходной форме слова
(единственное число, именительный падеж – для
существительных, инфинитив для глаголов) всей парадигмы
этого слова.
• Обратная задача – по произвольной форме слова восстановить
его основную форму.
• Ещё одна задача – по входным данным, содержащим
неисходную форму слова, а также информацию о форме слова,
которую мы хотим получить, построить желаемый результат
(пример: утятах; родительный падеж, единственное число ->
утёнка).
Структура база данных:
•
•
Основные таблицы базы данных:
1. словарь русского языка (таблица MorfDictionary);
2. наборы окончаний с правилами изменения основы
слова (таблица Endings);
3. имена и описатели классов слов русского языка
(таблица Classes);
Дополнительная таблицы:
1. NounEndings для имен существительных
Основные таблицы базы данных:
Classes
ID
Name
MorfDictionary
ID
Description
Word
PartOfSpeech
ClassID
Endings
Osnovi
Endings
ID
Content
Массив индексов и таблица NounEndings:
•
Содержит номера основы для каждого окончания, позволяя
установить однозначное соответствие между набором
всевозможных окончаний, содержащимися в таблице
NounEndings и всевозможными основами данного слова.
• На основе установленного соответствия, массив индексов
позволяет решить задачу построения конкретной(нужной)
формы слова. И (как обобщение) задачу построения полной
парадигмы слова.
Примеры использования:
Вводим в поисковой строке “чаек”:
// - производное от слова “чай”
[word] => чаек
[padej] => Именительный
[mn] => Единственное
[rod] => Муж
[word] => чаек
[padej] => Винительный
[mn] => Единственное
[rod] => Муж
// словоформа слова “чайка”
[word] => чаек
[padej] => Родительный
[mn] => Множественное
[rod] => Жен
[word] => чаек
[padej] => Винительный
[mn] => Множественное
[rod] => Жен
Выводы:
• Создана адекватная структура базы, удовлетворяющая
поставленной задаче;
• Реализован морфологический анализатор для имен
существительных русского языка, использующий оригинальный
алгоритм обработки входного слова(таблица NounEndings и
массив индексов)
Перспективы использования:
• Нормализация слов
• Построение произвольной формы слов
• Важная составляющая семантического анализатора
Download