«Морфологический анализатор имен существительных русского языка» Дипломная работа студента 544 группы Галлямова Антона Фаридовича Научный руководитель: Тузов Виталий Алексеевич Рецензент: Фоминых Николай Федорович Санкт-Петербург 2007 Постановка задачи: • Прямая и обратная и дополнительная задачи. • Прямой задачей является генерация по исходной форме слова (единственное число, именительный падеж – для существительных, инфинитив для глаголов) всей парадигмы этого слова. • Обратная задача – по произвольной форме слова восстановить его основную форму. • Ещё одна задача – по входным данным, содержащим неисходную форму слова, а также информацию о форме слова, которую мы хотим получить, построить желаемый результат (пример: утятах; родительный падеж, единственное число -> утёнка). Структура база данных: • • Основные таблицы базы данных: 1. словарь русского языка (таблица MorfDictionary); 2. наборы окончаний с правилами изменения основы слова (таблица Endings); 3. имена и описатели классов слов русского языка (таблица Classes); Дополнительная таблицы: 1. NounEndings для имен существительных Основные таблицы базы данных: Classes ID Name MorfDictionary ID Description Word PartOfSpeech ClassID Endings Osnovi Endings ID Content Массив индексов и таблица NounEndings: • Содержит номера основы для каждого окончания, позволяя установить однозначное соответствие между набором всевозможных окончаний, содержащимися в таблице NounEndings и всевозможными основами данного слова. • На основе установленного соответствия, массив индексов позволяет решить задачу построения конкретной(нужной) формы слова. И (как обобщение) задачу построения полной парадигмы слова. Примеры использования: Вводим в поисковой строке “чаек”: // - производное от слова “чай” [word] => чаек [padej] => Именительный [mn] => Единственное [rod] => Муж [word] => чаек [padej] => Винительный [mn] => Единственное [rod] => Муж // словоформа слова “чайка” [word] => чаек [padej] => Родительный [mn] => Множественное [rod] => Жен [word] => чаек [padej] => Винительный [mn] => Множественное [rod] => Жен Выводы: • Создана адекватная структура базы, удовлетворяющая поставленной задаче; • Реализован морфологический анализатор для имен существительных русского языка, использующий оригинальный алгоритм обработки входного слова(таблица NounEndings и массив индексов) Перспективы использования: • Нормализация слов • Построение произвольной формы слов • Важная составляющая семантического анализатора