разработка казахско-русского словаря с автоматизированным

advertisement
РАЗРАБОТКА КАЗАХСКО-РУССКОГО
СЛОВАРЯ С АВТОМАТИЗИРОВАННЫМ
АНАЛИЗОМ КАЗАХСКИХ СЛОВ
Сержанов Азат, гр:7205
Научный руководитель: Сидорова Елена Анатольевна, к.ф.-м.н., ИСИ СО РАН.
Введение
Казахский язык – является одним из самых трудных тюркских языков,
в котором осуществление морфологический разбора и определение части
речи довольно трудоемкий процесс.
Язык характеризуется большим числом словоформ для каждого слова,
образованных путем добавления к его концу суффиксов и окончаний.
Актуальность




Морфологический словарь казахского языка – один из самых востребованных
словарей в изучении казахского языка.
Разработка морфологического казахского словаря - одна из актуальнейших задач
для развития казахской компьютерной лингвистики в целом.
Слова в этом словаре разделены на значимые части – морфемы, то есть
разобраны по составу. В сложных случаях преподаватели и школьники могут
проверять по Словарю результаты проведенного ими самими морфемного
анализа.
Наличие русского перевода слов позволит в дальнейшем использовать словарь
для разработки методов автоматического перевода казахских текстов на русский
язык.
Цель и задачи работы
Основной целью диссертационной работы является создание
информационной системы "Казахско-русский словарь", обеспечивающей
перевод и автоматизированный морфологический разбор казахских слов.

Программа должна предоставлять возможность перевода слов, соблюдая
при этом правила грамматики и морфологии.
Цель и задачи работы
Для решения поставленной задачи требуется выполнить следующее:

провести анализ существующих электронных казахско-русских словарей;

провести анализ строение казахских слов;

изучить модели казахского языка;

принципы организации и использования работы электронного казахскорусского словаря;

разработать базу слов;

разработать и заполнить электронную базу данных;

разработать алгоритм морфологического анализа казахского текста
(определение части речи слова, поиск морфем слова);
Цель и задачи работы
Для решения поставленной задачи требуется выполнить следующее:

построить декомпозицию проекта;

разработать модуль, обеспечивающий работу со словарем;

разработать модуль морфологического анализа казахских текстов;

разработать пользовательский интерфейс.
Обзор современного состояния разработки электронных
словарей
Электронный словарь «IZET Тілмаш»
Одним из главных недостатков электронного словаря «Тілмаш» является
ограничение по переводу слов, находящихся в различных склонениях и
падежах. То есть, дается перевод слов только в именительном падеже.
Он-лайн словарь sozdik.kz
На сайте очень много рекламных банеров, что отвлекает и мешает работе со
словарем. Так же есть ограничение по переводу слов, находящихся в различных
склонениях и падежах. Перевод слов осуществляется только в именительном
падеже.
Электронный словарь Soylem.kz
Soylem не оправдывает своего названия. Фактически предложения
переводятся только частично, так как склоненные слова непереводимы. Мало
того, несмотря на заявленный объем словаря, к сожалению, для многих слов
отсутствуют варианты перевода
Модель казахского языка
Часть речи
В казахском языке существует девять частей речи. Каждый из них
делиться на несколько типов подчастей. Каждый из подчастей имеют
свои окончания, с помощью которого можно определить
принадлежность слова к этой подчасти речи
Морфемный состав слова
Общая морфологическая форма определения состава выглядит вот так:
Түбір (корень) + қосымша(окончание) + жұрнақ(суффикс) +
жалғау(окончание).
Алгоритм морфологического анализа казахского текста
Основной алгоритм

Шаг 1. На вход подается текстовый файл. Файл должен быть в формате UTF-8,
так как остальные форматы не поддерживают казахских шрифтов.

Шаг 2. Текст считывается пословно. При считывании ищем совпадения слов.
При нахождении совпадающих слов, оставляем только одно.

Шаг 3. Для каждого слова ищем его корень в базе казахских слов. Если корень
существует в базе и совпадает с корнем, то Шаг 5. Если корня не существует, то
Шаг 6. Если в базе два несколько подходящих корня, то выбираем самый
длинный корень
Основной алгоритм

Шаг 4. Для каждого слова осуществляется поиск суффиксов и окончаний с
конца слова. Для решения проблемы неоднозначности используется
приоритет групп аффиксов, характеризующих различные типы
морфологических свойств (определяемый строгим порядком следования
аффиксов в составе слова). Порядок убывания приоритета следующий: 1)
падеж 2) множественное число 3) Окончания формы принадлежности 4)
личные окончания 5) Имя существительное 5) Имя прилагательное 6) Имя
числительное 7) Глагол 8) Наречие 9) Подражательные слова.

Шаг 5. В соответствии с найденным составом слова определяются часть речи и
морфемный состав слова. Выводим список корней, перевод корня, часть речи
и морфемы каждого слова.
Основной алгоритм

Шаг 6. Если перевода не существует, то пользователь может самостоятельно
ввести корень с переводом. Существует два варианта, если корня не было в
базе данных, то он его добавляет вместе с переводом, если корень уже был
(на каз. яз.), то он обновляет его перевод (т.е. русскую часть).

Шаг 7. Формирует вывод информации о слове. Выводится следующая
информация: часть и подчасть речи, а также морфологические признаки
(число, падеж и т.п.).
Система анализа казахских текстов
Декомпозиция проекта
Декомпозиция позволит увидеть оптимальный алгоритм для определения частей
речи наглядно.
Реализация модуля морфологического анализа
Алгоритм и интерфейс написан на языке С# (VS 2012)
Суффиксы храняться в *xml файле
База казахско-русских слов храниться в *mdb файле
Эксперимент: сравнение с ABBYY Lingvo x5
ABBY Lingvo x5 Не правильно определяет:
типы глаголов, типов множественного числа, прилогательное, числительное и
многое другое.
Заключение

Разработан алгоритм определения части речи и морфем слова;

Описаны 80 подчастей речи, составлена база 1292 аффиксов (окончаний и
суффиксов);

Разработана система "Казахско-русский словарь";

Данная программа была апробирована в средней общеобразовательной
школе №67 Алмалинского района г. Алматы;

Опубликована статья в вестнике ЮКГУ.
Спасибо за внимание!
Download