Использование алгоритмов автоматической обработки для

УДК 004 (06) Информационные технологии Е.В. КАПИТОНОВА Научный руководитель – М.Г. ЮШКЕТОВ, к.т.н., доцент Московский инженерно-физический институт (государственный университет) ИСПОЛЬЗОВАНИЕ АЛГОРИТМОВ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ДЛЯ СТАТИСТИЧЕСКОГО АНАЛИЗА ТЕКСТОВЫХ ДАННЫХ Рассматриваются вопросы проектирования и реализации программного комплекса для статистического анализа текстов с использованием СУБД MS Access и приложения на C#/C++/Visual Basic .NET с использованием технологий DAO, XML/XSLT. Задача статистического анализа текстовых данных рассматривается в контексте ее решения для автоматизации перевода текстов на другие языки. Задача включает в себя следующие подзадачи: 1. Разбиение текста на сегменты (абзацы, предложения, словосочетания, отдельные слова) для перевода[5] 2. Определение количества точных совпадений сегментов в тексте с сохраненными данными предыдущих переводов. 3. Распределение текстовых сегментов по диапазонам в соответствии с процентным совпадением с базой переводов 4. Поиск повторяющихся сегментов в переводимом тексте (как полных дубликатов, так и различающихся лишь суффиксами и префиксами) 5. Определение количества сегментов, совпадающих с базой переводов с учетом контекста (последовательные совпадения 3-х и более сегментов) Алгоритм распределения сегментов по категориям представлен на следующей схеме Текстовые сегменты могут поступать в программу с уже предопределенными статусами, на основе которых определяется принадлежность сегмента к категории. В противном случае (когда статус не установлен) для его определения используется алгоритм Левенштейна[5] (определение различия двух строк текста на основе количества элементарных текстовых операций необходимых для преобразования одной строки в другую). В результате работы алгоритма распределения формируется единый отчет, включающий все категории текстовых сегментов, а также содержащий абсолютные и относительные данные по распределению текста. Программное обеспечение для реализации описанных алгоритмов разрабатывалось с применением следующих технологий 1. C++[4] – для отрисовки сложного пользовательского интерфейса, связанного с отображением сегментов и их статусов 2. C# – для загрузки результатов работы в онлайновое хранилище 3. MS Access[1] – для хранения текстовых сегментов, связанной с ними метаинформации и базы переводов 4. Visual Basic .NET[2, 3] – для разработки алгоритмов расчета и отрисовки базового пользовательского интерфейса 5. XML/XSLT[2] – для преобразования полученных данных в удобную отчетную форму Список литературы _______________________________________________________________________ ISBN 5-7262-0710-6. НАУЧНАЯ СЕССИЯ МИФИ-2007. Том 16 1 УДК 004 (06) Информационные технологии 1. 2. 3. 4. 5. Моисеенко С.И., Соболь Б.В., Разработка приложений в MS Access. М.: Вильямс, 2006. Symmonds N. Internationalization and Localization Using Microsoft .NET. Apress, 2002. Крейг Атли. Visual Basic .NET для программистов. М.: ДМК пресс, 2002. Солтер Н. C++ для профессионалов. М.: Диалектика, Вильямс, 2006. Lunde K. CJKV Information Processing. O’Reilly, 1999. _______________________________________________________________________ ISBN 5-7262-0710-6. НАУЧНАЯ СЕССИЯ МИФИ-2007. Том 16 2

Использование алгоритмов автоматической обработки для

Related documents

Products

Support

Использование алгоритмов автоматической обработки для

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib