Правительство Российской Федерации Федеральное

ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ “ВЫСШАЯ ШКОЛА ЭКОНОМИКИ”» Факультет гуманитарных наук Образовательная программа «Фундаментальная и компьютерная лингвистика» Липунова Александра Евгеньевна АВТОМАТИЧЕСКАЯ РАССТАНОВКА УДАРЕНИЙ НА ОСНОВЕ ОШИБОЧНОГО НАПИСАНИЯ СЛОВ Выпускная квалификационная работа студента 4 курса бакалавриата группы 1144ФЛ Академический руководитель Научный руководитель образовательной программы канд. филологических наук, доц. Д.А. Алексеевский Ю.А. Ландер ________________________ « __________________________ » июня 2015 г. Москва 2015 ОГЛАВЛЕНИЕ 1. Введение 1 2. Теоретический аспект поведения ударений в русском языке 3 2.1. Общая информация о системе ударений русского языка 3 2.2. Становление и историческое развитие системы в русском языке 6 3. Анализ закономерностей русского языка с точки зрения применимости в сфере автоматической расстановки ударений 10 3.1. Морфемы, указывающие на поведение ударения 10 3.1.1. Поведение ударения в существительных 13 3.1.2. Поведение ударения в глаголах 16 3.1.3. Поведение ударения в прилагательных 17 3.1.4. Поведение ударения в других частях речи 19 3.1.5. Пример реализации алгоритма автоматической расстановки ударений, использующий морфемные характеристики слова 20 3.2. Фонетические правила и их связь с орфографическими ошибками 23 4. Архитектура программного обеспечения 26 4.1. Предобработка текста 27 4.2. Формирование ключей 28 4.3. Обработка слов с несколькими возможными ударениями 30 4.4. Выбор правильного варианта написания 32 4.5. Формирование финальных результатов 32 5. Результаты работы программы 32 6. Заключение 33 Литература 38 Приложения 39 1. Введение. Большинство программ, которые сталкиваются с задачей расстановки ударений в слове, используют внешние ресурсы, такие как, например, словари или специальные базы данных. Тем не менее, этот способ представляется не самым эффективным, поскольку в основу расстановки ударений изначально ложится ручной труд. До сих пор практически не существует программного обеспечения, которое было бы способно с достаточной точностью самостоятельно расставлять ударения вместо того, чтобы прибегать к помощи сторонних ресурсов. Данная работа, напротив, посвящена подробному рассмотрению факторов, влияющих на расположение ударения в слове, а также описанию программы, которая способна автоматически эти ударения расставлять. В рамках исследования были рассмотрены такие факторы, как правила расстановки ударения в разных частях речи, а также самоударные, левоударные и правоударные морфемы. В дополнение был использован инновационный метод, который позволил определить местоположения ударения в слове на основе орфографических ошибок в гласных. Метод основан на связанности фонетических правил русского языка с ударением посредством редукции гласных. Объектом исследования являются способы нахождения ударения в тексте с возможным наличием грамматических ошибок. В качестве предмета исследования было взято автоматическое определение ударения с помощью различных методов анализа слова. Цель данной работы состоит в том, чтобы создать программное обеспечение, способное автоматически определять ударение в слове. В тех случаях, когда это невозможно сделать, программа должна предложить список слогов, где постановка ударения наиболее вероятна. В рамках этой цели было поставлено несколько задач. Первая задача заключается в изучении достижений акцентологии и сборе информации в области ударения. Вторая задача состоит в нахождении и изучении косвенных факторов, указывающих на расположение ударения в слове. Третья задача включает в себя построение архитектуры программного обеспечения и написание кода. И, наконец, четвертая задача представляет собой сбор и анализ результатов работы программы. Теоретическая значимость исследования заключается в развитии существующих алгоритмов акцентуации, в то время как практическая значимость состоит в формировании более результативных программ для расстановки ударений. Наличие таких программ, безусловно, востребовано: системы синтеза речи развиваются высокими темпами, и в ближайшем будущем подобные технологии будут использоваться во все большем круге задач. Данная работа претендует на то, чтобы 1 стать составной частью будущих более сложных программ, поскольку расстановка ударений является одной из важнейших составляющих подготовки текста к голосовому воспроизведению. Еще одной возможной областью применения данной технологии является расширение существующих словарей неологизмами. На выходе программа выдает список слов с расставленными ударениями (для тех случаев, когда программа не смогла точно определить ударение, будут указаны места, где ударение точно находиться не может). Таким образом, при совместном использовании такой программы и специализированного программного обеспечения для сбора данных, принимающего на вход те слова из первой программы, которые не встретились в словарях, становится возможным автоматизированное создание словарных статей по встретившимся неологизмам. Тема автоматического определения местоположения ударения до сих пор недостаточно исследована, а следовательно нуждается в дальнейшей разработке и является актуальной. Так, до сих пор практически не существует алгоритмов, способных с высокой точностью определить местоположение ударения в слове без использования словарей. Единственной найденной работой по данной тематике является статья О. Г. Хомицевича, С. В. Рыбина, А. О. Таланова и И. В. Опарина «Автоматическое определение места ударения в незнакомых словах в системе синтеза речи». В данной статье подробно рассмотрен алгоритм работы системы синтеза речи «VitalVoice». Тем не менее, здесь стоит учесть, что ввиду запутанной системы ударений русского языка (см. раздел 2.1), невозможно создать программу, которая однозначно расставляла бы ударения во всех встретившихся словоформах. Не стоит забывать и о технических сложностях: некоторые слова могут быть недостаточно частотными для того, чтобы составить по ним схему ударений на основании орфографических ошибок, а также не иметь стандартных морфем, указывающих на поведение ударения в слове. Кроме того, в ряде словоформ наблюдается колебание литературной нормы, вследствие чего даже люди не всегда способны правильно определить место ударения в слове. Именно ввиду таких случаев задача автоматической расстановки ударений сопряжена с рядом трудностей. Тем не менее, данное исследование предлагает возможности для улучшения уже существующих алгоритмов и может послужить основой для дальнейших работ в этом направлении. Исследование проводится на корпусах блогов русскоязычных интернет-ресурсов и преимущественно направлено на работу со словами с орфографическими ошибками в гласных, поскольку тексты этого корпуса не подвергались литературной правке. 2 Теоретическую основу дипломной работы составляют работы известных ученых и исследователей, таких как А. А. Зализняк, Н. А. Федянина, С. М. Кузьмина и Н. Ю. Шведова. Структура дипломной работы обусловлена целью и задачами исследования. Работа состоит из введения, четырех глав и заключения. В первой главе раскрывается теоретический аспект поведения ударений в русском языке. Рассматриваются ключевые особенности русского ударения – разноместность и подвижность. Дается обзор истории и достижений русской акцентологии, а также системы ударений древнеславянских языков и ее развития. Вторая глава посвящена анализу акцентных закономерностей русского языка. Выявляются два фактора, способные помочь в определении местоположения ударения, и дается их всестороннее описание в рамках задачи. В третьей главе описывается архитектура программного обеспечения, созданного по результатам исследования. Подробно расписываются все этапы, которые проходит корпус текстов, превращаясь в таблицы составляющих его словоформ с отмеченными ударными гласными (для случаев, когда это возможно). В четвертой главе производится оценка работы программы: составляется статистика результатов, анализируются возникшие ошибки в определении местоположения ударений и выявлении правильных вариантов написания словоформ. Также проводится обзор сильных сторон программы. 2. Теоретический аспект поведения ударений в русском языке 2.1. Общая информация о системе ударений русского языка Русский язык в мировой среде признается одним из самых сложных для изучения языков. Одним из определяющих факторов этой сложности является ударение. В отличие от языков, где ударение четко закреплено за одним из слогов (как, например, в чешском или в французском языках), в русском языке оно является разноместным и подвижным. Разноместность ударения проявляется в том, что его место не прикреплено к одному определенному слогу или к определенной морфологической части слова. Подвижность ударения выражается в том, что его место в каждом отдельном слове не закреплено на определенном слоге. Иными словами, при словоизменении ударение переносится с одного слога на другой. Именно это и создает целый класс дополнительных проблем, связанных с необходимостью запоминать ударение не только в слове, но и в каждой отдельной его форме. 3 Однако нельзя утверждать, что способность носителей русского языка правильно определить место ударения основана лишь на запоминании словоформ, поскольку количество словоформ огромно. Кроме того, средний русский человек без труда сможет поставить ударение и в практически любом незнакомом ему слове. Отсюда можно сделать вывод, что бытовые, повседневные слова, безусловно, запоминаются носителем вместе с ударением, однако при необходимости поставить ударение в словах менее тривиальных задействуются правила системы ударений русского языка, выученные носителем на примере других слов. Из этого явно следует, что существуют определенные закономерности в том, как устроена акцентуация в русском языке. Тем не менее, современное русское ударение организовано чрезвычайно сложно и все его закономерности не могут быть сформулированы в виде набора простых фраз или тезисов, покрывающих всю систему ударений в русском языке. Отечественная лингвистика начала интенсивно заниматься вопросом ударения во второй половине XX века; ранее этот вопрос также изучался, но занимал незначительное место в русском языкознании. Таким образом, акцентология на данный момент гораздо менее развитая область, нежели другие типы грамматики. Однако уже сейчас вопросы ударения играют немалую роль в системе языкознания и, в частности, в современной русистике. За минувшие полвека было создано немало описаний и словарей, в том числе и орфоэпических, отражающих современное литературное произношение и норму ударения. Одним из ярких образцов такого словаря является «Орфоэпический словарь русского языка: произношение, ударение, грамматические формы», в котором под руководством Н. А. Еськовой была разработана шкала нормативности – тонкая система градаций, оценок разных форм и разных ударений с точки зрения их нормативного статуса. Возвращаясь к вопросу сложности и неоднозначности русского ударения, приведем в пример словоформу передало, прокомментировав варианты его ударения с точки зрения шкалы нормативности. Оказывается, что все четыре варианта ударения этого слова встречаются в русской речи, однако каждое из них имеет свою стилистическую и оценочную характеристику. Литературная норма требует ударения на первом слоге (пе́редало); ударение на третьем слоге (переда́ло) не является литературным, однако же литературной нормой допускается. Ударение на последнем слоге (передало́) литературная норма в себя уже не включает, однако в связи с широким его употреблением данное слово часто встречается в орфоэпических словарях с пометой «не рекомендуется». Ударение на второй слог (пере́дало) является ударением диалектным, но и оно также встречается в речи. На этом примере можно увидеть, 4 насколько вариативна в некоторых случаях может быть русская речь с точки зрения ударения. Другим примером является словоформа позвонит, литературной нормой которого является форма позвони́т, тогда как другая форма, позво́нит, согласно орфоэпическому словарю под редакцией Р.И. Аванесова, не рекомендована. Как читателю должно быть известно, форма позвони́т является устаревающей нормой произношения, а ведь еще в XX веке (что с точки зрения нормы языка было совсем недавно) она была единственной произносительной нормой и не имела аналогов. Оглядываясь на другие подобные слова, с которыми произошел подобный перенос ударения от суффикса к основе (ср., научи́т и нау́чит, лови́т и ло́вит, терпи́т и те́рпит и т.д.), можно с практически стопроцентной уверенностью сказать, что и в словоформе позвонит произойдет подобный перенос. Как было показано выше, литературная норма со временем изменяется. Так, около четырехсот лет назад некоторые современные формы слов считались грубыми и вульгарными, однако со временем именно эти формы вошли в норму. Так что градация соответствия словоформы литературной норме в орфоэпических словарях представляет собой не что иное, как соотношение разных хронологических срезов. Иными словами, некоторые варианты произношения на данный момент используются только лишь старшим поколением, тогда как младшие поколения придерживаются уже новой акцентной парадигмы. В таких случаях в орфоэпических словарях в качестве нормы отмечается и новая произносительная норма, и старая (с пометой «допустимо, устаревшее»). Очевидно, что устаревающая норма скоро перестанет употребляться и отпадет. К примеру, всего полвека назад словари давали однозначное ударение словам паспо́рт, транспо́рт, принци́п, но к настоящему моменту ударение в этих словах окончательно переместилось на первый слог, а произносительные нормы с ударением на второй слог исчезли из словарей. Помимо практической стороны, существует еще чисто лингвистическая сторона вопроса: попытки понять, что собой представляет механизм ударения в целом. Литературная норма – вещь очень тонкая, она не является только лишь следствием лингвистических законов. Несомненно, такие законы играют свою роль в формировании и русского ударения, и русского склонения, и других свойств русского языка, однако даже отдельное слово может подвергнуться каким-либо индивидуальным влияниям в ходе истории русского языка (вплоть до влияния какого-нибудь известного писателя или оратора). Все это приводит к тому, что норма оказывается очень 5 индивидуальной, а следовательно даже очень похожие друг на друга слова могут иметь разные ударения. При попытках понять, что же именно собой представляет механизм ударения и как он устроен в современном русском языке, ученые пришли к одному не самому очевидному заключению: эффективное изучение и описание современного русского ударения правильнее начинать с древности. Может показаться, что древнерусский язык содержит всего лишь старые сведения об ударениях, которые уже не являются актуальными, однако в действительности это не так. Дело в том, что в древнерусском языке XI-XII веков существовала весьма стройная, во всяком случае, гораздо более стройная, чем сейчас, система ударений, характеризующаяся простыми правилами. Однако на протяжении последующего тысячелетия происходили изменения сложившейся системы, которые затронули определенную часть старых правил постановки ударений. Возможно, если бы это изменение совершилось бы полностью, перед нами снова была бы некоторая стройная система, с какими-то новыми правилами, которые бы, однако, тоже отличались бы простотой и не были бы настолько запутанными по сравнению с тем, какие они сейчас. В текущий момент русский язык обладает системой неизмеримо более сложной, нежели система, существовавшая когдато в древнерусском языке, поскольку большинство изменений представляют собой промежуточные состояния, которые, как правило, являются конфликтными и компромиссными, обладают запутанными правилами и противоречат друг другу. Это является главной причиной сложности изучения ударений. Тем не менее, разобраться в этом возможно, если идти последовательно от понимания древнерусской системы ударений через все основные тенденции, которые ведут к тому, чтобы эта система изменялась. 2.2. Становление и историческое развитие системы ударений в русском языке Данный раздел посвящен описанию системы ударений в древнерусском языке, также в нем описываются основные закономерности развития акцентной системы русского языка. Раздел основывается на материалах из расшифровки лекции А. А. Зализняка «Из русского ударения», большинство примеров древнерусских слов, встречающихся в данном разделе, взяты из нее же. XI-XII века были временем, когда еще никаких новых ударений не появилось, а все найденные тексты с проставленными ударениями выявляли одни и те же тенденции к постановке ударений. Так, например, все глагольные формы с суффиксом -и- несли ударение именно на этом суффиксе (терпи́шь, лови́шь, научи́шь). Лишь потом начал 6 происходить длительный процесс, во время которого в глаголах старое ударение начало переходить с суффикса на корень слова. В древних славянских языках каждая морфема языка имела свою акцентную характеристику. Разделялось два класса подобных характеристик, каждый со своей маркировкой: класс сильных (с точки зрения ударения) морфем, обозначающийся маркировкой «+», и класс слабых морфем, обозначающийся маркировкой «–». Класс сильных морфем, в свою очередь, делился на два подкласса: с маркировкой самоударности (↓) и с маркировкой правоударности (→). Самоударность обозначала падение ударения на морфему, обладающую данной характеристикой, тогда как правоударность указывала на то, что ударение падает на морфему, находящуюся справа. Изложенная парадигма является фундаментальным тезисом концепции, созданной в середине XX века такими выдающимися лингвистами, как В.М. ИлличСвитычем, В.А. Дыбо и К. Стангом. Теория, изложенная ими на основании этой концепции, состоит, прежде всего, в том, что каждая морфема в древних славянских языках могла быть охарактеризована одним из трех способов: способом самоударности, способом правоударности и минусовым состоянием. Теория работает, подчиняясь единому правилу, полностью покрывающему все словоформы древнерусского языка, что чрезвычайно важно, поскольку в современном языке нет такого правила, которое могло бы покрыть весь массив слов. Единое правило формулируется так: «Ударение привязано к первой, т. е. к самой левой сильной морфеме. Если она самоударная, то ударение падало прямо на нее, если правоударная, то ударение в нормальном случае падало на следующий слог. Если же в словоформе ни одной сильной морфемы нет, то ударение падало на первый слог». Для большей наглядности стоит привести пример [http://elementy.ru/lib/432371]: морфема дом в древнерусском языке была минусовой, то есть слабой; морфема стол была сильной правоударной; морфема мак – сильно самоударной. Рассмотрим поведение этих морфем в контексте других морфем и словоформ. Согласно правилу, при присоединении к минусовому корню дом минусовой морфемы -у получим словоформу до́м-у, при присоединении минусового предлога на (все предлоги в древнерусском имели минусовую маркировку) получим словосочетание на́ дом, при присоединении сильной самоударной морфемы -овъ получим дом-о́въ, наконец, при присоединении минусовой морфемы -ов- и сильной самоударной морфемы -ыхъ получим дом-ов-ы́хъ. Теперь рассмотрим сильную правоударную морфему стол: при ее сочетании с минусовой морфемой -у получится словоформа стол-у́, при сочетании с предлогом на – 7 на сто́л (поскольку морфема стол и так является самой правой, на нее и падает ударение), при сочетании с самоударной морфемой -овъ – стол-о́въ, а с минусовой морфемой -ов- и самоударной морфемой -ыхъ – стол-о́в-ыхъ. Наконец, посмотрим на поведение последней из оставшихся морфем. Самоударная морфема мак в сочетании с минусовой морфемой -у дает словоформу ма́к-у, в сочетании с предлогом на – на ма́к, с самоударной морфемой -овъ – ма́к-овъ, наконец, с минусовой морфемой -ов- и самоударной морфемой -ыхъ – ма́к-ов-ыхъ. Для удобства, все эти данные представлены в таблице: Таблица 1. Поведение ударения в древнерусском языке -у на -овъ -ов- и -ыхъ дом до́м-у – – на́ дом – – дом-о́въ – ↓ дом-ов-ы́хъ – – ↓ стол стол-у́ → – на сто́л – → стол-о́въ → ↓ стол-о́в-ыхъ → – ↓ мак ма́к-у ↓ – на ма́к – ↓ ма́к-овъ ↓ ↓ ма́к-ов-ыхъ ↓ – ↓ Те из слов, которые перешли из древнерусского языка в современный русский, сейчас значительно отличаются от того, как они произносились ранее (так, в словах с корнем -прав- ранее ударение всегда находилось на корне: пра́ва, пра́вила, пра́вота, пра́витель, пра́вительство). Именно это и является иллюстрацией того, что новые правила вторглись в старую систему, подвернув ее изменениям и рассыпав тот стройный ряд, который она имела первоначально. В каждом случае при вторжении в язык нового правила возникает конфликтная ситуация, если ударение, свойственное старой системе, не соответствует ударению, которое диктует это правило. Исторически можно пронаблюдать, что старое всегда постепенно уступает новому и спустя некоторый промежуток времени новое правило окончательно входит в язык. Самое принципиальное направление в структуре новых правил состоит в том, что происходит некоторая унификация ударений в группах слов или словоформ, которые оказываются в чем-либо сходными друг с другом (по грамматической форме, по суффиксу или даже по конечным звукам основы). При этом, как логично предположить, слова, находящиеся в меньшинстве, имеют тенденцию перенимать признаки большинства. Рассмотрим несколько изменений, произошедших с языком и в значительной степени отклонивших его от старой системы. Первое изменение касается устранения ударения на предлогах. Как мы уже видели, в древнерусском языке у минусовых морфем (рука, вода) при сочетании с предлогом ударение переносилось на предлог. 8 Однако это закономерно приводило к тому, что минусовые словоформы (руку, воду) обладали одним ударением, когда встречались в отрыве от предлога, и другим, когда употреблялись с ним. Тут ярко проявилась языковая тенденция к унификации, которая постепенно приводит к тому, что ударение в таких словах начинает ставиться на основе. В ряде случаев все еще допустимы оба варианта (за́ руку и за ру́ку, на́ воду и на во́ду), однако в ряде случаев старое ударение уже совершенно недопустимо (например, в словосочетании пе́ред домом). На текущий момент в русском языке осталось всего лишь порядка 150 существительных, которые допускают перенос ударения на предлог. Таким образом, старая система ударений была в значительной степени сломана исчезновением переноса ударения на предлог, ведь раньше это было абсолютной нормой для минусовых морфем. Следующим изменением стало поведение приставок у глаголов с минусовым корнем. Следует уточнить, что приставки в глаголах и предлоги при именах существительных изначально являлись одними и теми же единицами, словами праязыка, которые могли соединяться и с существительными, и с глаголами. Соответственно, акцентное поведение приставок в точности совпадало с поведением предлогов, которое мы уже рассматривали выше. Для древнерусского языка являлось естественным, что ударение слов с минусовым корнем смещалось на предлог или, соответственно, на приставку. Однако с течением времени в ряде случаев у глаголов ударение переместилось с приставки на суффикс. Так, например, в словах проговори́л, недоговори́л, помяну́л и собра́л и многих других ударение сместилось. В других случаях ударение только движется к смещению, например, словоформа при́дал еще неокончательно вышла из употребления, а орфоэпические словари отмечают ее как допустимую, но устаревшую форму. Однако существуют и такие слова, которые только начали поддаваться воздействию этой тенденции (при́был, у́был). Еще одна тенденция касается суффиксов: некоторые из них приобретают особую акцентную силу, заключающуюся в том, что они всегда несут на себе ударение. Согласно правилу, описанному выше, никакой суффикс не мог всегда нести на себе ударение, поскольку при самоударных корнях ударение всегда падало только на корень. Однако современный русский язык насчитывает уже десятки таких суффиксов. Таким, например, является суффикс вторичных несовершенных видов на -ать/-ять (управля́ть, поставля́ть), который всегда является ударным. Следовательно, это пример полной победы нового правила. Существуют и такие суффиксы, которую дают неполную победу: таковым, например, является суффикс -ивый. В современном 9 русском языке существует два слова, которые до сих пор сохраняют свою исконную форму, это прилагательные ми́лостивый и юро́дивый. Теперь стоит выяснить, что же происходит со словами, имеющими на конце даже не суффиксы, а ничего не значащие сочетания звуков (особенно это касается слов, которые были заимствованы в русский язык). Ударение сохраняется в тех случаях, когда это не мешает внутренним закономерностям русского языка. В случае же, если ударение противоречит закономерностям русского языка, то оно изменяет свое место в слове. Очень многие двусложные слова мужского рода, заимствованные в русский язык, имеют ударение на втором слоге, несмотря на то, что в языке, откуда они были заимствованы, они ударение падало на другой слог (база́р, фаса́д, шеде́вр). Кроме того, существует группа заимствованных слов на -рс, -рт и -кс, перед которыми стоит -и-, -уили -е-, а также группа слов на -ус, -ис и -ер, для которых нормой является иметь ударение на первом слоге (ксе́рокс, ко́декс, тра́нспорт, ко́нкурс, гло́бус, по́люс, те́зис, ба́зис). Таким образом, в данном разделе нами была рассмотрена система русских ударений с точки зрения истории. В первую очередь, было установлено, что русский язык когда-то был системой с простыми правилами, которые можно было описать одним тезисом и при этом покрыть всю систему ударений языка, а не лишь определенную его часть. Были установлены определенные закономерности развития акцентной системы, что позволило, во-первых, выяснить, что в русской акцентной системе наблюдаются тенденции к унификации словоформ с похожими грамматическим строем или с похожим звучанием, а во-вторых, через призму этих закономерностей увидеть то, что из себя представляет современный русский язык. Кроме прочего, было установлено, что существует ряд морфем, притягивающих ударение, о которых речь пойдет в следующей главе и которые лягут в основу практической реализации алгоритма автоматической расстановки ударений. 3. Анализ закономерностей русского языка с точки зрения применимости в сфере автоматической расстановке ударений 3.1. Морфемы, указывающие на поведение ударения Поскольку акцентология изучает природу, особенности и функции ударения, она чрезвычайно близка к теме данной работы. Так, морфонологический раздел акцентологии ставит перед собой задачу установления связи наличия или отсутствия ударения с различными видами морфем и их сочетаний. С точки зрения морфонологии выделяется три типа морфем: 10 1. аутоакцентные (или самоударные), которые всегда требуют ударения (например, рус. вы-, -ёнок-, например, в словах вы́гнать, котёнок); 2. преакцентные (или правоударные), которые находятся в предударном положении (например, рус. по-, пред-, например, в словах попроси́ть, предупреди́ть); 3. постакцентные (или левоударные), которые следуют после ударения (например, рус. -ство, -тва, например, в словах семе́йство, би́тва). Кроме того, именно акцентология занимается определением правил смещения ударения при словоизменении и словообразовании: так, при словоизменении слова зу́б ударение в ряде форм может сместиться на флексию (зубо́в, зуба́м), а при словообразовании формы вы́писать ударение может сместиться на корень (выпи́сывать). Именно достижения акцентологии и легли в основу этого исследования. Особенно здесь хочется выделить первую главу книги А. А. Зализняка «От праславянской акцентуации к русской», также вошедшую в состав книги «Труды по акцентологии. Том I». В этой главе автор описывает акцентную систему современного русского языка, причем отдельное внимание уделяет аффиксам, применяя к ним технику акцентных маркировок, которые указывают на акцентуацию в рамках произвольной словоформы. Было выяснено, что для современного этапа развития русского языка преимущество в использовании такой техники намного меньше, чем для более ранних этапов, однако ее применение все еще оправданно при описании словообразования. Иными словами, используемая система акцентных маркировок используется для всех типов морфем кроме окончаний. Типов символов, использующихся в маркировках всего три: I. Акцентная характеристика, указывающую на позицию ударения 1. ↓ («самоударность») – ударение падает на саму гласную; 2. ← («левоудареность») – ударение падает на гласную слева; 3. → («правоударность») – ударение падает на гласную справа, а если ее нет, то основа безударна (ударение падает на флексию). II. Акцентная характеристика, указывающая на наличие доминантности (т.е. на преимущество некоторых морфем в борьбе за ударность). Доминантность маркируется символом D. III. Символы, используемые в дополнительной части маркировки суффиксов: 1. Init – ударение ставится на первом слоге слова; 2. Monosyll – ударение изменяется при односложности основы; 3. Polysyll – ударение изменяется при неодносложности основы; 11 4. Marg – суффикс становится правоударным при маргинальной подвижности в производящем слове; 5. Triv – маргинально-подвижное ударение производящего слова трактуется как тривиальное; 6. Deox – флексионное ударение производящего слова трактуется как тривиальное. Соответственно, если последовательно записать маркировки всех морфем, входящих в основу слова, можно получить цепь маркировок этой основы, при применении к которой базисного правила, можно определить, где именно в данном слове стоит ударение. Правило, согласно А. А. Зализняку, формулируется следующим образом: 1. Ударение привязано к самой правой морфеме, имеющей доминантность, но если таковой является морфема, имеющая маркировку →D и стоящая не последней в цепи, то ударение привязывается к следующей справа морфеме. 2. Если в цепи маркировок отсутствуют маркировки с D, то ударение привязывается к самой левой морфеме, имеющей маркировку ↓ или ←. 3. Если таких маркировок тоже не находится, то ударение привязывается к самой правой морфеме, имеющей маркировку →. Как уже писалось выше, с использованием данного правила становится возможным определить места ударения в слове. Так, для слова бандити́зм, чертёжик, горо́шинка и слепы́ш акцентными характеристиками будут, соответственно, банд(↓)ит(↓D)-изм(↓D), черт(→)-ёж(→D)-ик(←), горош(↓)-ин(↓)-к(←)-(а) и слеп(→)-ыш(→) [примеры из (Зализняк 1985: 38)]. В рамках данной дипломной работы рассматриваться будет преимущественно маркировка суффиксов, поскольку именно суффиксы обладают наиболее сложной и запутанной классификацией. Здесь следует упомянуть, что большинство составных суффиксов дают тот же акцентологический эффект, что и совокупность простых суффиксов, имеющих то же звучание. Таким образом, составные суффиксы в акцентологическом плане приравниваются к соответственным последовательностям простых и отсутствуют в списках маркировок. Кроме того, рассматриваться будут не все суффиксы, упомянутые в работе А. А. Зализняка, а только те, которые соответствуют следующим характеристикам: 1. У суффикса нет отклонений от его акцентного класса (к примеру, у суффикса ень, принадлежащему к классу ←D Init, наблюдается небольшое отклонение в сторону маркировки →, ср. ба́ловень и сле́пень), если только эти отклонения не представлены лишь парой примеров; 12 2. Суффикс не колеблется между двумя классами (к примеру, у суффиксов -ар- и -яр-, относящихся к классу ↓D, в большой части слов также действует маркировка →D, ср. гонара́р и маля́р); 3. Суффикс не содержит омонимию с формами других суффиксов в косвенных падежах (ср. голуби́ка и зо́нтика); 4. Суффикс выступает в классе лишь в одном из значений (например, суффикс ик-а принадлежит к классу ↓D только для названия ягод); 5. Суффикс не связан с силой базового компонента (так, в слове господи́н базовый компонент слабый, соответственно ударение падает на суффикс, а в слове тата́рин – сильный, соответственно ударение падает на основу; подробнее про силу базовых компонентов см. (Зализняк 1985: 50)). Первые четыре ограничения связаны с тем, что программа не сможет с достаточной степенью уверенности определить ударение в словах с подобными суффиксами. Пятое ограничение связано с тем, что для правильного определения силы базового компонента необходимо знать его акцентный тип, который не может быть определен посредством программы. На практике соблюдение последнего ограничения означает, что мы почти не рассматриваем суффиксы с маркировкой ↓ или → (поскольку в первом случае ударение может располагаться и на корне, и на суффиксе, а во втором случае – либо на корне, либо на следующей за суффиксом гласной). В типе ←, наоборот, рассматриваются практически все суффиксы, поскольку ударение всегда падает левее этого суффикса (а следовательно, такие суффиксы всегда являются безударными). Поведение ударения в префиксах может быть описано одним абзацем: приставки вы- и па- имеют маркировку ↓, у приставок пра- и су- отмечается склонность к поведению, характерному для маркировки ↓. Все остальные префиксы (на-, по-, пере-, пред-, в-, с- и др.) имеют маркировку → и, исходя из правил (п. 3), не влияют на поведение ударения в слове. 3.1.1. Поведение ударения в существительных Правила расстановки ударения в именах существительных намного сложнее, чем в иных частях речи. С помощью анализа акцентного типа ударение здесь можно определить лишь с точностью до морфологического компонента (наосновное или наконечное ударение). С другой стороны, с помощью анализа акцентных характеристик морфем в ряде случаев можно определить, куда именно внутри основы падает ударение. Рассмотрим сначала акцентные типы ударений в существительных. 13 Всего существует десять типов акцентных типов существительных: первые два из них являются основными, тогда как остальные – побочными. Для каждого типа существует своя схема ударения: 1. Акцентный тип a: ударение неподвижно на одном и том же слоге основы во всех ее формах; 2. Акцентный тип b: ударение неподвижно на флексии во всех формах слова; 3. Акцентный тип b΄: так же, как и в схеме b, но тв. п., ед. ч. ударение наосновное; 4. Акцентный тип c: в формах единственного числа ударение наосновное, а в формах множественного числа – наконечное; 5. Акцентный тип d: в формах единственного числа ударение наконечное, а в формах множественного числа – наосновное; 6. Акцентный тип d΄: так же, как и в схеме d, но вин. п., ед. ч. ударение наосновное; 7. Акцентный тип e: в формах единственного числа и в им. п., мн. ч. ударение наосновное, в косвенных падежах множественного числа – наконечное; 8. Акцентный тип f: во всех формах, кроме им. п., мн. ч. ударение наконечное; 9. Акцентный тип f΄: так же, как и в схеме f, но вин. п., ед. ч. ударение наосновное; 10. Акцентный тип f΄΄: так же, как и в схеме f, но тв. п., ед. ч. ударение наосновное. Кроме этих стандартных типов выделяется так же особые схемы с колебаниями, которые здесь, однако, приведены не будут, поскольку их классификация достаточно обширна. Кроме того, в текущей версии алгоритма не используется распознавание акцентного типа ввиду того, что в материалах исследования лишь в редких случаях встречаются все формы слова, которые необходимы для определения схемы ударения. Взамен используется классификация, описанная в книге А. А. Зализняка, согласно которой: 1. В словах с суффиксом класса ↓D ударение во всех формах стоит только на этом суффиксе (формы слова забия́ка); 2. В словах с суффиксом класса →D ударение в начальной форме находится на суффиксе (или на следующей за ним гласной, если таковая есть), во всех остальных формах ударение находится на следующей после него гласной (формы слова паде́ж, болтовня́); 3. В словах с суффиксом класса ←D ударение во всех формах располагается на предшествующей суффиксу гласной (формы слова анали́тик); 4. В словах с суффиксом класса ↓ ударение во всех формах стоит на том же месте, что и в начальной форме (на корне или на суффиксе, в зависимости от силы базового компонента; формы слова голодо́вка и забега́ловка); 14 В словах с суффиксом класса → ударение в начальной форме находится либо 5. на гласной, следующей после суффикса (формы слова ворожба́), либо всегда на корне (в случае если базовый компонент сильный; формы слова уса́дьба); В словах с суффиксом класса ← ударение во всех формах располагается на 6. корне, но его место может изменяться в зависимости от силы базового компонента (в случае слабого компонента ударение будет на предшествующей гласной, в случае сильного может располагаться в любом месте корня; формы слова уби́йство и о́бщество). В нормальном случае ударение отдельной формы постоянно, однако встречаются отклонения от данного правила: в ряде случаев при сочетании существительных с определенными служебными словами ударение перемещается на это служебное слово (на́ голову, по́ морю); некоторые словоформы обладают колеблющимся ударением и могут встречаться в обеих формах даже в речи одного носителя (прода́л и про́дал, пропи́л и про́пил, сле́сарей и слесаре́й). Кроме того, в сложных словах помимо основного ударение возможно еще и ударение второстепенное, ослабленное, по сравнению с основным (не́фтеперерабо́тка, ко́нтрразве́дчик, а́втомо́токлу́б). Теперь рассмотрим акцентные характеристики суффиксов существительных. Здесь будут разобраны только суффиксы, которые могут однозначно указать на расположение ударения. Так, например, программа не сможет определить ударения в существительных, мотивированных глаголами, прилагательными или другими существительными, чье ударение напрямую влияет на ударение в мотивируемой основе. Начнем с доминантных самоударных суффиксов (↓D). Класс имен, входящих в него для нас чрезвычайно важен, поскольку позволяет сразу указать на ударное место в словоформе. К ним относится большая группа первичных суффиксов, образующих существительные общего и среднего рода со структурой «гласная + к, г, х, ш, л′ или н′»: -аг-а (молодча́га), -ыг-а (бары́га), -яг-а (бедня́га), -ак-а (зева́ка), -як-а (забия́ка), -ык-а (горемы́ка), -юк-а (злю́ка), -ул-я (сыну́ля), -юл-я (чистю́ля), -ан-я (мама́ня), -он-я (тихо́ня), -ун-я (маму́ня), -ах-а (замара́ха), -ёх-а (неумёха), -ух-а (рябу́ха), -уш-а (дорогу́ша), -ашк-а (замара́шка). Кроме того, в эту группу входят срощенные поглощающие суффиксы -иро́вка (стажиро́вка), -иро́вщик (сортиро́вщик), -ирова́л(копирова́льщик). Также сюда относятся суффиксы: -ан (велика́н), -ён (в составе -ён-ок, -ён-ыш, -ён-к-а; львёнок), -ат-/-ят- (в составе -ят-а, -ят-ин-а, -ят-ник; вкусня́тина). Часть суффиксов этого класса здесь не приводятся в связи с ограничениями, изложенными в разделе 3.1. 15 Помимо исходных, в класс доминантных самоударных морфем включается ряд заимствованных суффиксов. К примеру, первичные суффиксы -а́циj-а (авиа́ция), -и́циj-а (эруди́ция), -изм (цини́зм), -ист (арти́ст), а также -ад (лимона́д), -ад-а (серена́да), -оз (гипно́з), -а́рий (глосса́рий), -о́рий (санато́рий), -е́нциj-а (тенде́нция), -ол (купо́л), -ио́н (стадио́н), -оне́р (миллионе́р), -ир (зефи́р), -а́тор (ора́тор), -и́тор (реквизи́тор), -им-а (пантоми́ма), -есс-а (поэте́сса), -ат-а (сона́та), -ите́т (комите́т), -ант (дикта́нт), ент (абсе́нт). Следующий класс – это доминантные правоударные суффиксы (→D). В него входят такие исходные суффиксы, как -еж (рубе́ж), -ёж (грабёж), -j-о (хамьё), -няк (сорня́к), -чак (стульча́к), -отн-я (беготня́), -ун (молчу́н), -ач (цирка́ч), -аш (торга́ш). Класс доминантных левоударных суффиксов (←D) самый немногочисленный. Все суффиксы, к нему принадлежащие, были отсеяны, поскольку они либо употреблялись в нескольких формах (наблюдались отклонения), либо их аналоги присутствовали в других акцентных классах, делая тем самым невозможным по внешнему виду слова определить, к какому из типов относится суффикс и, соответственно, где стоит ударение. Следующим рассмотрим класс недоминантных самоударных суффиксов (↓). К ним относятся суффиксы: -атай (согляда́тай), -овье/-евье (низо́вье, коче́вье), -от-а (зево́та, но есть ряд слов, имеющих другое ударение). К классу недоминантных правоударных суффиксов (→) по установленным критериям подходят только суффиксы -ец-о (письмецо́) и -иц-е (ма́слице). К классу недоминантных левоударных суффиксам (←) относится: -ов-о (ло́гово), -ив-о (ме́сиво), -тв-а (би́тва), -ств-о (после шипящих -ество; семе́йство, пи́ршество), -иj-е (в составе -тие, -ние, кроме -ение; звание), -к-а (сковоро́дка), -чик (огуре́чик), -очк-а (ко́сточка), -ечк-о (вре́мечко), -ушк-о (ча́душко), -ышк-о (до́нышко), -л-о (нача́ло), -ость (жи́вость), -бищ-е (кла́дбище). 3.1.2. Поведение ударения в глаголах Глаголы обладают несколько более простой системой ударений по сравнению с существительными, однако и у них правила расстановки ударений нетривиальны. Как уже было сказано в разделе 2.2, в начальных формах глаголов с суффиксом -и- ранее повсеместно встречалось ударение на суффиксе (клеи́ть), однако сейчас они имеют тенденцию к смещению ударения на первый слог (кле́ить). Тем не менее, в ряде случаев такого смещения еще не произошло (роди́ть). Наиболее напряженной точкой глагольного ударения являются формы прошедшего времени: обычно ударение падает на тот же слог, что и в инфинитиве (ср., стона́ть и стона́ла), однако в ряде глаголов 16 (около 300) ударение в формах женского рода переходит на окончание, тогда как в остальных формах остается на основе (ср., жи́л и жила́). Кроме того, довольно часто в возвратных глаголах ударение в прошедшем времени переходит на постфикс (ср., нача́ться и начался́). Всего по соотношению конечного и наосновного ударений в глаголах выделяется 4 акцентных типа: 1. Акцентный тип a: ударение неподвижно на одном и том же слоге основы; 2. Акцентный тип b: ударение на последнем слоге основы в прошлом времени и на флексии во всех формах настоящего времени; 3. Акцентный тип c: ударение на последнем слоге основы в прошлом времени, на флексии в 1 л., ед. ч. в настоящем времени и на основе во всех остальных формах; 4. Акцентный тип d: ударение на флексии во всех формах. По классификации А. А. Зализняка глагольные суффиксы встречаются лишь в трех акцентных классах: доминантном самоударном, самоударном и левоударном. Как уже было подробно описано в предыдущем разделе, в доминантных самоударных суффиксах ударение всегда падает на этот суффикс, в самоударных может падать как на суффикс, так и на корень, а в левоударных суффикс никогда не находится по ударениям. Единственным суффиксом, принадлежащим к доминантному самоударному классу (↓D), является суффикс -а-ть (приседа́ть), который, однако, встречается и в самоударном классе в случаях отыменных глаголов (холода́ть). Таким образом, этот суффикс не рассматривается согласно принятым нами ограничениям. Суффиксы, входящие в недоминативный самоударный класс (↓) также подпадают под ограничение: во всех встреченных случаях они могут выступать как с сильным базовым компонентом, так и со слабым, следовательно, ударение в таких словах может стоять в любой части основы. Суффиксами, вошедшими в недоминантный левоударный класс (←), являются: (е)ствова-ть (зве́рствовать), -ыва-ть (завя́зывать), -ича-ть (акти́вничать) и -нича-ть (жа́дничать). 3.1.3. Поведение ударения в прилагательных Выбор места ударения вызывает затруднения в кратких формах прилагательных. В большинстве прилагательных место ударения в разных формах сохраняется достаточно последовательно (ср., воспи́танный и воспи́тан), однако в некоторых 17 формах наблюдается перемещения ударения с основы на окончание в формах женского рода (де́рзкий, де́рзок, но дерзка́), а также в формах женского рода и в форме множественного числа (бли́зкий, бли́зок, но близка́, близки́). Краткие прилагательные множественного числа еще не так давно имели ударение на основу (про́сты, ве́рны), однако сейчас наблюдается тенденция к переносу ударения на окончание (просты́, верны́), хоть и не на всех словах (де́рзки). Как правило, к переносу ударения на окончание склонны односложные прилагательные без суффиксов. В полных прилагательных на -ист- продуктивным считается перенос ударения на суффикс (бархати́стый), однако таким изменениям подвергаются лишь прилагательные с мотивирующей основой, где ударение стоит на первом слоге. В случае прилагательных, в мотивирующей основе которых ударение стоит на втором слоге, ударение остается на том же слоге (покла́дистый). В отдельных случаях наблюдаются колебания ударения (ср., му́скулистый и мускули́стый). Всего в прилагательных выделяется пять акцентных типов: 1. Акцентный тип a/a: ударение неподвижно на одном и том же слоге основы; 2. Акцентный тип a/b: ударение на основе во всех полных формах, на флексии – во всех кратких; 3. Акцентный тип a/c: ударение на флексии в краткой форме женского рода, на основе – во всех остальных формах; 4. Акцентный тип b/b: ударение неподвижно на флексии во всех формах; 5. Акцентный тип b/c: ударение на флексии во всех полных формах и в краткой форме женского рода, на основе – в остальных кратких формах. Большинство прилагательных относится к типу a/a, то есть их ударение неподвижно во всех формах. К остальным четырем акцентным типам относится сравнительно небольшое число прилагательных, причем все они заданы списками. По классификации А. А. Зализняка к типу недоминантных самоударных суффиксов (↓D) относятся исконные: -ав- (моложа́вый), -ляв- (пискля́вый), -ю́сеньк(малю́сенький), -ёшеньк- (бледнёшенький), -ёхоньк- (здоровёхонький), -ат- (косма́тый), -ова́т- (жидкова́тый), -ит- (знамени́тый), -ови́т- (мозгови́тый), -аст- (голена́стый), уч- (приставу́чий), -и-ль-н- (равноси́льный) и -и́-тель-н- (вопроси́тельный). Суффиксы ив- (правди́вый) и слова на -люби́вый (миролюби́вый) также имеют маркировку ↓D. Из числа заимствованных суффиксов сюда относятся: -и́ч-еск- (фонети́ческий), -ич-н(хаоти́чный), -ан-ск- (хулига́нский), -иа́н-ск- (вегетериа́нский), -ив-н- (эффекти́вный), оз-н- (религио́зный), -аль-н- (региона́льный), -а́бель-н- (коммуника́бельный), -он-н(революцио́нный), -ар-н- (элита́рный) и некоторые более редкие. Маркировку ↓D также 18 имеют первый морфы в сочетаниях -ий-ск- (австрали́йский), -ей-ск- (полице́йский), -ийн- (комеди́йный) и -ей-н- (стате́йный). Суффиксы, представляющие доминантные правоударные и левоударные классы (→D и ←D), у прилагательных отсутствуют. К недоминантному самоударному классу (↓) относятся суффиксы: -енек/-онек (стро́гонек, тяже́ленек, но тяжелёхонек, радёханек), -ок- (глубо́кий) и -овн- (духо́вный). К недоминантному правоударному классу (→) относятся сочетание -о́вск-ой (шу́товской). Суффиксы последних двух классов были включены, поскольку не соединяются с сильными основами, а следовательно поведение ударения в таких словах однотипно. Недоминантный левоударный класс (←) включает в себя следующие суффиксы: ск-/-еск- (же́нский, оте́ческий), -еньк-/-оньк- (моло́денький, ти́хонький), -л- (хри́плый), шн- (вчера́шний), -чат- (бреве́нчатый). Также в этот класс входят показатели компаратива -е, -ше (моло́же, ста́рше). 3.1.4. Поведение ударения в других частей речи Ударение числительных представлено тремя акцентными типами: 1. Акцентный тип a: ударение неподвижно на одном и том же слоге основы; 2. Акцентный тип b: ударение неподвижно на флексии; 3. Акцентный тип b1: ударение на основе в именительном падеже, на флексии – в косвенных падежах. Поскольку числительных сравнительно немного, для каждого акцентного типа составлены отдельные списки. Так, числительные одиннадцать и четырнадцать принадлежат к типу а, числительные двенадцать, тринадцать и далее, вплоть до девятнадцать (исключая четырнадцать) – к типу b, а двадцать и тридцать принадлежат к типу b1. Однако не все числительные могут быть включены в эту схему: существует особая группа числительных с нерегулярными акцентными характеристиками (ср., пятьдеся́т и пяти́десяти, полтора́ и полу́тора, две́сти и двумя́стами, пятьсо́т и пятиста́м). Ударение в наречиях чаще всего не поддается анализу и его необходимо просто запоминать (в таких словах, как вчера́, за́втра). Большинство наречий, образованных от других частей речи, сохраняют ударение производящих словоформ (легко́, ва́жно, пору́сски, снача́ла). Помимо этого, многие наречия могут иметь различное ударение в зависимости от значения ударения (постричься на́голо, но шашки наголо́). Однако в ряде случаев была выявлена взаимосвязь наличия и отсутствия между морфемами и ударением (анализ поведения ударения в морфемах проводился на основе «Русской 19 грамматики»). Так, всегда ударными суффиксами являются: -ком/-ико́м (пешко́м, босико́м), -мя (лежмя́), -овато (позднова́то), -ёхонько/-ёшенько (ранёхонько и ранёшенько). Кроме того всегда ударны наречные образования с -ым (давны́м-давно), а также некоторые суффиксы в определенных морфемных комплексах: -еньку/-оньку (в словах с приставкой по-; потихоньку́), -и (в словах с приставкой в-; вблизи́), -е (в словах с приставкой на-; наравне́), -ую (в словах с приставкой на-; напряму́ю), -ом (в словах с приставкой в-; в-четверо́м) и -ах/-ях (в словах с приставкой в-; второпя́х). Суффикс в морфемных комплексах может быть также безударным: -у (в словах с приставкой по-; понапра́сну, по́пусту). Префиксы во- (вовну́трь), по- (в словах с суффиксом -и или -ому; по-ру́сски, по-мужски́, по-гуси́ному, по-ино́му), -к (в словах с суффиксом -у; кни́зу), -из/ис (в словах с суффиксом -а/-я; иззе́лена, исси́ня) всегда выступают безударными, тогда как префикс -сыз (в словах с суффиксом -а; сы́знова) в таких конструкциях ударен всегда. Местоимения могут быть охарактеризованы ударным префиксом -не (не́кто, не́где) и безударным префиксом ни- (никто́, нигде́). Кроме того, в префиксе кое-/кой- и постфиксах -либо и -нибудь возможно побочное ударение на префиксе (ко́е-где, какойли́бо, чей-нибу́дь). В частицах и междометиях возможны лишь безударные суффиксы -очко/-очки (спаси́бочки), -ушки/-нюшки/-унюшки (не́тушки, ба́юшки, баю́нюшки, охохо́шеньки), оньки (спаси́боньки), -охоньки/-ошеньки (ничего́шеньки). 3.1.5. Пример реализации алгоритма автоматической расстановки ударений, использующий морфемные характеристики слова На данный момент большинство исследований в области автоматической расстановки ударений было совершено в области систем синтеза речи («VitalVoice», «Acapela», «Vocalizer» и др.). Данные системы преобразовывают текстовую информацию в аудиальную, эмулируя человеческий голос, и неудивительно, что задача расстановки ударений в них ставится наравне с задачами правильного произнесения слов и построения интонационной структуры предложения. Тем не менее, большинство синтезаторов речи решает проблему расстановки ударений методом извлечения нужных ударений из словарей или специализированных баз данных, где для каждого слова заранее указаны все его формы, а также акцентная парадигма для этих форм. В пример можно привести систему «VitalVoice», которая расширила и адаптировала под свои нужды словарь Aot.ru, из которого она и получала информацию об ударениях в слове. Использование словарей в общем случае понятно и объяснимо: намного проще 20 основываться на разработках уже сделанных, нежели писать заново свой собственный словарь или разрабатывать алгоритм расстановки ударений. Тем не менее, решение подходит только в случае слов, занесенных в словарь. Закономерно возникает вопрос: что же делать с формами, в словарях или специальных базах отсутствующими? Значительная часть синтезаторов речи пошла по простому пути: они используют формулу, ставящую ударение по правилу (n+1)/2, где n – это количество слогов слова. Таким образом, в словах с нечетным количеством слогов ударение всегда падает ровно на середину слова, а в случае слов с четным количеством слогов – практически на середину, но ближе к началу слова. Единственной системой, отошедшей от данного правила, оказалась вышеупомянутая система синтеза речи «VitalVoice», созданная ООО «Центр речевых технологий» в сотрудничестве с кафедрой фонетики СПбГУ. В системе был использован собственный, усовершенствованный алгоритм расстановки ударений. Алгоритм анализирует непосредственно структуру слова и его окружения и на основе этого принимает решение, на какой из слогов падает ударение. В основу системы лег алгоритм другого синтезатора речи «Оратор», разработанный в 2003 году Петром Головиным. Итак, для решения проблемы расстановки ударений в словах (особенно в сложных словах), незанесенных в словари, был разработан улучшенный алгоритм, включающий в себя такие шаги: 1. Анализ начального сегмента слова для выделения стандартных префиксов, на которые ударение никогда не падает; 2. Анализ конечного сегмента слова для нахождения суффиксов, притягивающих на себя ударения (-ованн-, -ёнок- и пр.), а также суффиксов, всегда выступающих в роли безударных (-щик-, -ыва- и пр.); 3. Анализ вторых частей сложных слов, которые всегда находятся в безударной позиции (-способный, -видный), а также стандартных окончаний неизменяемых слов, также всегда являющихся безударными (например, -швили, -адзе в грузинских фамилиях); 4. Для случаев, когда ударение не было найдено, ударение ставится на последнем слоге основы, поскольку было обнаружено, что в большинстве (именных) начальных форм ударение падает на последний слог основы, то есть перед словоизменительным окончанием. К примеру, большинство слов, оканчивающихся на -а в 70% случаев имеют ударение на предпоследний слог, а слова, оканчивающиеся на ряд согласных звуков имеют ударение на последний слог. 21 Помимо морфемного анализа слова в системе синтеза речи «VitalVoice» предусмотрено решение проблемы выбора ударения в омонимичных словоформах, которое реализуется с помощью рассмотрения грамматических параметров слова в левом и правом контексте относительно текущего. Так, при возможных случаях омонимии между разными частями речи в левом и правом контексте слова ищутся единицы, которые согласуются с этим словом. К примеру, в словосочетании простой ответ [пример из (Хомицкевич, Рыбин, Таланов, Опарин 2008)] существительное ответ согласуется с прилагательным, а значит, простой в данном случае является прилагательным (в отличие от его употребления в словосочетании простой вагонов). Для решения проблемы омонимии внутри одной и той же части речи (замок, ключ) используется система анализа дальнего контекста, которая определяет нужное значение слова в зависимости от других слов, находящихся в том же предложении и семантически с ним связанных. К примеру, для определения значения слова стоит данный алгоритм ищет в предложении значения денежных единиц (рубль, копейка). При нахождении таких единиц наиболее вероятным признается вариант сто́ит. Данная работа во многом схожа с алгоритмом синтезатора «VitalVoice». В ней, также как и в вышеупомянутой системе, введен морфологический анализ структуры слова с последующей целью распознавания морфем, притягивающих ударение (т.н. аутоакцентных морфем), морфем, на которые ударение никогда не падает, а также преи постакцентных морфем (которые указывают на то, где именно относительно данной морфемы находится ударение). Кроме того, вслед за системой «VitalVoice» было введено распознавание начальных и конечных сегментов слова сложных слов. К сожалению, на сегодняшний день все известные алгоритмы автоматической расстановки ударений в словах распространены лишь в сфере синтеза речи. Словари по-прежнему заполняются вручную, что подразумевает огромный труд авторов в области поиска неологизмов, постепенно входящих язык, а также в составлении самих этих словарей. Очевидно, что программа, написанная в ходе данной дипломной работы, может стать подспорьем и для орфоэпических словарей: тот факт, что она использует большие объемы реальных употреблений тех или иных словоформ в тексте, дает возможность наблюдать поведение ударения на текущий момент времени. Напомним, что поведение ударения в текстах возможно определить на основе ошибочно написанных гласных в слове, в соответствии со сводом фонетических правил, которые могли привести к подобным ошибкам написания. 22 3.2. Фонетические правила и их связь с орфографическими ошибками Акцентно-ритмическая структура слова – это сложное образование, представляющее из себя совокупность таких характеристик, как число слогов и место ударения. Каждое слово имеет свою ритмическую схему, согласно которой один из слогов фонетически выделен по отношению к другим. Такое выделение обусловлено ударностью данного слова. Стоит добавить, что термин «слово» в традиционном понимании и в фонетическом разнятся. Фонетическое слово – это «самостоятельное слово с примыкающими к нему безударными служебными словами» [Аванесов 1958]. Таким образом, большинство предлогов, частиц и союзов не могут являться ударными и могут быть рассмотрены лишь при употреблении их с самостоятельными словами. Тем не менее, как уже упоминалось выше (см. разделы 2.2 и 3.1.1), в ряде случаев ударение может падать и на ряд предлогов (в таких сочетаниях, как за́ руку, по́д гору). Для русского языка существуют особые фонетические правила, связанные с ударными и безударными слогами. Для начала следует отметить, что ударение в русском языке качественно-количественное (то есть, основными характеристиками ударной гласной является ее длительность и тембр). Фактически это означает, что ударный слог отличается от всех прочих большей длительностью и отсутствием редукции (ослабления звучания гласных звуков). Реализация гласных звуков во всех остальных слогах зависит от их позиции относительно ударного слога. Так, чем дальше от ударного слога находится гласная, тем большей редукции она подвергается. В первом предударном слоге гласные практически не претерпевают качественных изменений, соответственно, их произнесение наиболее приближено к звучанию их ударных реализаций. Исключением из данного правила является звук [а] после мягких согласных (вяза́ть), где этот звук реализуется как [и], а также звук [е] после твердых согласных приближается по звучанию к звуку [ы] после мягких согласных (берёза). Гласные, находящиеся в неприкрытых слогах, а также в абсолютном начале или абсолютном конце слова, претерпевают качественную редукцию первой степени. Так, звук [о] теряет свою лабиализованность и начинает звучать так же, как звук [а] (вода́, спаси́бо), а остальные звуки приближаются по своему звучанию к ударным. Наконец, звуки [у] и [ы] (после твердых согласных) вне зависимости от положения в слове никогда не подвергаются качественной редукции (рука́, дымо́к). Ошибки в написании слова нередко возникают вследствие незнания или пренебрежения людьми правилами русского языка. В данной работе исследуются орфографические ошибки, или, говоря более конкретно, графические ошибки фонологического вида в варьирующихся фонемах в сигнификативно-слабых позициях. 23 Такие ошибки «совершаются в слабой позиции фонемы, позиции нейтрализации» [Парубченко 2003]. В процессе написания происходит перевод звучащей речи в письменную, причем «процесс записи звучащей речи складывается из двух этапов: перевод звучащей речи в фонемную транскрипцию и затем переход от фонемной транскрипции к буквенной записи» [Кузьмина 1981: 12]. Однако у людей, совершающих графические ошибки фонологического вида, ни один из этапов не выполняется: они напрямую отождествляют звуки с конкретными реализациями этих звуков на письме. Именно эти механизмы объясняют связь фонетических правил, связанных с качественным изменением гласных, с графическими ошибками фонологического типа. Таким образом, становится возможным определить ударный слог в слове, исходя из совокупности найденных ошибок написания данного слова. Для каждого из гласных звуков были рассмотрены его реализации на письме в разных позициях, на основе этого исследования был составлен подробный список возможных ошибок. Ниже представлен список возможных ошибок в гласной, полученный в процессе исследования, приводятся только возможные ошибочные реализации букв (так, для гласного и в словах типа миндаль будет указана лишь реализация с помощью буквы е; мендаль*): 1. Звук [а]. Звук [а] при употреблениях в слабых позициях подвергается качественной редукции, причем точно такой же редукции подвергается и звук [о]. Следовательно, была выдвинута гипотеза о том, что звук [а] на письме может быть реализован буквой о. Гипотеза подтвердилась: в начальных открытых слогах и после твердых согласных звук действительно встречался с использованием буквы о (ср., арбалет и орбалет*, народ и нород*). Однако после твердых согласных ж, ш и ц (выделяемых в отдельный класс) встречаются варианты написания с помощью букв е, и, ы (ср., жалеть, желеть*, жилеть* и жылеть*). После мягких согласных звук [а] был встречен в реализациях с буквами е и и (ср., Рязань, Резань* и Ризань*; часы, чесы* и чисы*). В конце слова встречается только реализация в виде буквы а (вьюга). 2. Звук [о]. Как уже говорилось в предыдущем пункте, звук [о] в слабой позиции реализуется так же, как и звук [а]. Употребления слов с данным звуком, реализованным в качестве буквы а, встретились в начальном и конечном открытых слогах, а также после твердых согласных (ср. облака и аблака*, пожар и пажар*, долго и долга*). После твердых согласных ж, ш и ц звук [о] выражается также, как и звук [а], но добавляется еще 24 реализация с помощью буквы а (ср., шоссе, шессе*, шиссе*, шассе* и шыссе*). В случаях употребления после мягких согласных звук может быть выражен только буквой ё (всегда ударной). После мягких согласных ч и щ звук [о] должен реализовывается исключительно буквой о. 3. Звук [и]. В начальном и конечном открытых слогах выражается только буквой и (игра, ставни). После твердых согласных ж, ш и ц может быть реализован буквами ы и е (ср., цилиндр, цылиндр*, целиндр*). После мягких согласных звук [и] может быть выражен буквой е (ср., зима и зема*). 4. Звук [ы]. Звук не может находиться в открытом начальном слоге, а в конечном открытом слоге всегда выражается буквой ы (латы). После твердых согласных звук может быть выражен буквой э (ср., дыбы, дэбы*). После твердых согласных ж, ш или ц может реализовываться буквами е и и (ср., цыган, цеган*, циган*). После мягких согласных звук не употребляется. 5. Звук [э] после мягких согласных. В начальном открытом слоге, а также после мягких гласных возможно чередование правильного варианта с буквой и (ср., енот и инот*, зима и зема*), в конечном открытом слоге выражается только буквой е (в зале). После твердых ж, ш и ц может реализовываться буквами и и ы (ср., жены, жины* и жыны*). 6. Звук [э] после твердых согласных. Может употребляться в начальном открытом слоге и после твердых согласных ж, ш и ц, в обоих случаях звук реализуется буквами ы, е и и (ср., этаж, ытаж*, етаж* и итаж*; межэтнический, межытнический*, межетнический* и межитнический*). Ниже представлена таблица, иллюстрирующая изложенные характеристики. Для удобства чтения и для разграничения некоторых случаев употребления в первом столбце указаны не звуки, а буквы. Буква ё не рассматривалась, поскольку невозможно найти примеры, где она выступает в слабой позиции. Таблица 2. Примеры слов и их ошибочных написаний в зависимости от позиции а я Начало слова После тв. согл. После ж, ш и ц После мягк. согл. После ч и щ Конец слова арбале́т вали́дность жале́ть - часы́́ ска́зка орбале́т воли́́дность желе́ть, жиле́ть, жыле́ть - чесы́, чисы́ - япо́нец - - гряда́ - ба́́сня епо́нец, ипо́нец - - греда́, грида́ - - 25 окно́ пора́ жонгли́ровать - шоссе́ до́́лго акно́ пара́ жангли́ровать - шессе́, шиссе́́, шассе́, шыссе́́ до́лга - дыбы́ - - цыга́н ку́́ры - дэбы́ - - цега́́н, циган - икра́ - цили́ндр зима́ чистю́ля де́́ти - - цыли́ндр, цели́ндр зема́ честю́ля - экра́н - межэтни́ческий - - ало́э ыкра́н, екра́н, икра́н - межытни́ческий, межетни́ческий, межитни́ческий - - - евре́й - жены́ весна́ чека́ в за́ле ивре́й - жыны́, жины́ висна́ чика́ - у умо́ра тупи́к жура́вль - чужо́й му́жу ю юла́ - жюри́ ключи́ - ме́ряю о ы и э е Кроме уже представленных характеристик, необходимо упомянуть про случаи написания гласной э на концах слов. У большей части таких слов существует аналог с буквой е в конечном открытом слоге (алое и алоэ). Тем не менее, такие вариации написания не рассматривались, поскольку допустимыми являются оба варианта. 4. Архитектура программного обеспечения В качестве основного материала для обработки используются корпуса блогов. Такое решение в выборе материалов для исследования мотивировано отсутствием литературной правки в подобных текстах, из чего следует, что можно проследить взаимосвязь между фонетическими правилами русского языка и орфографическими ошибками в гласных и на основе этого расставить ударения. Используются следующие корпуса блогов: 1. Корпус блогов ресурса «LiveInternet»; 2. Корпус блогов ресурса «Blogspot»; 3. Корпус блогов ресурса «Livejournal». Помимо основных материалов исследования используется вспомогательные материалы, использующиеся для разбора сложных случаев, не давших однозначного результата в ходе определения места ударения с помощью орфографических ошибок. Все вспомогательные материалы связаны с морфемами, указывающими на ударение. Во-первых, используются словари морфем, характерных для той или иной части речи. Морфемы в них задаются с помощью регулярных выражений, причем для каждой морфемы также прописан ее тип (согласно классификации А. А. Зализняка). Во-вторых, 26 используются словари с частями сложных слов, которые позволяют однозначно определить поведение ударения в слове. Данные подвергаются обработке поэтапно. Так, на этапе обработки текста производится предварительная очистка текста, а также составляется массив всех встретившихся в тексте словоформ, частотный словарь и словарь с грамматическими характеристиками, полученными в результате обработки данных морфологическим анализатором MyStem. Кроме того, отсеиваются словоформы, в которых ударение возможно определить однозначно уже на этом этапе. На следующем этапе происходит формирование ключей: для каждой словоформы составляются ключи, на основе которых словоформы объединяются в отдельные группы с общим ключом. Именно на этом стадии применяется список возможных реализаций на письме для той или иной буквы (см. раздел 3.2). Использование этого списка позволяет внутри каждой группы словоформ определить, являются ли они реализациями одного и того же слова или же относятся к разным словам. Обработка составленных словарей ключей продолжается на этапе обработки слов с несколькими возможными ударениями. Этот этап ориентирован преимущественно на работу с морфемами, указывающими на поведение ударения: в нем используются и применяются описанные выше вспомогательные материалы (словари, определяющие поведение ударения в морфемах и частях сложных слов). При этом учитывается и информация, полученная на предшествующих этапах. При сопоставлении морфем, входящих в состав словоформы, со словарем морфем с довольно высокой точностью определяется единственно верное расположение ударения в слове. Далее для полученного словаря производится выбор правильного варианта написания каждой словоформы, который определяет правильно написанную словоформу, используя показатели частотности. В конце работы программы происходит формирование финальных результатов: вся информация суммируется и разбивается на типы, после чего на основе нее формируются файлы с таблицами результатов работы программы. 4.1. Предобработка текста Поскольку текст поступает в программу в необработанном виде, содержащем в себе лишнюю для нашей задачи информацию, перед началом обработки необходимо убрать из него все лишнее. Первой задачей этого этапа является очистка текста. Из текста изымаются технические пометы, время и дата публикации, союзы и предлоги, на которые никогда не падает ударение, знаки препинания, и прочие данные, не представляющие ценности в рамках исследования. Все прописные буквы слов 27 переводятся в нижний регистр, так как в большинстве случаев употребления прописная буква обозначает лишь начало нового предложения. К тому же нередки случаи написания слова с прописной буквы (или же написания всего слова в верхнем регистре), ставящие себе целью выделить его интонационно. В рамках очистки текста также были отсеяны слова, содержащие в себе символы, не принадлежащие к русскому алфавиту, а также содержащие числа (например, Т-34). Для каждого корпуса блогов очистка текста проводилась по своим правилам, поскольку в каждом из них текст содержал разные технические пометы, встречались разные форматы времени публикации поста и т.д. После очистки текста формируется массив встретившихся словоформ. Причем при формировании массива сразу происходит анализ количества гласных в слове. Отбираются следующие случаи: 1. односложное слово (в котором содержится всего одна гласная); 2. в слове встречается ё; 3. в одном из мест слова наблюдается растягивание одной из гласных (применяется для эмоциональной окраски; например в словах урааа, дооолго). Такие случаи сразу отправляются в финальный словарь. Для всех остальных слов происходит анализ полученного массива на предмет частоты той или иной словоформы, по результатам которого формируется частотный словарь, где каждому вхождению соответствует количество его включений в массив словоформ. После формирования частотного словаря массив словоформ записывается в отдельный текстовый файл, который затем отправляется в морфологический анализатор MyStem. Анализатор определяет части речи и грамматические характеристики для каждой из словоформ, которые записываются в словарь грамматических характеристик. Кроме того, для анализа морфемной структуры слова применяется библиотека pymorphy, осуществляющая разбиение слова на его морфемные компоненты. Таким образом, в конце данного этапа в распоряжении программы имеется массив всех встреченных в текстах словоформ, частотный словарь, словарь грамматических характеристик и словарь морфемной структуры слов. Кроме того, некоторые из слов, в которых можно уже на данном этапе однозначно определить ударение, включаются в финальный словарь (для каждого из вхождений указывается методика, позволившая определить ударение в этом слове). 4.2. Формирование ключей На данном этапе для каждой из словоформ создается ключ, представляющий из себя аналог этого же слова, в котором все гласные заменены на специальный символ. Так, для 28 слова собака таким ключом будет с*б*к*. Далее на основе созданных ключ-масок слова объединяются в группы: создается словарь, где значениями являются наборы найденных словоформ, соответствующих ключ-маске, а ключом – ключ-маска, в которой специальные символы заменяются наборами гласных, встретившихся на данной позиции. Так, запись словаря для слова собака будет выглядеть так: с(ао)б(а)к(ао) : [cабака, собака, собако]. Напомним, что в значениях будут только те словоформы, которые уже встречались в тексте. Таким образом, для примера выше в текстах должны встретиться все три реализации написания данной словоформы. При этом очевидно, что внутри ключей могут встретиться не только формы одного и того же слова, написанные с ошибками, но и другие слова. К примеру, ключу кл*ч может соответствовать как слово клич, так и словоформа ключ. Чтобы уменьшить количество подобных совпадений, к словарю применяются правила взаимозаменяемости букв (см. раздел 3.2). Так, значения словаря вида кл(ию)ч: [клич, ключ] после применения правил превратятся в записи словаря вида кл(и)ч: [клич] и кл(ю)ч: [ключ]. Таким образом, применение таких правил способствует разделению словоформ с разным значением. Однако в ряде случаев даже применение правил не сможет полностью разделить словоформы с разными значениями. Так, к примеру, ключу сл*в* может соответствовать словоформы слово, слова и слива. В таком случае программа сможет отделить словоформу слива от двух остальных. В то же время, слова слово и слова, являющиеся разными словоформами, а не ошибочной и правильной реализациями одной словоформы, программа разделить не сможет, поскольку преобразование буквы о в а на конце слова прописано правилами взаимозаменяемости букв. Тем не менее, программа сможет дифференцировать словоформы слово и слава, поскольку в таком случае все буквы в слове различаются (а ведь с точки зрения фонетики ударная гласная никогда не подвергается качественному изменению). Рассмотрим алгоритм работы программы в случае вхождений словоформ слово, слава, слова, слива и слева. Данный алгоритм является сложным случаем и иллюстрирует возможности программы для снятия омонимии. 1. Для каждой из словоформ составляется ключ сл*в*; 2. Словоформы объединяются по ключу: сл*в*: [слово, слава, слова, слива, слева]; 3. Ключ изменяется согласно всем входящим в словоформы гласным: сл(оаие)в(а): [слово, слава, слова, слива, слева]; 4. Применяются правила взаимозаменяемости букв и ряд слов отделяется: { сл(ие)ва: [слива, слева], сл(ао)в(ао): [слава, слова, слово] }; 29 5. Поскольку ключ сл(ао)в(ао) не содержит гласной, остающейся неизменной во всех употреблениях, программа производит проверку на то, являются ли все слова полными «противоположностями» друг друга в плане гласных; 6. Из-за словоформы слова, которая может быть как вариантом написания слова слово, так и вариантом написания слава, программа не может однозначно разделить набор словоформ. В таком случае она отправляет эту группу слов в итоговый словарь с пометой о том, что здесь возможна омонимия (подробнее о пометах см. раздел 4.5). К сожалению, как можно увидеть из алгоритма, программа может распознавать омонимию лишь в ограниченном числе случаев. Так, для набора словоформ типа [слово, слава] омонимия может быть снята, а набор словоформ типа [слово, слава, слова] сразу отправляется в итоговый словарь с пометкой об омонимии. Наконец, наборы типа [слово, слова] или [слева, слива] считаются ошибочным и правильным написанием одной и той же словоформы (поскольку преобразования возможны в рамках правил взаимозаменяемости букв). 4.3. Обработка слов с несколькими возможными ударениями Таким образом, на предыдущем этапе работы программы был получен словарь, состоящий из объединенных ключами групп схожих словоформ. На следующем этапе работы программа анализирует данный словарь, распределяя слова по категориям в зависимости от количества слогов, в которых встретилась лишь одна гласная (ср. ключи с(ао)б(а)к(ао), с(ао)б(а)к(а), сл(ао)в(ао)). Таким образом, можно выделить три различные категории: 1. Слова, в которых только одна гласная встречается в единственном варианте; 2. Слова, в которых ни одна гласная не встречается в единственном варианте; 3. Остальные слова (несколько гласных имеют различные варианты). В предыдущем разделе мы уже подробно рассмотрели алгоритм поведения программы в случаях, когда все гласные встречаются в нескольких вариантах. Слова, в которых только одна гласная встретилась в единственном варианте написания, сразу отправляются в итоговый словарь (с указанием о методике позволившей определить ударение; в данном случае это будет помета об орфографических ошибках). Это происходит вследствие того, что наличие только одной такой гласной однозначно указывает на то, что именно на эту гласную падает ударение в слове. Объясняется это тем, что ударный слог никогда качественно не изменяется, а следовательно никогда не имеет разных вариаций написания. 30 Процесс анализа и обработки слов, имеющих несколько гласных, встречающихся в единичном варианте, нуждается в более детальном рассмотрении. К данной категории принадлежит подавляющее большинство слов. К этим словам последовательно применяются два способа определения точного места ударения. В случае однозначного определения ударной гласной (т.е., когда остается лишь одна гласная, встретившаяся в единичном варианте написания) все последующие способы для слова пропускаются, а слово отправляется в итоговый словарь с пометами о примененных методиках. Первым способом является рассмотрение акцентных характеристик морфем, встреченных в слове. Из словаря грамматических характеристик, полученного на этапе обработки информации с помощью морфологического анализатора MyStem, берется информация о грамматических характеристиках и части речи, к которой принадлежит слово. В соответствии с частью речи из вспомогательных материалов берутся списки морфем, а также информация об их акцентных характеристиках. В соответствии с данными характеристиками определяется место ударения в слове. К примеру, в случае, если найденная морфема принадлежит к доминантному правоударному классу, то ударение всегда падает либо на слог, находящийся справа от морфемы, либо на саму морфему, если она находится в конце слова (см. раздел 3.1). Рассмотрим алгоритм работы программы на основе словоформы циркача для случая, когда в качестве реализации данной словоформы встретилось только данное слово. 1. Извлекается информация о морфемном составе словоформы с помощью библиотеки pymorphy (цирк-ач-а), а также устанавливается часть речи и его грамматические характеристики; 2. С помощью составленных списков определяется, что морфема -ач- принадлежит к доминантному правоударному классу (→D); 3. Проверяется, есть ли гласные звуки правее данной морфемы. Поскольку правее стоит флексия -а, программа ставит ударение на нее; 4. Набор словоформ с проставленными ударениями (в данном примере включающий только одно слово) передается в итоговый словарь. Вместе с самим набором передается помета, указывающая на влияние акцентной характеристики морфем на выбор при постановке ударения. Вторым способом является проверка на наличие включений в слово частей сложных слов, позволяющих однозначно определить место ударения. Данный способ осуществляется путем обращения к заранее составленному списку подобных частей. 31 4.4. Выбор правильного варианта написания После формирования итогового словаря нерешенной остается задача определения правильно написанной словоформы. В ходе данного этапа эта задача решается с помощью анализа частотности вариантов написания словоформы. Альтернативным вариантом решения такой задачи является определение правильной словоформы с помощью словарей, но подобный подход неприменим в программе в силу изначальной установки на отсутствие обращений к словарям и необходимости анализировать в том числе и неологизмы, которые по понятым причинам могут в словарях отсутствовать. По этой причине задача решается методом определения варианта написания словоформы с наибольшей частотностью, который признается правильным в случае сильного отрыва от остальных вариантов. Данным этапом заканчивается заполнение итогового словаря. 4.5. Формирование финальных результатов На этой стадии программа суммирует всю полученную за время работы программы информацию по словоформам, включая правильный вариант написания словоформы, встретившиеся варианты написания словоформы с количеством их вхождений и пометы. Далее словоформы разбиваются на два типа соответственно тому, удалось ли однозначно определить местоположение ударения. 4.6. Результаты работы программы По результатам своей работы программа формирует два файла формата CSV с таблицами словоформ. Каждый файл соответствует одному из двух возможных типов словоформ по критерию однозначности определения ударения. Структура обоих файлов идентична: в каждом из них для каждой словоформы записывается отдельная таблица. В первом столбце таблицы находится правильная словоформа либо прочерк, если ее не удалось установить. Второй столбец отображает варианты написания словоформы. В третьем столбце для каждого варианта прописывается его частотность. Наконец, четвертый столбец содержит в себе список помет для данной словоформы. Пометы могут быть следующими: 1. yo – местоположение ударения определено по наличию буквы ё в словоформе; 2. singlesyll – однослоговая словоформа; 3. multiemo – местоположение ударения определено по повторению гласной для выражения эмоционального окраса речи; 4. orphograph – для определения местоположения ударения использовался метод анализа орфографических ошибок; 32 5. morphemes – для определения местоположения ударения использовался словарь акцентных характеристик морфем; 6. wordparts – для определения местоположения ударения использовался словарь частей сложных слов; 7. omonym – возможная омонимия. Информация в столбцах таблицы располагается следующим образом. В первом столбце заполняется только первая строка: туда вписывается правильная словоформа либо прочерк, если ее определить не удалось. Во втором и третьем столбце число строк соответствует числу встретившихся вариантов написания словоформы. Каждому варианту из второго столбца соответствует его частотность в третьем. В четвертый же столбец записываются все пометы, по одной на строку. Таблица 3. Пример финальной таблицы для словоформы собака собака собака собако сабака 457 12 35 orphograph 5. Анализ результатов работы программы Как показали результаты статистического анализа выходных данных программы, местоположение ударений было правильно выяснено приблизительно для 65% словоформ. В остальных 35% случаев четкое определение ударной гласной осуществлено не было. Далее приводятся причины возникновения подобных проблем для всех стадий проверки. Во многих случаях наличие в корпусе слов с графическими ошибками дофонологического типа мешало определению правильной словоформы. В частности, такая ошибка, как написание волчёк* вместо волчок приводила к занесению неправильной словоформы в финальный словарь ударений из-за ошибочного определения ударения по наличию буквы ё. Точно так же неправильные результаты были получены для словоформы чувство, ошибочная форма написания которой (чювство*) была отмечена как отдельная правильная словоформа. Отсутствие обработки прямых опечаток, таких как слрво* вместо слово, также приводило к появлению в финальном словаре ошибочных словоформ по причине того, что ударение в них считалось однозначно определенным на этапе обработки слов с одним слогом. Такие же проблемы возникали при использовании определения ударения на основе повторения гласной для придачи эмоционального окраса (например, вееер ошибочно включалось в финальный словарь в виде словоформы вер). Программа также не смогла справиться и с естественными утроенными гласными (например, длинношеее 33 и змееед). Впрочем, подобными случаями в силу их исключительной редкости мы решили пренебречь. Также большое количество ошибок было связано с неспособностью алгоритма обработать случаи омонимии. Так при наличии для ключа-маски сл*в* трех вариантов написания слова, слово и слава, оказалось невозможным определение правильной словоформы. Те же проблемы вызывали омографы, такие как ви́ски и виски́. В некоторых случаях слов с малой частотностью правильная форма на основе частотности выбиралась неправильно (в основном это случаи, когда общеупотребимое произношение слова отличается от нормы произношения, например, общеупотребимое тво́рог и нормативное творо́г) или не могла быть выбрана (единичные включения) Были замечены и проблемы с работой библиотеки pymorphy в роли морфемного анализатора. В случае неправильного морфемного разбора слова применение к нему словаря морфем, однозначно указывающих на расположение ударения, не давало ожидаемого результата. Наконец, возникали проблемы с устойчивыми выражениями, связанными дефисом, такими как туда-сюда или шиворот-навыворот, которые определялись программой как единые слова с одним ударением. Было принято решения отсеивать такие случаи. Тем не менее, недостатки программы в должной мере были компенсированы ее достоинствами. Способность программы к самостоятельному определению ударения более чем в половине случаев позволяет предположить, что в результате дальнейшего развития алгоритма она может позволить избавиться от работы с объемными словарями ударений. Более того, в отличие от словарей программа в состоянии работать с неологизмами, и при достаточном количестве включений весьма эффективно определять ударения в них. В отсутствие достаточного количества включений слова в корпус, когда орфографический способ определения местоположения ударения не срабатывает, ситуацию могут спасти остальные способы: с применением словаря морфем и с использованием словаря частей сложных слов. Помимо всего прочего, данная работа претендует на звание первой реализации использования орфографических ошибок для определения местоположения ударной гласной. Таким образом, одним из достоинств программы является открытие нового направления развития алгоритмов аутоакцентуации. 34 6. Заключение Автоматическая расстановка ударений в русском языке является особо актуальной задачей, поскольку до сих практически не существует программного обеспечения, способного с высокой точностью и без обращения к сторонним ресурсам определить расположение ударения в слове. В начале исследования было поставлено целью создание программного обеспечения, способного автоматически расставлять ударения в русскоязычных текстах, не подвергнувшихся литературным правкам. Для случаев, когда однозначно определить место ударения не представляется возможным, программа должна была указывать слоги, где ударение находиться не может. Каждая из задач, поставленных в рамках этой цели, была выполнена. Так, первая задача включала в себя сбор информации о поведении ударения в русском языке, а также о достижениях в области акцентологии (разделе лингвистики о природе, особенностях и функциях ударения). В рамках данной задачи были рассмотрены такие особенности русского ударения, как разноместность и подвижность. Разноместность – это способность ударения падать на любой по счету слог в слове, тогда как подвижность – это способность не закрепляться за каким-то конкретным слогом слова. Так, при словоизменении ударный слог слова может изменяться. Также был произведен обзор поведения ударения в русском языке. Была рассмотрена история и достижения акцентологии, в том числе, понятие литературной нормы и шкалы нормативности (созданной известным акцентологом Н. А. Еськовой), дающей оценку разных форм и ударений с точки зрения их соответствия литературной норме. Кроме того, была рассмотрена система ударений в древних славянских языках, которая описывалась одним простым правилом, покрывающим всю систему. Впоследствии система языка начала развиваться, начали наблюдаться определенные закономерности (исчезновение ударения на предлогах; перенос ударения с глагольных приставок на суффиксы; появляющаяся способность некоторых суффиксов притягивать ударения во всех случаях употреблений). В ходе исследования было установлено, что русское ударение характеризуется тенденцией к унификации слов с похожим звучанием (одинаковыми по грамматической форме, имеющими один суффикс или даже одинаковые конечные звуки основы). Вторая задача исследования состояла в нахождении и изучении факторов, которые способны указать на расположения ударения в слове. При реализации данной задачи было выявлено два фактора: акцентная характеристика морфем (по 35 А. А. Зализняку) и орфографические ошибки в текстах, не подвергнувшихся литературной правке. Согласно классификации А. А. Зализняка, в современном русском языке выделяется три типа акцентных характеристик морфем: самоударные, правоударные и левоударные. Кроме того, такие морфемы могут быть доминантными и недоминантными. Из книги «От праславянской акцентуации к русской» за авторством А. А. Зализняка были отобраны лишь те морфемы, которые могут быть реализованы в рамках данной курсовой работы. Для того чтобы программа по внешнему виду морфемы однозначно определяла ударение в слове, было сформулировано пять ограничений: 1. У суффикса нет отклонений от его акцентного класса, если только эти отклонения не представлены лишь парой примеров; 2. Суффикс не колеблется между двумя классами; 3. Суффикс не содержит омонимию с формами других суффиксов в косвенных падежах; 4. Суффикс выступает в классе лишь в одном из значений; 5. Суффикс не связан с силой базового компонента. Были подробно рассмотрены списки морфем, характерных для той или иной части речи, относящиеся к разным акцентным классам. В качестве второго фактора, указывающего на местоположение ударения в слове, были взяты орфографические ошибки (точнее, графические ошибки фонологического вида в варьирующихся фонемах в сигнификативно-слабых позициях). Механизм возникновения таких ошибок очень прост: люди, допускающие орфографические ошибки, напрямую отождествляют звуки с конкретными их реализациями на письме. Именно этим объясняется связь фонетических правил и графических ошибок фонологического вида. Таким образом, было установлено, что качественная редукция, характеризующая практически все случаи употребления безударных гласных, может реализовываться на письме и, соответственно, указывать на безударные гласные слова. Для каждой из гласных были рассмотрены все возможные реализации ее на письме в разных позициях. Третья задача исследования состояла в построении архитектуры и написании программного обеспечения. Написанная программа включает в себя пять этапов, в каждом из которых материалы подвергаются обработке и анализу. В качестве материала программа использует тексты из блогов, поскольку они содержат орфографические ошибки, благодаря которым становится возможным определение 36 безударных слогов слова. Программа также определяет морфемный состав слова и ищет в его составе морфемы, указывающие на поведения ударения. Наконец, четвертая задача исследования представляла собой анализ результаты работы программы. В рамках этой задачи была приведена статистика правильных и неправильных результатов, а также рассмотрены случаи, в которых у программы возникали затруднения с определением правильного места ударения, а также случаи, в которых она справлялась с этой задачей. Таким образом, можно с уверенностью сказать, что данная работа справилась с поставленной целью и с каждой из отдельных задач. Существует множество возможных перспектив развития программы. Так, например, наравне с классификацией акцентных характеристик А. А. Зализняка при анализе места ударения можно использовать информацию из статей «Русской грамматики», описывающую поведение ударения в словах с каждой конкретной морфемой. Такой подход может значительно улучшить качество данных, поскольку в «Русской грамматике» практически для всех морфем представлен акцентный тип, которому они соответствуют, а также дается информация о продуктивности. Еще одной потенциальной областью развития программы является поиск сильных и слабых базовых компонентов на основе слов с суффиксами недоминантного типа, для которых ударение было определено однозначно. Так, при слабом базовом компоненте ударение в словах с недоминантным самоударным суффиксом будет находиться на суффиксе, а при сильном – на корне. Таким образом, в процессе работы программы можно будет составить список сильных и слабых базовых компонентов и затем последовательно применить его к словам, в которых найдены недоминантные суффиксы, но определение ударение в которых не было определено. Кроме того, в будущих разработках можно учесть и графические ошибки дофонологического типа в гласных. Например, к таким ошибкам будет относиться дополнительное обозначение мягкости посредством гласного (чювство*) или взаимозаменяемость букв ё и о, указывающая на нахождение в слогах с такими гласными ударения (бочёнок*, пошол*). Наконец, можно реализовать распознавание орфографических ошибок в согласных (например, оглушение конечного согласного звука и реализация этого на письме) и опечаток, поскольку ошибки в согласных создают широкий диапазон различных словоформ с редким употреблением. 37 Литература Брызгунова [1963] — Е. А. Брызгунова. Практическая фонетика и интонация русского языка. М., 1963. Вольская, Коваль, Опарин, Погарева, Скрелин, Смирнова, Таланов [2005] — Н. Вольская, А. Коваль, С. Опарин, Е. Погарева, П. Скрелин, Н. Смирнова, А. Таланов. Синтезатор русской речи по тексту нового поколения // Труды международного семинара «Диалог05» по компьютерной лингвистике и ее приложениям (электронный документ). www.diaiog21.ru/Archive/2000/Dialogue%202000-2/25.htm. 2005. Зализняк [1985] — А. А. Зализняк. От праславянской акцентуации к русской. М., 1985. Зализняк [2014] — А. А. Зализняк. Из русского ударения (электронный документ). Элементы: популярный сайт о фундаментальной науке. http://elementy.ru/lib/432371. 2014. Кедрова, Потапов, Егоров, Омельянова [2002] — Г. Е. Кедрова, В. В. Потапов, А. М. Егоров, Е. Б. Омельянова. Русская фонетика (электронный документ). http://fonetica.philol.msu.ru/nn. 2002. Кузьмина [1981] — С. М. Кузьмина. Теория русской орфографии. Орфография в ее отношении к фонетике и фонологии. М.: Наука, 1981 . Парубченко [2003] — Л. Парубченко. Принципы классификации и типы ошибок в обозначении шипящих фонем (электронный документ). Газета «Русский язык». http://rus.1september.ru/article.php?ID=200301504. 2003. Парубченко [2004] — Л. Парубченко. О классификации орфографических ошибок и о методических рекомендациях к ЕГЭ по русскому языку (электронный документ). Газета «Русский язык». http://rus.1september.ru/article.php?ID=200401601. 2004. Федянина [1993] — Н. А. Федянина. Ударение и структура русского глагола // Wiener Slawistischer Almanach. 31. 1993. С. 219-243. Хомицкевич, Рыбин, Таланов, Опарин [2008] — О. Г. Хомицкевич, С. В. Рыбин, А. О. Таланов, И. В. Опарин. Автоматическое определение места ударения в незнакомых словах в системе синтеза речи // Материалы XXXVI Международной филологической конференции. Санкт-Петербург, 2008. Шведова [1980] — Н. Ю. Шведова (гл. ред.) Русская грамматика. Академия наук СССР институт русского языка «Русская грамматика» — М.: Наука, 1980. 38 Приложения Приложение 1. Адрес репозитория с программным кодом https://bitbucket.org/Lipunova_A/autostressdetection/src 39

Правительство Российской Федерации Федеральное

Related documents

Products

Support

Правительство Российской Федерации Федеральное

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib