doc (MS Word), 313Kb, Russian

advertisement
Савчук С.О., Сичинава Д.В., Гарипов И.И.
Институт русского языка им. В.В. Виноградова РАН,
Казанский университет
Подкорпус текстов XVIII века
в составе Национального корпуса русского языка: из опыта работы1
Национальный корпус русского языка представляет собой репрезентативную
коллекцию текстов, отражающую функционирование языка в различных сферах
общественно-речевой практики в различные периоды. Единицы корпуса снабжены
лингвистической информацией: целым текстам приписаны типологические и
стилистические
признаки,
каждая
словоформа
охарактеризована
по
морфологическим и семантическим признакам, что дает возможность производить
поиск по любому из заданных параметров или их комбинациям.
С хронологической точки зрения в Национальном корпусе выделяются две
составляющие: корпус современных текстов, период создания которых — вторая
половина XX — начало XXI века, и диахронический корпус, включающий тексты
XIX и первой половины XX века, формирование которого ведется в настоящее
время. Такой корпус имеет самостоятельный интерес как для историков языка, так и
для исследователей современного русского языка, поскольку, предоставляя в
распоряжение лингвиста примеры употребления изучаемого явления в
предшествующие эпохи, позволяет рассмотреть его в диахронии.
Логическим продолжением работ по созданию диахронического корпуса
является расширение его состава за счет текстов XVIII века. В 2006 году в рамках
сотрудничества Института русского языка им. В. В. Виноградова РАН и Казанского
университета начато формирование подкорпуса текстов XVIII века, который можно
рассматривать как пилотный проект, в задачи которого входило проверить
возможность обработки и описания текстов, принадлежащих прошлым состояниям
языка, с помощью средств, разработанных для аннотации современных текстов, с
целью выявления гибкости системы разметки и ее адаптивности к новому
лингвистическому материалу. Положительный опыт такой проверки у разработчиков
НКРЯ имеется, поскольку единая система метатекстовой и морфологической
разметки используется для аннотации и современных текстов, и текстов XIX —
начала XX в. Относительно текстов XVIII в. обнадеживающие выводы изложены в
[4]
Работа проводилась по методике, опробованной при создании корпуса
современных текстов и диахронических подкорпусов. Она предполагает несколько
этапов:
1. Разработка состава и структуры будущего корпуса
2. Определение источников текстов
3. Техническое редактирование и разметка текстов
4. Морфологическая и семантическая разметка всего массива текстов
программными средствами
5. Ручное снятие неоднозначности в заданной части текстов
6. Размещение текстов на сайте Национального корпуса русского языка
ruscorpora.ru.
Остановимся на каждом из этапов подробнее и отметим возникавшие проблемы
и способы их решения.
1
Работа выполнена при поддержке РФФИ (проект № 05-07-90376)
1
Состав и структура подкорпуса текстов XVIII века: отбор текстов
XVIII век — период, когда литературная русская норма в самых разных
отношениях (орфография, фонетика, морфология, синтаксис) не устоялась. Это
период перехода от литературного языка, базирующегося на церковнославянском, к
языку нового типа, так или иначе отражающему собственно русскую языковую
систему. История русского литературного языка XVIII века пока разработана
несколько меньше (по крайней мере, с чисто лингвистической точки зрения), чем
языка допетровского времени или следующий период — языка XIX в. (следует
назвать монографию [6], охватывающую также и XVII век) Исследование
литературного языка иногда, к сожалению, подменяется исследованием языка
литературы — нескольких крупнейших писателей. А ведь особенные линии
эволюции определяют нормы различных жанров этой эпохи: язык официальноделовых документов, публицистики, проповедей, частной переписки и проч. Корпус,
включающий в себя тексты самых разных жанров, призван облегчить будущим
исследователям задачу разностороннего исследования языка XVIII века.
В существующих работах по истории русского литературного языка принято
выделять два [5] или три периода [2, 3], связанных с XVIII веком:
1) Петровское время (конец XVII — XVIII в.) — период «смешения и
объединения — несколько механического — живой разговорной речи, славянизмов
и европеизмов на основе государственно-делового языка» и формирования новых
стилей «гражданского посредственного наречия» и литературных стилей,
занимающих промежуточное положение между возвышенным славянским слогом и
простой разговорной речью.
2) Ломоносовский период (40-50-е гг. — конец XVIII в.) — период
стилистической регламентации и нормализации нового русского литературного
языка на основе теории трех стилей.
3) Карамзинский период (конец XVIII — XIX в.) — эпоха реорганизации
литературного языка, выразившейся в отмене жанровых ограничений, в создании
«нового слога российского языка» — средней литературной нормы, близкой к
разговорному языку образованного общества [2].
В пилотный корпус текстов XVIII века включены прозаические тексты,
относящиеся в основном ко второму и третьему периоду и представляющие все
сферы функционирования языка в разнообразии жанровых разновидностей.
Художественная сфера представлена произведениями писателей, оказавших
заметное влияние на процесс формирования литературного языка: Н. М. Карамзин,
И. А. Крылов, Н. И. Новиков, А. Н. Радищев, Д. И. Фонвизин, М. Д. Чулков.
Сфера публицистики представлена прежде всего сатирическими статьями
Н. И. Новикова в журналах «Трутень», «Пустомеля», «Кошелек», «Живописец»,
полемикой Н. И. Новикова с Екатериной II, статьями и очерками на общественнополитические темы Д. И. Фонвизина, А. Н. Радищева, философским трактатом
Г. Сковороды, памфлетом М. М. Щербатова, мемуарами А.Т. Болотова.
Учебно-научная сфера отражена в сочинениях А. Н. Радищева из области
экономики, права, истории, политики, в филологических сочинениях
Д. И. Фонвизина, Н. И. Новикова. Представлены научные трактаты, статьи,
рецензии, инструкции, словари.
Официально-деловая сфера представлена жанрами служебной записки,
прошения, завещания, проекта, указа, воинского устава («Артикул воинский» 1715
г.).
2
Бытовая сфера — это личные письма Н. М. Карамзина, А. Н. Радищева,
Д. И. Фонвизина, И. Ф. Богдановича, А. А. Боратынского (отца поэта), Г. Сковороды.
Церковно-богословская сфера представлена в сочинениях Платона (Левшина),
Архиепископа Московского и Калужского, блестящего представителя духовного
красноречия, и Феофана (Прокоповича). Среди жанров — слово, поучение,
катехизис, краткий учебник по закону Божию.
Источники текстов
Для формирования корпуса использовались ресурсы электронных библиотек,
прежде всего Русской виртуальной библиотеки (http://www.rvb.ru), подготовившей
электронные версии академических изданий Д. И. Фонвизина, А. Н. Радищева,
Н. И. Новикова,
Н. А. Львова,
библиотеки
ImWerden
(http://imwerden.de),
Электронной библиотеки исторического факультета МГУ (http://www.hist.msu.ru),
библиотеки Свято-Троицкой Сергиевой Лавры (http://www.stsl.ru/lib) и др. В
дальнейшем предполагается изготавливать электронные версии текстов путем
сканирования типографских изданий.
Техническое редактирование и разметка текстов
Тексты из электронных библиотек поступают в формате html, который не всегда
отвечает стандарту, принятому для разметки текстов корпуса. Поэтому они, как
правило, нуждаются в предварительной корректуре и техническом редактировании и
разметке в соответствии с инструкцией, разработанной А. Е. Поляковым и
применяемой при подготовке всех текстов корпуса. Техническая подготовка текстов
для корпуса XVIII века выполнена И. Гариповым. Электронные версии книг были
вычитаны, в ряде случаев сверены с бумажным оригиналом, разделены на единицы тексты, освобождены от комментариев публикаторов. В текстах размечены
структурные элементы — разделы, главы, зоны заголовков, эпиграфов, примечаний,
стихотворных и иноязычных включений.
При подготовке текстов XVIII века особенно остро встает проблема
орфографии, поскольку строгих правил, регламентирующих написание, в XVIII веке
не существовало. Легендарное «исчо», приписываемое Екатерине Великой —
примета не человека, как казалось уже в следующем веке, а времени; реальные
тексты (не прошедшие редактуру последующих веков) содержат, с той или иной
степенью урегулированности, самые разнообразные написания. Поэтому при
последующих изданиях этих текстов они, как правило, подвергались
редактированию с позиций действующих в момент публикации орфографических
норм и правил. В отдельных случаях, когда текст освоен культурой и продолжает
переиздаваться (и даже входит в школьную программу), этот процесс модернизации
орфографии источника заходит очень далеко, так что, например, современные
школьные издания повестей Н. М. Карамзина, басен И. А. Крылова, пьес
Д. И. Фонвизина практически полностью соответствуют действующим с 1956 года
правилам орфографии.
Противоположный полюс текстологической строгости составляет научный тип
издания, который максимально бережно относится к орфографии оригинала,
«исправляя» только такие написания, которые могут быть восстановлены
автоматически (например, ъ после твердого согласного в конце слова, i перед
гласным и й; и т. д.) либо даже сохраняя отмененную реформой 1918 года графику.
Если же текст воспроизводится по рукописи впервые, то академическое издание
стремится сохранить максимальное количество индивидуальных орфографических
особенностей оригинала. И действительно, для ряда задач (прежде всего — изучение
3
собственно орфографии, а также фонетики) тексты XVIII века, безусловно, должны
быть представлены в орфографии, максимально полно соответствующей
рукописным и печатным подлинникам. Такой принцип уже фактически соблюдается
— более или менее последовательно — для древнерусских и среднерусских
(допетровских) текстов; применительно к русской литературе Нового времени он
отстаивался целым рядом филологов, в частности, в наше время покойным
М. И. Шапиром и его коллегами. Встаёт, однако, вопрос, должна ли такая подача
материала быть основной, первоочередной и/или единственной.
На наш взгляд, существует несколько аргументов в пользу необходимости
первоочередного создания корпуса XVIII в. в орфографии, отличной от орфографии
подлинников и так или иначе приближенной к современной:
1) то, что тексты XVIII в. включаются в корпус, уже содержащий тексты XX—XXI
вв. в новой орфографии и тексты XIX—начала XX в орфографии, переведённой в
новую; при размещении части текстов в общем массиве по старой орфографии
возникнут известные трудности с поиском точных словоформ, а не
грамматических характеристик (чтобы «понять», что ранняго в XVIII в. и раннего
в XXI в. — в некотором смысле «одна и та же словоформа», придётся вводить
новый уровень разметки)
2) морфологический анализ в корпусе с неснятой омонимией и первичный разбор в
корпусе со снятой омонимией происходят автоматически. Вместе с тем
настройка программ автоматического морфологического анализа на текст с
неурегулированной орфографией, где мыслимо не только, например, щастье
наряду со счастье, но и слитное написание предлогов и частиц наряду с
раздельным (см. подробнее ниже) — это хоть и в принципе решаемая, но
самостоятельная и весьма трудная задача.
3) наконец, главное — исходные тексты для корпуса имеет смысл брать из научных
критических изданий, дающих выверенный текст, исправляющих старые
опечатки и проч. В то же время, например, полные собрания Ломоносова и
Радищева — то есть оба существующих полных академических издания
писателей XVIII в. — изданы в орфографии, приближенной к современной (с
устранением, по крайней мере, графики, отменённой в 1918 г.); то же верно и в
отношении многих других текстов, изданных в XX веке.
Ввиду этих аргументов нами было принято решение поместить в корпус тексты в
орфографии, приближенной к современной (то есть с непременным устранением
графики, отменённой в 1918 г.; подчеркнём, что речь идёт именно о графике, вопрос
об упразднённых этой же реформой словоформах вроде ея или ранняго не
предрешается). Однако это лишь часть проблемы.
Тексты авторов XVIII в. в изданиях XX в. — при общем принципе замены
графики на современную (кроме некоторых особых случаев, например,
лингвистических примеров у Ломоносова, где в академическом советском издании
сохраняются ер и ять, или поэтических текстов западнорусских авторов, где при
общей ориентации на московскую норму за ятем может стоять украинское i) —
весьма расходятся относительно того, какую именно орфографическую подачу
выбрать среди континуума, который простирается между «механической заменой
букв» и последовательным поновлением текста по текущей норме. Например,
академическое Полное собрание сочинений Радищева содержит в третьем томе
(1952) следующие орфографические принципы (они же фактически выдержаны и в
первых двух томах, изданных ещё до войны, хотя там в основу кладутся не
автографы, а прижизненные печатные издания):
4
Большая часть текстов печатается по автографам Радищева, с полным
соблюдением всех особенностей начертания и стиля его. Орфография Радищева
неустойчива. Одно и то же слово, одну и ту же форму он дает в различных
написаниях в одном произведении; редакция не сочла возможным производить
унификацию
его
правописания
и
сохраняет
его
орфографическую
непоследовательность, считая самую эту непоследовательность характерным
фактом в плане изучения языка Радищева. Отступления от подлинника допущены в
следующих отношениях:
а) устранены буквы ѣ , і, ө, ъ в конце слов;
б) устранены явные описки, искажающие текст Радищева;
в) в некоторых случаях устранены явные несообразности пунктуации, искажающие
прямой смысл фразы. [1: 563]
Приведём в качестве примера такого подхода фрагмент из радищевского «Письма
другу, жительствующему в Тобольске», напечатанного в первом томе ПСС (1938) по
прижизненной публикации 1790 г.:
В день назначенный для торжества, вовтором уже часу пополудни, толпы народа
стекалися к тому месту где зреть желали лице обновителя своего и просветителя.
Полки Гвардии Преображенский и Семеновский, бывшие некогда сотоварищи
опасностей Петровых и его побед, так же и другие Полки Гвардии тут бывшие,
под предводительством начальников своих окружили места позорища, Артиллерия,
Кирасирской Новотроицкой Полк и Киевской пехотной заняли места наблиз
лежащих улицах. Все было готово, тысящи зрителей назделанных для того
возвышениях и толпа народа разсеяннаго повсем близ лежащим местам и кровлям
ожидали с нетерпением зрети образ того, котораго предки их в живых ненавидели,
а посмерти оплакивали.
Видно, что эдиционная практика сохранила следующие явления:
упразднённые реформой 1918 г. окончание –аго, приставка раз- перед глухим с- (обе
черты представлены в словоформе разсеяннаго);
ненормативное как в орфографии XIX в., так и XX в. озвончение приставки с(назделанных);
написание безударного окончания прилагательного И. ед. –ой после заднеязычных:
Кирасирской, Новотроицкой, Киевской;
слитные написания предлогов (образующих слог) со следующим словом: вовтором,
назделанных, посмерти;
раздельное написание так же (в этом контексте современная норма требует
также).
Разумеется, эти черты могут и комбинироваться (так, на близлежащих вместо
современного на близлежащих; вне контекста орфография радищевского
наборщика2 напоминает наречно-глагольные сочетания вроде накрест лежащие
углы, хотя по синтаксическому окружению перед нами бесспорно предложноименное сочетание).
Кроме того, видно, что некоторые из этих черт не проведены в подлиннике
последовательно, то есть налицо орфографическая вариативность (наряду с
Кирасирской имеем Семеновский, наряду с вовтором — для торжества).
В автографах Радищева (том 3 собр. соч.) образцов орфографии вроде назделанных как будто не
отмечено, так что в данном случае орфография, как можно предполагать, привнесена на стадии
печати.
2
5
Другие издания не столь строго сохраняют орфографические особенности
оригинала; например, сочинения Фонвизина издания 1950-х годов, представленные в
РВБ, унифицируют орфографию подлинников (в частности, не сохраняя –ыя и –аго).
Распространено в изданиях также сохранение различия окончаний И. ед. –ий/-ой, по
крайней мере после заднеязычных, которое для XVIII века несёт особую окраску —
-ий ассоциируется с высоким стилем, -ой с низким, так, в издании «Писем русского
путешественника» Карамзина, подготовленном Ю. М. Лотманом, сохраняется
деревенской проповедник, но великий Лейбниц.
В этой ситуации Национальный корпус принимает следующую простейшую
стратегию, не требующую масштабной унификации: электронная версия должна, в
общем, соответствовать печатной. Поэтому если воспроизводится современное
издание текстов XVIII в, то орфография в нем будет соответствовать (по крайней
мере отчасти) правилам 1956 года, при воспроизведении дореволюционного издания
в нем сохраняются все особенности орфографических норм соответствующего
периода, за исключением тех изменений в графике, которые были внесены реформой
1918 года.
Возникающая при этом множественность орфографических вариантов передачи
одного и того же слова или формы может представлять интерес для специалистов,
изучающих историю и современное состояние орфографических норм, а также
рассматриваться как косвенное свидетельство востребованности текста современной
культурой.
Некоторые отступления от этого принципа приняты только в текстах, где
производится ручное снятие омонимии; об этом см. ниже, в соответствующем
разделе.
Метатекстовая разметка
Метатекстовая разметка предполагает описание текста по целому ряду
параметров, характеризующих автора, адресата (читательскую аудиторию),
стилистические и типологические особенности текста, описывающих издание
текста. Использовались принципы метаразметки и набор категорий, который
применяется для аннотирования текстов XIX и XX вв. (подробное их описание
приводится в [10]).
Поскольку основные понятия стилистики исторически изменчивы и в разные
периоды могут иметь разное актуальное содержание [12], то наибольшее сомнение
вызывала возможность описания типологических признаков текстов (сфера
функционирования,
тип,
жанр
художественной
литературы,
стиль),
функционирующих в иной стилистической системе, значительно отличающейся от
современной. Однако практика показала, что подавляющее большинство текстов
поддаются описанию с помощью разработанной номенклатуры значений признаков.
Незначительно пополнился список типов текстов: включены «басня» как тип
художественных текстов, «словарь», «трактат» — учебно-научных, «прошение» —
официально-деловых
текстов.
Хотя
актуальное
содержание
терминов,
обозначающих типы текста (например повесть, очерк, роман) в XVIII, XIX и XX
веках может быть различным, внутри своих жанровых систем они
противопоставлены другим типам текстов аналогичным образом и потому эти
термины могут быть использованы для характеристики текстов разных периодов.
Интересно, что даже стилистические оппозиции («высокий» — «средний» —
«простой» штили) для текстов XVIII в. удалось описать с помощью терминов
«высокий» — «нейтральный» — «сниженный», используемых для характеристики
современных текстов, не искажая при этом представлений о стилистической системе
литературного языка XVIII в. «Высокий» стиль характеризует церковно6
богословские сочинения Платона (жанры торжественной речи, слова, поучения),
повесть Д.И. Фонвизина на «возвышенную» тему, прошение Радищева на имя царя;
помету «нейтральный» получили остальные тексты. Тексты, написанные сниженным
стилем, в описываемом корпусе не представлены, что естественно для ситуации
второй половины XVIII в., когда «простой слог с его вульгаризмами и
диалектизмами уже не отвечал развитому вкусу европеизированной дворянской
интеллигенции» [2].
Все это свидетельствует, с одной стороны, об универсальности и гибкости
используемой в корпусе системы метатекстовой аннотации, а с другой стороны, об
отсутствии резкой границы между современным состоянием литературного языка и
предшествующими периодами его развития.
Литературный язык XVIII века обслуживал все сферы функционирования,
значимые и для современного литературного языка. В корпусе представлены даже
сфера рекламы (объявления и анонсы в журналах Новикова) и сфера устной
публичной речи, однако доля таких текстов пока незначительна.
Общий объем пилотного корпуса XVIII века составляет более 1,5 млн
словоупотреблений. Количественное распределение текстов по функциональным
сферам показано на рис. 1.
õóäî æåñòâåí í àÿ
ï óáëèöèñòèêà
ó÷åáí î -í àó÷í àÿ
î ô èöèàëüí î -äåëî âàÿ
áû òî âàÿ
öåðêî âí î áî ãî ñëî âñêàÿ
óñòí àÿ ï óáëè÷í àÿ
ðå÷ü
ðåêëàì à
Рис. 1
7
Морфологическая и семантическая разметка всего массива текстов
программными средствами
Как и во всём подкорпусе письменных текстов Национального корпуса, тексты
XVIII века проходят автоматическую разметку: морфологическую — при помощи
программы морфологического анализа Mystem (автор И. В. Сегалович) и лексикосемантическую — при помощи семантического словаря, составленного коллективом
сотрудников Отдела лингвистических исследований ВИНИТИ — О. Н. Ляшевской и
другими. При этом используется принятый в Корпусе морфологический стандарт
(изложенный в [8]) и стандарт семантической разметки (изложенный в [7]);
относительно технических деталей см. также [9].
При этом морфологическая омонимия (межчастеречная — печь существительное
vs. печь инфинитив и внутрилексемная — большой И., В. ед. муж., Р., Д., Т.,
П. ед. жен.) не снимается (в ближайшей перспективе автоматическое снятие
омонимии при помощи статистической программы, обученной на обработанной
вручную части корпуса). Сохраняется также семантическая омонимия (три омонима
коса, имеющие одинаковые словоизменительные характеристики); работа над её
(полу)автоматическим разрешением также ведётся.
Для приближения автоматической разметки текстов XVIII века к большей
адекватности необходимо пополнение словаря лексем, используемого анализатором,
встречающимися в текстах словами XVIII века, отсутствующими в Грамматическом
словаре А. А. Зализняка (особенно теми, для которых морфологический анализатор
не может с лёгкостью предсказать модели словоизменения, опираясь на уже
известные ему словоформы). Здесь следует различать (понятие «вариант» условное и
не предрешает вопроса о статусе отдельных лексем):
специфически лексические единицы, простым образом не сводимые к
современным: власно ‘точно, ровно, будто’, осьмой-надесять ‘восемнадцатый’;
фонетические варианты (затрагивающие один-два звука, но не словоизменение)
нынешних литературных: сафирный ‘сапфирный’, ирой ‘герой’, бесстудный
‘бесстыдный’;
морфологические варианты (затрагивающие словоизменительный класс):
оттенка ‘оттенок’; ср. их оттенок (Р. мн.) у Карамзина, церковнославянский
вариант лице ‘лицо’; у ряда слов, тождественных по внешней форме, иной род:
первого степени (Новиков).
чисто орфографические варианты: щастье; особо — варианты, связанные со
слитным/раздельным написанием (однакож/однакожь/однакоже при современном
однако ж или однако же; в первы́е, в место)
Кроме того, необходимо подключение анализа парадигмы с окончаниями Р. ед.
муж. и сред. -аго, -яго, И. и В. мн. ч. жен. и ср. рода -ыя, -ия, словоформ оне, одне,
ея, нея; эта задача облегчается тем, что программа морфологического анализа
Mystem, разработанная для информационного поиска (компания «Яндекс»), уже
имеет модуль, учитывающий тексты в дореформенной орфографии.
Однако наряду с этим тривиальным классом морфологических окончаний,
упразднённых реформой 1918 г., имеется и ряд морфологических форм,
специфических для XVIII в. (иногда также и для XVII или для XIX; см. подробнее
[6]). Их также необходимо в перспективе учитывать при автоматическом анализе.
Это прежде всего церковнославянский Р. ед. жен. –ыя, -ия, уже в XIX веке ставший
поэтическим архаизмом, но в XVIII довольно частотный в прозе высокого штиля.
Совершенно регулярным предстаёт вариант Т. ед. третьего склонения на -ию — он
8
столь же частотен, что и предусмотренное грамматическим стандартом словаря
Зализняка двусложное окончание –ою в первом склонении: жизнию, смертию,
казнию, вестию (passim). Наряду с древнерусскими формами Т. мн. третьего
склонения костьми, гостьми, путьми (а не выровненными по другим склонениям
формами костями, гостями, путями, причем слово гость перешло во второе
склонение полностью), встречается и неэтимологическое употребление этого
окончания: листьми (Новиков), князьми. Неустойчив выбор словоизменительного
типа и у других существительных: обоих царевичей, Феодора и Иоанна Алексеевичев
(Новиков). Общей чертой языка XVIII – XIX вв. (и даже, для многих форм, первой
половины XX) являются многочисленные нестандартные (с точки зрения
современной нормы) формы деепричастий: насладясь (а не насладившись), выпуча,
разиня, увидя, вышедши, идучи, быв, встретясь, возвратясь, пришед.
Распространена церковнославянская основа глаголов на –имать: приемлются,
изъемлет; употребителен синтаксический церковнославянизм — dativus absolutus,
задействующий краткую форму причастия (младенцу ему сущу ‘когда он был
младенцем’). Очень активна в XVIII веке — причём в своём этимологическом
значении множественного числа — связка суть (которую традиционный
морфологический анализатор опознает только как существительное): Узда простая,
звериная кожа в место седла, подпругою придерживаемая, суть вся конская збруя.
(Радищев).
Многие грамматические формы из живой диалектной речи, активно
употреблявшиеся в XVIII в. в литературном языке, причём не только в низком штиле
— сравнительная степень на –яе, вроде скромняе, форма множественного числа
среднего рода, унифицированная с мужским, на -ы (окны, злодействы) — в
следующем веке стали ненормативными, будучи отвергнуты практикой ведущих
писателей и при кодификации литературного языка. Для адекватной автоматической
разметки текстов XVIII в. их нужно будет внести в модуль морфологического
анализа.
Более широкое использование притяжательных прилагательных там, где в
современном языке был бы употреблён родительный падеж (Карамзин: Защитник и
покровитель невинных, благодетель Каласовой фамилии ‘семьи Каласа’), возможно,
является аргументом для того, чтобы в будущем включить информацию о
регулярных притяжательных формах в грамматическую разметку.
Семантическая разметка, выполняемая автоматически, сталкивается с похожими
трудностями:
1)
слова, отсутствующие в современном словаре, отсутствуют и в
семантическом и не получают никакого разбора. Таким образом, для
оптимизации разметки и тем самым поиска потребуется пополнение
словаря словами типа власно и указаниями на существование у слов
вроде сапфирный орфографических вариантов;
2)
слова, присутствующие в семантическом словаре с современным
значением, не имеют там значения, реально засвидетельствованного в
текстах (например, фамилия ‘семья’, верно (не вводное) ‘точно,
несомненно, наверняка’). Так как полисемия в текущей версии корпуса
не разрешена, возможно, потребуется специальный семантический
словарь для XVIII века (чтобы неактуальные значения не попадали в
корпус XX в.).
Ручное снятие неоднозначности в заданной части текстов
9
В Национальном корпусе русского языка в части текстов морфологическая
неоднозначность
снимается
вручную,
а
автоматически
порождаемый
морфологический анализ неизвестных словарю лексем также правится в
соответствии с технологией, отработанной в Национальном корпусе русского языка
(см. [11], [9]). Для этой задачи было отобрано около 10% текстов общим объёмом
100 тысяч словоупотреблений. При отборе предпочтение отдавалось коротким
текстам, представляющим различные жанры (художественную, публицистическую,
деловую, эпистолярную прозу). Это два письма Богдановича (Я. И. Булгакову и
императрице Екатерине II), выдержки из «Жизни приключений…» Болотова
(письма 97-99, описывающие переворот 1762 г.), из «Сказок» Чулкова
предуведомление и первые две сказки, из «Всякой всячины» Екатерины II полемика
с Новиковым, статьи от 1 и 29 мая, 5 июня 1769; Фонвизин: «Каллисфен»,
«Крестьянин, дракон и лисица» (перевод), завещание Фонвизина, статья к
сочинителю «Былей и небылиц» письма, Елагину, Обрескову, отрывки из дневника
четвертого путешествия, короткие сценки: «Добрый наставник» (неоконченное),
«Выбор гувернера»; Карамзин: «Бедная Лиза», «Филарет к Мелодору», «Что нужно
автору?», сочинения Новикова: «[О поэзии классицизма]», «Рассуждение об авторах
еженедельных сочинений 1769 года», «Программы Московских ведомостей»,
«Пустомеля» за июнь 1770, «Нравоучение как практическое наставление», «О
высоком человеческом достоянии», «Артемон Матвеев», «О добродетели», «О
достоинствах человека», сочинения Радищева: «О законоположении», «Записки
путешествия в Сибирь», «О таможенных обрядах», прозаический план «Бовы»,
«Дневник одной недели», избранные письма Радищева: брату Моисею,
А. Р. Воронцову, прошение Павлу I, «Письмо к другу, жительствующему в
Тобольске»; «Толкование из Плутарха о тишине сердца» Григория Сковороды.
Процесс ручного снятия неоднозначности связан с чтением всего текста и
редактированием неоднозначных (или гипотетически разобранных) мест. Как ни
удивительно, значительную часть проблем доставляет не столько морфология сама
по себе, сколько синтаксис и семантика. Далеко не всегда текст XVIII века
разметчику легко однозначно проинтерпретировать — а от интерпретации зависит
выбор той или иной грамматической пометы. Например, сочетание я отправился
искать дома (Болотов) читатель XXI века гораздо естественнее интерпретирует как
искать дома́ (В. мн.) — и, между прочим, так же, по-видимому, поступит и
программа, обученная на современном корпусе русских текстов. Между тем из более
широкого контекста становится ясным, что искомый дом один, и налицо архаичный
синтаксис, при котором глагол искать управлял родительным падежом: искать
до́ма (дома́, кроме того, в XVIII веке еще едва ли возможно, тогда преобладающей
формой было до́мы). Этот пример относительно прост; вот еще несколько примеров
нестандартного синтаксиса, затрудняющих анализ морфологии.
К ним относится нестандартное употребление залога (passivum pro activo) в
завещании Фонвизина: Всем законным наследникам по мне и всем знаемым меня
персонам известно, что я наследственного имения никакого за собою не имею; меня
здесь является дополнением в винительном падеже, а не в родительном, несмотря на
употребление страдательного причастия (ожидалось бы *знающим меня).
Нестандартные в наше время сочетания клитик (пример: Если ли же, Новиков) и их
порядок (даже что и бесстуднейшая неблагодарность ‘что даже и…’, он же)
делают не самой лёгкой задачей выбор «частица/союз». Сложность для разметчиков
представляют и длинные периоды с необычным синтаксисом, в частности,
согласованием, где нужно иногда видеть авторскую неточность (анаколуф): что
разум оного совсем другой, нежели в каком, по-видимому, вы его принимаете
(Фонвизин), чтобы здесь не распространяться в предложении им нашего усердия и
ревности и на требующее течение времени (Новиков); Основав законы гражданские
10
на лучшем понятии первых прав положительных и прав естественных, основав
законы уголовные на истинной соразмерности преступлений со вредом, наносимым
оными обществу, и казнию, ему свойственному, умягчая оную елико возможно,
основав судопроизводство на разсуждениях изменяющих, императрица Екатерина
II-я начертала Наказ свой (Радищев); необычайное нравственного мира явления (он
же); к ясному во всех тех злосоставных и сказкою ему причтенных вин изобличением
(цитируемое Новиковым заглавие рукописи XVII века об Артамоне Матвееве).
Особый класс случаев представляют колебания в области слитного или
раздельного написания слов; в текстах с ручной коррекцией разметки встаёт
проблема приписывания одного разбора двусловному сочетанию либо двух разборов
однословной записи — и то, и другое весьма маргинальная вещь в рамках
морфологического стандарта. Принято следующее соглашение: колебания
«наречие/предлог — предложно-падежное сочетание» (в место, во истину, в первы́е,
за то) сохраняются (ср. непоследовательность современной орфографии), то же
касается слитных и раздельных написаний вместо ныне принятых дефисных вроде
во( )вторых или по( )прежнему (ср. также два, три вместо два-три). Интересный
случай — сочетание однородных сказуемых ни думано, ни гадано у Болотова (при
современном наречии недуманно-негаданно). Сочетания предлога с именем, слитное
написание которых никакой другой синтаксической интерпретации не
соответствует: совсем тем (Болотов) или вовтором часу (уже цитировавшееся
«Письмо» Радищева) — не сохраняются и меняются на раздельные.
На стадии ручного снятия омонимии разметчик специально помечает вновь
вводимые лексемы, отсутствующие в словаре. Корпус со снятой вручную
омонимией может быть в дальнейшем использован, в частности, для пополнения
словаря и для обучения статистической программы, снимающей омонимию
специально в текстах XIX века.
Размещение текстов на сайте Национального корпуса русского языка
ruscorpora.ru.
После подготовки текстов и метатекстовой, морфологической и семантической
разметки пилотный корпус (как со снятой, так и с неснятой омонимией) в октябре—
ноябре 2006 г. размещается в составе основного корпуса (письменных текстов) на
сайте http://www.ruscorpora.ru. Пользователь сможет ограничить поиск только
текстами XVIII века, выбрав в разделе «Мой корпус» дату создания текста до 1800 г.
Разумеется, употребление тех или иных слов и грамматических конструкций можно
искать по всему корпусу, сравнивая явления XVIII в. с их эволюцией в последующие
эпохи.
Литература
1. Бабкин Д. С. От редакции. // Радищев А. Н. Полное собрание сочинений. Том
третий. М.—Л.: АН СССР, 1952.
2. Виноградов В. В. Основные этапы истории русского языка. //Виноградов В. В.
Избранные труды. История русского литературного языка. - М., 1978. - С. 10-64
3. Винокур Г. О. История русского литературного языка: Русский литературный
язык в первой половине XVIII в. // Избранные работы по русскому языку. - М., 1959.
С. 111-137.
4. Волков С.Св., Захаров В.П., Карпеева Э.П., Хохлова М.В. "Электронный словарь
М.В. Ломоносова": опыт составления. // Русское слово в историческом развитии
(XIV-XIX). - СПб, 2005. С. 85-86.
11
5. Горшков Н. И. История русского литературного языка. - М., 1969.
6. Живов В.М. Очерки исторической морфологии русского языка XVII-XVIII веков. М., 2004.
7. Кустова Г. И., Ляшевская О. Н., Падучева Е. В., Рахилина Е. В. Семантическая
разметка лексики в Национальном корпусе русского языка: принципы, проблемы,
перспективы. // Национальный корпус русского языка: 2003-2005. Результаты и
перспективы. - М., 2005. С. 155-174.
8. Ляшевская О. Н., Плунгян В. А., Сичинава Д. В. О морфологическом стандарте
Национального корпуса русского языка. // Национальный корпус русского языка:
2003-2005. Результаты и перспективы. - М., 2005. С. 111-135.
9. Поляков А. Е. Технология подготовки информации в Национальном корпусе
русского языка. // Национальный корпус русского языка: 2003-2005. Результаты и
перспективы. - М., 2005. С. 175—192.
10. Савчук С.О. Метатекстовая разметка в Национальном корпусе русского языка:
базовые принципы и основные функции // Национальный корпус русского языка:
2003-2005. Результаты и перспективы. - М., 2005. С. 62-88
11. Сичинава Д. В. Обработка текстов с грамматической разметкой: инструкция
разметчика. // Национальный корпус русского языка: 2003-2005. Результаты и
перспективы. - М., 2005. С. 136—154.
12. Успенский Б.А. Из истории русского литературного языка XVIII- начала XIX
века. - М., 1985. С. 10.
12
Download