Distanz Konzeption_RU

advertisement
Tosovic_Rasstojanie_mezdu_slav- jazykami_2010_RU.doc
Бранко Тошович
Расстояния между славянскими языками
0.
Предметом настоящего анализа является изучение расстояния между
славянскими литературными языками (далее СЛЯ), а также в их отношениях к немецкому
языку (De), на корпусном материале, охватывающем период в 40 лет (1970-2010), и
вытекающих из него словарях, списках, базах данных и т. п. Под корпусом
подразумевается набор текстов (а) в электронной версии на одном или на нескольких
языках, (б) снабженных экстралингвистической информацией (информацией о типе текста,
авторе, дате и месте издания…) и/или интралингвистической информацией (лексикосемантической, грамматической…), (в) с выводимыми из них списками, словарями и
другими базами данных, (г) доступных on-line для всех или ограниченного числа
пользователей и (д) служащих для научных исследований и обучения. Существуют
одноязычные, двуязычные,
многоязычные, параллельные, аннотированные
и
неаннотированные корпуса, корпуса письменных текстов и устной речи и т. д.
1.
Р а с с т о я н и е – это отношение между объектом A и объектом B,
указывающее на степень их близости/отдаленности, а также пространство, разделяющее
их. Язык A может иметь такие свойства, которые создают дистанцию, образуют
промежуточное поле по отношению к B, C... X. Каждый язык занимает определенную
позицию на скале между „близко“ и „далеко“. Мерой этой близости, т. е. отдаленности
является расстояние. Оно имеет определенный набор структурных характеристик:
качество, количество, интенсивность, уровень, степень, причину, направление (A  B, B
 A, A ↔ B) и т. п.
Существуют
различные
виды
расстояния:
структурно-дисциплинарное
(лингвистическое,
культурное,
математическое,
математико-лингвистическое,
политическое, психическое, социолингвистическое, этническое...), количественное
(минимальное, незаметное, незначительное, ничтожное, большое, огромное… ),
интенсиональное
(целенаправленное,
прогрессивное,
регрессивное),
оценочное
(благоприятное, релевантное, ожидаемое, измеряемое, заметное, оптимальное,
прогнозируемое, дивергентное, конвергентное, реальное, перцептивное…) и т. д.
Расстояние связано с различными процессами, в первую очередь с ускорением и
торможением, притяжением и отталкиванием, конвергенцией и дивергенцией, а также с
двумя силами – центробежной или центростремительной. Оно влияет на уровень
узнавания и порог понимания языка/языков.
Вильям Мекей выделяет несколько типов расстояния между языками: 1.
расстояние между языковыми системами и расстояние в дискурсе, 2. статическое и
динамическое расстояние: статическое является парадигматическим, так как охватывает
различия в наборе элементов и конструкций обоих языков, в то время как динамическое
является синтагматическим (оно линейно порождается в процессе речи), 3. расстояние как
различие двух языковых систем (частей систем) и расстояние как конверсия одного языка в
другой, 4. таксономическое и интегральное расстояние, 5. содержательное и формальное
расстояние (тождественные формы могут иметь различное значение), 6. расстояние в
интенсивности
(диверсивность,
интенсивность
и
продуктивность
языковой
дифференциации): некоторые категории более сильно дифференцированы, чем в других
2
языках (Mackey 1971: 105–106). „В общем приведенные различия и проведенные
измерения расстояния позволяют получить представление о контрастивных отношениях
языков в контакте и посредственно могут прогнозировать трудности и расстояние в
коммуникативных контактах между говорящими на данных языках.“ (Mackey 1971: 106–
107). Мекей приводит примеры для иллюстрации возможности определения степени
расстояния при помощи расчета количественной индикации.
В толковании полицентричных языков Ульрих Амон различает три степени
языкового расстояния: маленькое – типичное для стандартных вариантов одного и того же
полицентрического языка (напр., расстояние между австрийским стандартным немецким и
немецким стандартного немецкого языка), среднее – минимальное языковое расстояние
между стандартными вариантами различных языков (так. наз. аусбау-языков), напр.,
между стандартным люксембургским и немецким стандартным языками) и большое –
между любыми двумя вариантами, являющимися различными языками (так. наз. абстандязыками) – Ammon 2005: 1538. Соответственно он выделяет степени влияния расстояния
на взаимное понимание: большое препятствует взаимному пониманию, среднее позволяет
понимание с большими усилиями, а маленькое не создает затруднения.
С. Е. Яхонтов считает, что лингвистика (особенно социолингвистика) нуждается в
собственной шкале для измерения сходства языков (Jahontov 1980). Он предлагает шкалу,
основанную на их практическом значении для носителей языков или для исследователей.
Данная модель состоит из пяти ступеней: а) носители разных идиом свободно общаются
друг с другом, б) носители разных идиом без особого труда общаются между собой, хотя
возможны отдельные случаи непонимания, в) носители разных идиом не могут свободно
общаться, г) общение невозможно, д) родство двух языков может обнаружить только
специалист.1
„1. Наименьшие языковые различия, заметные для говорящих: носители разных идиом
свободно общаются друг с другом, но по особенностям произношения и отчасти лексики могут
приблизительно определить, откуда каждый из них родом […] Для появления таких различий
достаточно двухсот лет: английский язык в США уже имеет свои диалекты, не связанные с
английскими диалектами в Великобритании… 2. Носители разных идиом без особого труда
общаются между собой, хотя возможны отдельные случаи непонимания. Такой характер имеют
отношения между русским и украинским, татарским и башкирским, узбекским и уйгурским
языками. Возраст таких различий – около 500 лет или немного больше […] 3. Носители разных
идиом не могут свободно общаться, но постоянно слышат в речи друг друга знакомые слова и даже
короткие фразы. […] Таковы отношения между русским и болгарским или польским, турецким и
татарским, тхайским (сиамским) и шанским. Возраст таких различий – 1000-1500 лет […] 4.
Общение невозможно, но при систематическом изучении языков мы обнаруживаем множество
общих слов (почти для всех основных понятий) и правил грамматики, включая и сходство очень
многих грамматических морфем […] Эта степень родства выделяется с меньшей определенностью,
чем три предыдущие, т. е. признак ее допускает различные субъективные истолкования. Примером
могут послужить английский и шведский языки, но, может быть, также и значительно дальше
отстоящие друг от друга русский и литовский. Возраст различий, соответствующий этой степени
родства – не более 2000 лет: германские племена с собственными диалектами уже существовали
около начала н. э. […] 5. Родство двух языков может обнаружить только специалист; слова,
кажущиеся общими, скорее всего представляют собой недавние заимствования из одного языка в
другой или из общего источника или просто случайные совпадения. […] В языках, связанных
родством пятой степени, при таком выборочном обследовании лексики можно все же обнаружить
довольно много общих корней; сходными оказываются также некоторые наиболее общие
типологические характеристики этих языков (например, преимущественная тенденция к
суффиксации или префиксации, специфическая структура корня, наличие или отсутствие гармонии
гласных, тона, какие-нибудь нечасто встречающиеся классы фонем) и, может быть, некоторые
1
3
2.
В рамках данного анализа проводится корпусное исследование
близости/отдаленности
(а) белорусского (Be), болгарского (Bg),
боснийского/бошняцкого (Bs), лужицко-сербского (Ls), македонского (Mk), польского (Pl),
русского (Ru), сербского (Sr), словенского (Sl), словацкого (Sk), украинского (Uk),
хорватского (Hr), черногорского (Mo), чешского (Cs), а также (б) в их связях с немецким
языком (De). Кроме того, по мере возможности будут включении в исследование так. наз.
славянские микроязыки (градишчанско-хорватский – Hg, кашубский – Ks и русинский –
RS).
3.
О степени близости/отдаленности СЛЯ, особенно некоторых из них,
существуют различные позиции. Они особенно поляризованы по отношению к очень
близким СЛЯ, какими в частности являются Bs, Hr, Mo и SR или же Bg и Mk.
Противоположные мнения остро проявляются в социолингвистическом определении
характера СЛЯ – являются ли они (а) вообще отдельными языками или (б) вариантами
одного (полицентрического) языка, (в) диалектами одного национального языка, (г) одним
языком с различными (политическими) названиями и т. п. Отсутствие конкретных
исследований, которые бы объективно представили соотношения СЛЯ и предоставили
релевантый материал для разъяснений всех существенных вопросов, создает
благоприятные условия для субъективных, тенденциозных толкований отношений между
СЛЯ и политизации межъязыковых корреляции, во что втягиваются не только языковеды,
но очень часто и нефилологи (в первую очередь политики). Данная проблема особенно
обострилась распадом трех славянских федеративных государств (СССР, Чехословакии и
Югославии) в 90-ые годы 20 столетия и военными конфликтами в юго-восточной Европе в
это время. Ситуация особенно осложнилась различным толкованием оправданности и
неоправданности официального провозглашения и кодификации некоторых СЛЯ в ХХ
столетии (в середине этого века MK, а в 90-е годы Bs, Hr, Mk и Sr). На усложнение
межъславянских языковых отношений повлияло и изменение статуса отдельных СЛЯ. Так
(а) Cs и Sk (б) Be и Uk, (в) Sl превратились из языков республик в языки новых государств.
С другой стороны, Ru потерял роль языка общенационального общения в Белоруссии и
Украине, в которой украинское и русскоязычное население втянуто в конфликтую
ситуацию и в которой усиливаются тенденции, стремящиеся к вытеснению Ru почти из
всех сфер общения. Статус языка взаимного общения на уровне одного государства
потерял и сербохорватский язык, в рамках которого после распада бывшей Югославии
кодифицированы три (Bs, Hr, SR), а четвертый находится в этом процессе (это Mo,
провозглашенный совсем недавно – в 2007 году). Некоторые из представителей так. наз.
миркославянских языков требуют в новых государствах другого статуса (русинский в
Украине). Во всем этом появилась еще одна новизна – распадом общего государства
некоторые СЛЯ стали языками национальных меньшинств (например, Hr в Сербии или SR
во Хорватии). Определенная, а порой и значительная часть русскоговорящих оказалась за
рамками Российской Федерации, и расширением Европейского содружества вошла в его
состав (Латвия, Литва, Эстония). Почти все это так или иначе втягивается в процессы
объединения в рамках Европейского Содружества, причем ему приходится считаться со
сложными межъславняскими языковыми отношениями и искать решения. Непростая и
комплексная языковая ситуация на территории СЛЯ требует объективных исследований
интралингвистических, социолингвистических и психолингвистических аспектов их
соотношения, особенно того, чем мало занимались и занимаются – межъязыковым
расстоянием. Тот факт, что De находится в прямом или посредственном контакте со всеми
СЛЯ, и что немецкоязычные страны имеет разветвленное сотрудничество со славянским
(немногие) грамматические морфемы. Родство этой степени существует, например, между русским
и английским.“ (Яхонтов 1980-www).
4
миром, создает необходимость включить в данную проблематику и славяно-немецкие
языковые отношения. Все вышеуказанные причины указывают на необходимость
системнолингвистического, социолинвгистического и психолингвистического изучения
лишь одного аспекта данной сложной и комплексной тематики – взаимной
близости/отдаленности (а) СЛЯ и (б) СЛЯ и De.
№ Sprache
1.
De
2.
Bg
3.
Be
4.
Bs
5.
Cs
6.
Hr
7.
Ls
8.
Mk
9.
Mo
10.
Pl
11.
Ru
12.
Sk
13.
Sl
14.
Sr
15.
Uk
Summe
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 Insg.
De Bg Be Bs Cs Hr Ls Mk Mo Pl Ru Sk Sl Sr Uk
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15
15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 225
Рис. 1: Отношения между языками
Bs – Bosnisch/Bosniakisch, Bg – Bulgarisch, Be – Weißrussisch, Cs –Tschechisch, Hr – Kroatisch, LS –
Sorbisch, Mk – Mazedonisch, Mo – Montenegrinisch, Pl – Polnisch, Ru – Russisch, Sk – Slowakisch, Sl –
Slowenisch, Sr – Serbisch, Uk – Ukrainisch; De – Deutsch)
Данное исследование являются необходимым для славистики, так как в
первый раз на однообразном и унифицированном корпусном материале будет проведено
системное и комплексное исследование расстояния между СЛЯ, а также по их отношению
к De. Результаты анализа будут полезными для каждого из них, так как они укажут на
индивидуальную межъязыковую славянскую и неславянскую (славяно-германскую)
близость/отдаленность. Межславянский параллельный on-line корпус будет хорошей
материальной основой для дальнейшего исследования СЛЯ и De в их взаимных
отношениях. Для германистики это будет широкомасштабное исследование расстояния
между De и языками, относящимися к другой (славянской) генетической семье. Для
Австрии, в которой (а) так или иначе изучаются почти все СЛЯ, (б) существуют два языка
национальных меньшинств (словенский и градишчанско-хорватский) и (в) соседями
которой является Чехия, Словакия и Словения, а традиционно близкими такие страны как
Босния и Герцеговина, Сербия, Черногория и Хорватия результаты исследования будут
полезными для расширение сотрудничества. Для Штирии данный анализ полностью
укладывается в ее ориентациию на углубление отношений с юго-восточной Европой,
жители которой говорят на восьми СЛЯ (Bg, Bs, Cs, Hr, Mk, Mo, Sl, Sr). Европейскому
содружеству данное исследование может помочь в объективном рассмотрении и решении
вопросов статусов языков славянских стран в Европейском содружестве. В настоящее
время в семье ЕС находится пять СЛЯ: Bg, CS, Pl, Sk и Sl, в ближайшее время такой статут
получит Hr, на что также претендует BS, Mo, Mk и Sr, т. е. десять СЛЯ могут в ближайшие
годы оказаться в ЕС. Одной из проблем является то, что значительная часть языков стран,
претендующих на членство в ЕС, относится к группе близкородственных, носители
которых свободно, без переводчика общаются друг с другом (типичный пример –
4.
5
бошняки, сербы, хорваты, черногорцы), поэтому уже в настоящее время в рамках ЕС
ведутся дискуссии о том, что делать с такими языками и надо ли для них создавать службу
перевода. Данный анализ может дать объективную картину о расстоянии между ними и о
том, насколько оправдано, целесообразно это делать. Изучение расстояния между
указанными языками имеет и свое значение для обучения, особенно в вузах. Исследование
даст драгоценный материал тем, которые занимаются переводом, сопоставительным
изучением языков, распознаванием языка и автоматическим определением языков. Для
студентов особенно полезным будет многоязычный корпус и вытекающие из него базы
данных и отдельные программы.
5.
О с н о в а н н а я з а д а ч а данного исследования – изучить и определить
на широком, разнообразном и концептуально унифицированном корпусном материале
степень расстояния между указанными языками. Межъязыковые расстояния будут
рассмотрены на фонетико-фонологическом, лексико-семантическом и грамматическом
уровнях. Такое исследование должно ответить на вопрос, насколько близки/далеки языки,
относящиеся к генетически одной языковой семье (славянской), и языки, принадлежащие к
различным языковым семьям (германским и славянским). Анализ будет проводиться в
рамках концепции языковых корреляций, изложенной в книге „Корреляционный
синтаксис“ (Tošović 2001) и в ряде статей, а также на основе теоретических взглядов о
различии в языке и различии вообще (Tošović 2008c).2 Анализ должен также ответить на
вопрос (1) какие лингвистические, социолингвистичские и психолинвгистические
процессы влияют на близость/отдаленность СЛЯ, (2) насколько лингвистическое
расстояние между ИЯ воздействует на языковую ситуацию и психолонгвистические
процессы, в первую очередь на порог узнавания и понимания, (3) насколько СЛЯ
приближаются или удаляются друг от друга в четырех различных группах: в группе очень
близких языков (например, Bg и Mk), в группе территориально близких языков –
восточнославянских, западнославянских и южнославянских (например, Be, Ru, Uk) и в
группе территориально различных языков (например, HR, Cs). Особо будет рассмотрено
расстояние между генетически различными языками – СЛЯ и De.
6.
Насколько нам известно, о т с у т с т в у ю т исследования СЛЯ на данную
тему такого масштаба и на так унифицированном корпусном материале. Исследования,
результаты которых можно частично использовать в данном исследовании, следует в
первую очередь упомянуть международную программу в Ополе (Польша) „Współczesne
przemiany języków słowiańskich (1945–1997)“ – „Современные изменения в славянских
языков (1945–1997)“ под руководством Станислава Гайды. В опубликованных тринадцати
томах, посвященных каждому СЛЯ в отдельности, представлены языковые изменения во
второй половине 19 столетия, но не рассмотрены отношения между СЛЯ, тем более
предметом не было их взаимное расстояние. В некоторых трудах, вышедших из печати в
рамках данной программы, предпринята попытка синтетического, сопоставительного
анализа указанных процессов, результаты которого являются интересными для данного
анализа. В до сих пор опубликованных работах по общим и различным вопросам (a.
Komparacja – 2000, Komparacja – 2003/1: Slowotvórstvo, Nominacja, Komparacja 2007/2:
Fonetyka/ Fonologia, Komparacja 2008/3: Frazeologia 2008) не ставятся прямые вопросы о
степени расстояния между изучаемыми языками. Новые явления будут рассматриваться,
лишь если они влияют на приближение или удаление СЛЯ. Среди других проектов,
Некоторые
теоретические
и
практические
аспекты
отношений
между
близкородственными языками рассмотрены и описаны в сборнике „Различия между BS, HR,
SR“ (Tošović 2008).
2
6
интересных для данного исследования, следует упомянуть „Конвергентные
дивергентные процессы в славянских странах“, который проводится в Словакии.
и
В качестве исходной позиции и основы можно использовать для данного анализа
общую информацию о СЛЯ и их соотношениях (соответственно о близости/отдаленности),
которую дают труды по сравнительной грамматике СЛЯ, пособия по сравнительной
грамматике отдельных групп языков (например, восточнославянских), работы,
посвященные контрастивному исследованию двух или более славянских языков, а также
пособия и сборники, в которых сравниваются De и СЛЯ.3
Одним из тематически интересных проектов является „Измеренеие
лингвистического единства и разнообразия в Европе“ (Measuring linguistic unity and diversity in Europe), авторами которых являются Erhard Hinrichs и Dale Gerdemann из Германии
(Eberhard-Karls Universitüt Tübingen, Seminar für Sprachwissenschaft, Abt. Computerlinguistik), John
Nerbonne из Голландии (Rijksuniversiteit Groningen Alfa-informatica, Fac. der Letteren) –
Hinrichs/Gerdemann/Nerbonne-www. Проект реализовался в сотрудничестве Гронингенского
университета, Университета в Тюбингене, Софийского университета и Болгарской Академией
наук. Этот проект преследовал цель создать количественные методы по измерению
лингвистического разнообразия и их применить на языковые варианты в Болгарии, а также
на близлежащие территории. Одной из целей была критическая проверка количественных
методов на изучение языковой ситуации в Болгарии. Она значительно отличается от
ситуации на западноевропейском пространстве, которая до этого проекта изучалась.
Данный метод уже был успешно использован для изучения языкового разнообразия и единства в
западной Европе. В проекте измерялась языковая отдаленность между нелитературными
вариантами болгарского языка, между этими вариантами и болгарским литературным
языком, а также между этими вариантами и македонским литературным языком. 4 В
изучении балканского языкового единства и разнообразия авторы проекта подчеркивают, что
исследования параллелей и пунктов и дивергенции между западными случаями и этими из южновосточной Европы расширяют взгляды о языковом разнообразии. Для измерения использовался
метод Левенштейна (Levenshtein distance – Levenshtein 1965). В ходе анализа выводился
индекс языковой независимости (index of linguistic independence) – среднее расстояние между
одной группой вариантов и близлежащим литературным языком. Авторы различают
внешнее разнообразие и внутреннее единство. Внешним разнообразием (external diversity)
являются различия между региональными языками, языками меньшинств и литературными
языками (расстояние между официальными языками). 5 Внутренним единством (internal
unity) считается групповая когерентность.
Для данного анализа являются и релевантными результаты исследования
языкового расстояния, опубликованные в Proceedings of the Worksphop – Coling ACL
(Nerbonne/Hinrichs 2006). В статье „Языковые расстояния“ (Linguistic Distances) редакторы
сборника указывают на то, что в центре внимания находится языковое расстояние или
сходство.
В таких исследованиях не экплицируется основная тема данного проекта, тем более не
даются прямые ответы на степень и характер расстояния между более широких кругом СЛЯ.
3
4
Таким образом, речь идет об измерении парного расстояния.
Анализ показывает, например, что фризийский (Frisian) находится дальше всего от
литературного голландского языка (Dutch) – 43,5%, в то время как расстояние между литературным
голландским и литературным немецким составляет 43,4%.
5
7
Существует ряд л и н г в и с т и ч е с к и х попыток определения расстояния
между языками. Один из них предприняла О. Ревзина, которая занималась измерением
расстояния между родовыми системами славянских языков (Ревзина 1970). На основе
характера расстояния она выделила пять основных типов родовых систем: польский
(представлен также в верхнелужицком и словацком), русский (представлен также в
украинском), сербский, словенский и чешский. Наибольшей противопоставленностью
отличаются русский и польский типы. „Интересно, что чешский тип лишь слегка сдвинут в
сторону польского, а два южнославянских типа – сербский и словенский – занимают
относительно симметричное положение между русским и польским, при этом словенский
тип отстоит дальше от обоих типов [...] Относительно симметричное расположение мужского, женского и среднего родов со значительными отстояниями друг от друга характерно
для сербского и чешского языков, которые не развили новых родов. Для польского и
русского типов, в которых произошло дальнейшее дробление старых родов и
соответственно увеличение их инвентаря, характерно, во-первых, ассимметрическое
расположение родов в системе, и во вторых, сокращение расстояний между родами.“
(Ревзина 1970: 30).
Павле Ивич рассматривал генетическую близость славянских языков на
фонологическом уровне (Ivić 1998: 66-67). Он сравнивал сербохорватский и русский языки
и в этих целях провел анализ десяти односложных слов с праславянской этимологией,
принадлежащих к общему лексическому наследию: sin – сын, list – лист, lek –лек, red –
ряд, led – лед, naš – наш, luk – лук, bok – бок, san – сон, lan – лен. Автор пришел к выводу,
что система, состоящая из десяти гласных покрывает почти весь набор фонем позднего
праславянского языка.6
В. Гинсбург, И. Ортуно-Ортин, С. Вебер (2007) рассматривали расстояние между
языками с точки зрения полезности их изучения. По их мнению, чем языки дальше друг от
друга, тем выше их полезность. Кроме того издержки обучения зависят лишь от
расстояния между языками: чем языки ближе, тем издержки меньше и наоборот. Авторы
утверждают, что расстояние между языками влияет на долю изучающих.
Американский языковед Мориса Сводеш составил в середине ХХ в. список
лексического ядра слов в количестве 100, имеющие в первоначальном варианте 215 слов, и
считал, что вряд ли можно надеяться на список более чем в триста элементов
(Swadesh_lists1-www, Сводеш 1999). В основное лексическое ядро он включил
местоимения, числительные, а также наименования частей тела, географических явлений,
определенных явлений природы, элементарных, свойственных всем людям действий,
точнее значения, универсальные для каждого человеческого общества и находящие себе
выражение в любом языке. К таким относятся в частности я, вы, мы, этот, тот, кто?, что?,
не(т), все и др.7 Он хотел создать список, пригодный для всех языков, что оказалось
Индекс изменения, который можно использовать в качестве меры генетической
отдаленности, получается из формулы:
i(*N)
IC
ΣNi,
где i – количество языков, N – количество гласных. Результат для сербохорватского и русского
выглядит следующим образом:
2х10
=2
5+5
6
7
Как выглядит его список в применении на славянские языки, см. Swadesh_lists2-www.
8
невыполнимым. Основные положения теории Сводеша можно так охарактеризовать: 1. в
словаре любого языка существует специальная часть, которая является основной или
стабильной и которая обозначает коренные, фундаментальные и вместе с тем обыденные
понятия, 2. существуют значения, которые в любом языке обязательно выражаются
словами из основной части. Сравнивая процент слов этого ядра, которые сохранились в
парах близко родственных языков, Сводеш пытался вычислить время, прошедшее с того
момента, когда эти языки отделились друг от друга. Сводеш, в частности, утверждал, что
основная часть словаря изменяется с постоянной скоростью. Этот противоречивый метод
был особенно популярен в 60-е и 70-е годы ХХ века. К данному подходу в последнее
время некоторые снова возвращаются и пытаются развить новую концепцию на основе
такого метода. Одним из них является Виктор Кромер (Кромер 2004, 2005). В рамках
данного анализа будет исследовать выявляемые при применении метода Сводеша
закономерности в предположении некоторых уточняющих метод обстоятельств.
Концепция Кромера состоит из четырех пунктов. (1) Помимо фактора расхождения
словарей
согласно
постулатам
Сводеша,
предполагается
наличие
фактора
единовременного скачкообразного замещения части слов основного лексического списка.
Модифицированный таким образом метод позволяет привлечь к исследованию пиджины и
креольские языки. Метод позволит выявить в каждой из существующих языковых групп
(каковые выявляются также и модифицированным методом) язык (или несколько языков),
восходящий непосредственно к праязыку данной группы. Предварительные результаты
показывают, что среди языков кельтской группы к праязыку (данной группы) ближе всего
бретонский язык, среди германской – датский или немецкий, славянской – словенский и
т.д. Таким образом, учет на дендрограммах, помимо дивергенции, также и конвергенции,
приводят к необходимости введения в дендрограммы второго измерения. (2)
Предполагается выяснить возникающую на практике степень искажения дендрограммы,
поскольку на практике к исследованию привлекаются в той или иной степени смешанные
языки. (3) Конечной целью предполагаемой работы является построение дендрограммы
индоевропейских языков с датировкой времени лингвистических событий
(разделение/смешение языков) и оценкой степени смешанности языков. (4) Предполагается
также развить ранее предложенную Виктором Кромером трехпараметрическую модель
длины слова, восходящую к модели Чебанова-Фукса, для оценки степени близости языков
на основании сравнения параметров модели для близкородственных языков.
Расстояние между языками рассматривалось и с точки зрения интерференции.
Некоторые утверждают, что чем меньше типологическое расстояние между родным и
изучаемым языками, иными словами чем больше степень их сходства и меньше различие,
тем больше вероятность появления интерференции: если это расстояние велико, то есть
языки генетически не родственны, то случаев автоматического переноса, а, следовательно,
и ошибок, будет меньше (Dmitrijeva-www).
Для определения расстояния между языками на семантическом уровне (точнее для
измерения суждений о содержании лексических единиц) можно использовать
семантический дифференциал Осгуда (Osgood et al. 1957), что подтверждает и анализ
Данко Шипки, который применил этот метод для определения различий между Hr и Sr в
толковании слов как „своих“ или как “чужих“ (Šipka 2008).
В качестве исходного материала для определения расстояния между ИЯ можно
также использовать языковые примитивы, разработанные Анной Вежбицкой.
Вопросом расстояния занимались с о ц и о л и н г в и с т ы в первую очередь в
рамках толкования различий между близкороственными языками, а также между
вариантами литературного языка. Среди них выделяются работы Ульриха Амона. Он в
частности писал о генетическом, типологическом и лингвистическом расстоянии (Ammon
9
1987). По его мнению для генетической классификации важным является генетическое
расстояние, а для типологической – лингвистическое (т. е. основанное на грамматике).8
Важным социолингвистическим аспектом является влияние языковой политики на
увеличение или сокращение расстояния между СЛЯ. Нам не известны работы, в которых
комплексно рассматривается вопрос, насколько языковая политика оказывает воздейстие
на процессы сближения/удаления СЛЯ. Лишь в некоторых из них затрагиваются
отношения между двумя-тремя языками.9
На степень расстояния между СЛЯ особенно влияет пуризм, прежде всего его
гетерогенных характер в славянских станах – отсутствие ярко выраженных пуристических
тенденций в некоторых СЛЯ (напр., в Bg, Ru или SR), с одной стороны, и наличие
традиционно сильного пуризма (напр., в Hr, Sl), что создает благоприятные условия для
увеличения расстояния между ними. К сожалению, пуризм рассматривается в литературе
как правило интралингвистически, т. е. только внутри отдельных языков и без анализа его
воздействия на другие языки. Немаловажную роль играет традиционная языковая норма и
правила речевого этикета.
8
Он считает, что в случаях, когда отсутствует согласие лингвистов по поводу вариантов
языка, критерий лингвистического расстояния является самым четким, и на него надо сослаться в
спорных случаях. При этом надо учитывать общее правило о том, что статус варианта
предоставляется языку, к которому относится какой-либо другой вариант, если между этими двумя
вариантами существует сравнительно небольшое лингвистическое расстояние. В таком случае речь
идет не о различных языках, а о двух вариантах одного языка. Однако и это правило имеет
значительные недостатки в том, что методы измерения расстояния являются крайне неполными и
отчасти с трудом применяемыми (Ammon 1987a: 247). Расстояние Амон соотносит с гетерономией
(зависимостью нескольких вариантов по отношению к одной). Привилегированное положение в
этом отношении имеет литературный вариант. Все варианты, которые являются гетеронимными по
отношению к определенному литературному варианту, относятся к тому же языку, к которому
принадлежит и литературный вариант. В связи с конкурентным отношением между
автономией/гетерономией и критерием лингвистического расстояния Амон подчеркивает, что
гетерономия не дисквалифицирует критерий лингвистического расстояния, а может его
модифицировать (Ammon 1987b: 326). Он подчеркивает, что среди языковедов существует
консенсус о том, что те варианты, между которыми существует большое лингвистическое
расстояние, надо относить к различным языкам вопреки гетерономии, но мнения лингвистов
расходятся в случаях небольшого расстояния. Амон приводит пример ниженемецкого диалекта
внутри Германии, который обычно относят к немецкому языку, хотя его лингвистическое
расстояние по отношению к немецкому литературному варианту больше, чем между этим
последним и голландским литературным вариантом. Конфликт между критерием лингвистического
расстояния и гетерономией часто разрешается в пользу гетерономии. Так можно различать случаи,
когда подчеркивается небольшое лингвистическое расстояние и делается попытка его увеличения,
чтобы обеспечить особый статус языка, который будет использован как символ национальной
независимости, и наоборот: большие лингвистические расстояния стараются уменьшить из-за
грозящей ассимиляции. Кроме того, существуют и случаи, когда из-за политических и
экономических интересов варианты с небольшим числом говорящих относятся к одному и тому же
языку, несмотря на то, что между этими вариантами существует значительно лингвистическое
расстояние. Амон выражает сомнение в том, что в ближайшее время можно создать работающую
меру для измерения расстояния (Ammon 1986).
Сюда относятся некоторые статьи Снежаны Кордич, в которых затрагиваются вопросы
расстояния межу Bs, Hr и Sr в рамках их толкований как отдельных языков, литературных языков
или вариантов полицентрического языка (при этом она чаще всего ссылается на Амона) – Kordić xxx.
9
10
Существует ряд методов измерения расстояния между языками при помощи
методов т о ч н ы х н а у к . 10 Одним из них основывается на так называемых
„расстояниях редактирования“, т. е., цены перевода одной текстовой строки в другую.
Наиболее простым и распространенным расстоянием редактирования является расстояние
Левенштейна (Levenshtein 1965). Его суть состоит в перекодировании одной текстовой
строки в другую. В этом методе допускаются три операции с символами: замены, удаления
и добавления, и цена любой операции равна единице, а само расстояние Левенштейна –
наименьшему количеству требуемых операций. Например, чтобы из слова диалог получить
одеяло, придется провести следующие действия: добавить о, заменить и на е, заменить а на
я, стереть г. В результате расстояние Левенштейна между этими словами составляет 4.11
Слова рекомендуется записывать в фонетической, а не в орфографической записи, чтобы
не зависеть от различий орфографических традиций разных языков.12 Этот метод больше
всего используется для измерения расстояния между диалектами (в рамках
диалектометрии). Среди попыток его применения следует упомянуть докторскую
диссертацию Heeringa 2004 и работу Gooskens/Heeringa 2004.
Более обоснованное расстояние между языками возможно получить, если вместо
расстояния Левенштейна воспользоваться расстоянием Вагнера-Фишера. В данном случае
цена замены не постоянна и зависит от близости заменяемой буквы (фонемы) к
заменяющей. Например, замена гласной на гласную будет дешевле замены гласной на
согласную (Bērziņš 2006). Для применения в расстоянии Вагнера-Фишера фонетически и
интуитивно обоснованного расстояния между фонемами, было разработано 8-ми мерное
пространство всех фонем латышского и латгальского языков (Bērziņš/Grigorjevs 2007), в
котором можно разместить и все фонемы славянских языков.
В. Канвар и Дж. Тренкл предложили пользоваться частотными списками n-грамм
для категоризации текста (Canvar/Trenkle 1994). По закону Ципфа, множество слов,
знакосочетаний, звукосочетаний и т. п. можно упорядочить по частоте пользования ими.
Упомянутые авторы предлагают составлять частотные списки n-грамм для различных
текстов, чтобы при помощи сравнения списков и частотного списка n-грамм входного
текста определять категорию, к которой тот относится. При использовании такого метода
можно успешно автоматически определять язык, кодировку и тематику текста. А. У.
Берзинь предложил воспользоваться частотными списками n-грамм и для измерения
расстояний между языками (Bērziņš 2004a, 2004b). В таком случае входными данными
служат произвольные, немаркированные корпуса текстов сравниваемых языков. Методом
n-грамм пользуется ряд исследователей (напр., Cavnar/Trenkle 1994, Cavnar/Vayda 1992,
Cavnar/Vayda 1993, Kondrak 2005).
Одну из первых попыток предпринял польский исследователь Я. Чекановский для
количественной оценки степени родства языков (Czekanowski 1957, первый раз опубликовано в
1927 г.). Пользуясь антропологическим исследованием Е. Б. Тейлора (1888), он хотел отобразить
степень родства славянских языков, а потом и некоторых индоевропейских. Метод был отвергнут
большинством языковедов по причине произвольного выбора признаков. Его идеи продолжил
другой польский исследователь В. Манчак, который утверждал, что между родством языков и их
географическим расположением существует определенная связь (Mańczak 1981).
10
Расстояние между языками в данном случае можем определить как среднее расстояние
Левенштейна между словами параллельных списков слов данных языков.
11
12
Для такого исчисления написана программа на языке ПЕРЛ,
фономорфолексическое расстояние между латышскими наречиями (Берзинь 2006).
измеряющая
11
А. У. Берзиньш занимается методом определения расстояния между языками, в
котором каждый звук описывается одинаковым количеством единиц информации
(Berzinjs-www). Так как одного байта (256 пермутаций) для описания всех звуков/фонем
человеческой речи не достаточно, то по его мнению удобно их описывать двумя байтами
(65536 пермутациями).13 Он предлагает на пространстве всех звуков ввести некую меру,
определяющую фонетическое расстояние между любыми двумя звуками, обоснованную
физическими свойствами звуков и физиологическими характеристиками их произношения.
Особливое место занимают пока что неопубликованные, положительные
результаты А. У. Берзиня по измерению расстояний между языками по фонограммам. В
данном случае входным материалом являются нетранскрибированные звуковые записи
речи достаточно многих говорящих на сравниваемых языках, а в качестве методики
используются широко применяемые в распознавании речи стастистические скрытые
модели Маркова.
Для изучения близости 95 индоевропейских языков построена матрица расстояния,
основанная на 200 основных понятий, т. е общих корней (Dyen/Kruskal/Bgack 1992). В этой
матрице расстояние между De и Ru составило 0,76. Расстояние между немецким и другими
СЛЯ выглядит следующим образом: Sl 0,73, CS и SK 0,74, Pl 0,75, Uk 0,76. Расстояние
между Ru и СЛЯ имеет такую форму: Sl 0,39, Cs и Sk 0,26, Pl 0,27, Uk 0,22. Что касается
европейских языков, минимальное расстояние наблюдается между De и голландским (162),
датским (293), шведским (305) и английским (422), а максимальное между финским (1000),
греческим (812). Среднюю позицию занимает французский (756), испанский (747),
португальский (753) и итальянский (735).
Особый метод предлагает Валентин Стецюк: берется пара языков и в них считается
количество тех языковых признаков, которые являются общими (Стецюк-www). По
логической формуле определяется лингвистическое расстояние между языками,
входящими в пару. Этот метод является интересным для изучения славяно-неславянских
отношений, в которых можно идти от пары языков с большим лингвистическим
расстоянием (напр., немецко-русской) к ближним (с маленькими лингвистическим
расстоянием, напр. в русско-украинской паре). В итоге можно получить количество общих
признаков в немецко-славянской паре и славяно-славянской паре.
Близким к методам по измерению расстояния между языками является попытка
определения возраста отдельных языков, предпринятой М. В. Араповым и М. М. Херцом
(Арапов/Херц 1974). Они поставили себе задание построить математическую модель
изменений словаря и на основе этой модели теоретически получить зависимость между
временем возникновения слова и его рангом в частотном словаре (Арапов/Херц 1974: 3).
Существует метод, который базируется на лексической базе данный с наложенной
семантической метрикой и на создании алгоритма определения расстояния между двумя
русским словами, связанными английскими эквивалентами, в котором (методе)
определяется число английских эквивалентов, приписанных одновременно обоим словам
(Потемкин-www).
IPA X-SAMPA (my.txt). „Конечно, теоретически возможно и более мелкое звуковое
деление, но нам оно представляется нецелесообразным, так как при слишком мелком делении при
транскрибировании возрастает ошибочность и зависимость от индивидуального восприятия
специалистов, производящих транскрипцию. Кроме того, насколько нам известно, более мелким
делением не пользуются и при записи в уже существующих стандартах фонетической транскрипции
[...] На данный момент для работы с фонотекстами балтийских языков мы ограничились
использованием двухбайтового псевдокода: каждый встречаемый звук описывали двумя ASCIIсимволами по определённой схеме.“ (Berzinjs-www).
13
12
Здесь можно упомянуть и метод для изучения звучания языков, который касается
звуковой картины мира и который основан на критерии Карла Пирсона „хи-квадрат“. Одну
из таких попыток предприняла группа исследователей Сибирского института
международных отношений и регионоведения под руководством Ю. А. Тамбовцева
считала расстояние между 106 языками и японским языком, чтобы подтвердить алтайскую
теорию происхождения японского языка с точки зрения фонетики (Zvuk-www). Измерение
схожести между языками на базе звуковой картины языка подтвердило эту теорию. Ю. А.
Тамбовцев специально изучал компактность языковых групп и подгрупп, т. е. в какой
степени более или мене плотно расположены в них языки (Тамбовцев 2002). Ю. А.
Тамбовцев преследовал цель получить меру рассеяния, т. е. меру диффузности. 14 С
помощью величины компактности этот автор хотел понять, принадлежит ли какой-нибудь
язык какой-нибудь группе или семье языков. Ю. А. Тамбовцев подчеркивает, что его метод
позволяет сравнивать любой язык с любой группой языков. 15 При этом он исходит из
положения, что если какой-либо язык поместить в какую-либо группу языков (в нашем
случае, немецкий в славянскую), то он либо повысит, либо понизит ее компактность. Если
язык похож, то он не понижает ее компактность, т. е. не повышает ее диффузность.16
Одним из методов является измерение общей части словаря (Read/Spicer 1952).
Для данного исследования можно использовать результаты, полученные в анализе
автоматической идентификации языков (Arjen Poutsma 2001, Souter et al 1994,
Combrinck/Botha 1994, Kranig 2005, Muthusamy/Lawrence 1997, Norman 1976, Newman
1987, Dunning 1994, Muthusamy et al 1994...). Дамир Борас и его сотрудники сделали
небольшую программу, при помощи которой вносится определенный текст на Bs, Hr или
Sr, а потом она их сравнивает и определяет, о каком языке речь идет (Ljubešić/Nives/Boraswww).
В работах по к о н т а к т о л о г и и
полезными являются толкования
заимствований и языковой интерференции. В таких исследованиях указывается в
частности на то, что на уровень дистанции определенную роль играет наличие и
отсутствие прямого или посредственного контакта (более близкий и интенсивный контакт
создает благоприятные условия для увеличения порога понимания).
Для
данной
темы
важными
являются
работы,
посвященные
п с и х о л и н г в и с т и ч е с к и м аспектам расстояния между языками, в частности те, в
которых рассматривается восприятие языков носителями и неносителями родного и
понимания других языков, особенно близкородственных. Так, Вайнрайх пишет, что
языковой контакт можно лучше понять только в широком психологическом и
культурологическом контесте (Weinreich 1953, Вайнрайх 1979: 26). Он считает, что в
результате согласованных усилий представителей разных дисциплин в рамках
Диффузия – процесс переноса материи или энергии из области с высокой концентрацией
в область с низкой концентрацией.
15
Ю. Тамбовцев рассчитывает фонотипологические расстояния между баскским и рядом
других языков разных языковых групп по формуле евклидова расстояния в восьмимерном
пространстве, измерениями которого являются частоты встречаемости разных видов согласных
(Tambovtsev 2003).
16
Ю. А. Табмовцев указывает на то, что его метод схожести языков на фонетическом
уровне можно применить и к группе языков, которые называются балканским языковым союзом. Он
подсчитал, что введение армянского языка несколько понижает их диффузность, а введение
турецкого языка еще более понижает его диффузность, что говорит о большей схожести языков
балканского союза с турецком.
14
13
междисциплинарного подхода (лингвистики, психолингвистики, социолингвистики…)
можно ожидать получения более полных результатов.
В данном анализе будут проверены все указанные методы и выбраны те, которые
лучше всего соответствуют концепции и которые являются выполнимыми по времени,
числу сотрудников и объему финансирования. Особенностью данного анализа по
отношению к указанным методам состоит в том, что расстояние будет исследовано на
унифицированном многоязычном параллельном корпусе, что, насколько нам известно,
никто до сих пор не делал (по крайней мере в славистике).
7.
В настоящем исследовании расстояние между языками будет
рассматриваться в пяти к о р р е л я ц и о н н ы х с и с т е м а х : в интракорреляционале,
интеркорреляционале,
супракорреляционале,
суперкорреляционале
и
экстракорреляционале. Интракорреляционал представляет собой сеть отношений внутри
одного языка, влияющих на межъязыковые расстояния (например, изменения внутри Ru,
влияющие на расстояние межу Ru и Pl).17 Интеркорреляционал образуют очень близкие
языки, языки с очень высокой степенью понимания (скажем BS, Hr, Mo, Sr).
Супракорреляционал состоит из территориально близких СЛЯ (восточнославянских,
западнославянских,
южнославянских).
Суперкорреляционал
охватывает
языки,
относящихся
к
территориально
различным
славянским
группам
(напр.
восточнославянским и южнославянским типа Ru ↔ Bg). Экстракоореляционал является
системой отношений генетически различных языков, в данном случае славянских языков, с
одной стороны, и немецкого, с другой.
1
№ Язык1 Период
1. De1
1969-1989
2. Bg1
3. Bs1
4. Hr1
5. Mk1
1971-1991
6. Mo1
7. Sl1
8. Sr1
9. Cs1
10. Ls1
1972-1992
11. Pl1
12. Sk1
13. Be1
14. Ru1
1968-1988
15. Uk1
2
Язык2 Период
De2
1990–2010
Bg2
Bs2
Hr2
Mk2
1992–2012
Mo2
Sl2
Sr2
Cs2
Ls2
1993–2013
Pl2
Sk2
Be2
Ru2
1989–2009
Uk2
Табл. 1: Отношения между периодами развития
одного языка
Первая корреляционная система – интракореляционал состоит из отношений в
рамках только одного языка. Предметом исследования данного типа являются (а)
динамические процессы, а именно насколько изменения в отдельных языках в течение
последних 40 лет (1970-2010), т. е. в двух временны́х плоскостях (1970–1990  1991–2010
Так, в немецком интракорреляционале актуальным является вопрос о расстоянии между
немецким языком, которым говорят в Австрии, Германии и Швейцарии.
17
14
гг.) влияют на межъязыковое расстояние, к чему ведут такие процессы: к увеличению или
сокращению расстояния между ними, к (не)восприятию нововведений носителями
определенного языка, к положительному или отрицательному восприятию, к усилению или
ослабеванию понимания носителями других славянских языков, т. е. к увеличению или
понижению порога узнавания и понимания, (б) статические процессы, а именное как и
насколько сложившиеся уже до исследуемого периода структурно-типологические
свойства воздействуют на межъязыковое расстояние.
№
Язык
1.
De1
De2
2.
Bg1
Bg2
1
3.
Be
Be2
1
4.
Bs
Bs2
5.
Cs1
Cs2
1
6.
Mo
Mo2
1
7.
Hr
Hr2
1
8.
Ls
Ls2
9.
Mk1
Mk2
1
10.
Pl
Pl2
1
11.
Ru
Ru2
12.
Sk1
Sk2
1
13.
Sl
Sl2
1
14.
Sr
Sr2
1
15.
Uk
Uk2
Таб. 2: Интракорреляционные отношания
В процессе обработки материала будут проводиться следующие процедуры: (а)
берется определенный материал (словарный или текстуальный) из двух различных
периодов одного и того же языка (1970–1990, 1991–2010) и находятся изменения, которые
влияют или могут влиять на степень расстояния (увеличение или сокращение) между ИЯ,
(б) определяется характер этих изменений: почему они происходят (для более экономного
и эффективного выражения, спонтанно или целенаправленно, с политическими целями,
для усиления межъязыковой конвергенции или конвергенции и т. п.), являются ли они
релевантными, случайными, спонтанными, запланированными, целенаправленными и др.
15
1987–1993
Периоды развития языка
1991–20010
1970–1990
1990
предыдущий период
последующий период
20 лет
20 лет
40 лет
Рис. 2: Интракорреляционал
Для каждого языка в интракорреляционале существует временная линия
разграничения, а именно год, в котором произошло важное для языковой проблематики
событие: для Be, Ru и Uk это распад СССР (1989), для Cs и Sk распад ЧССР (1993), для Bs,
Hr, Mo и Sr распад СФРЮ (1992), а для De объединение Германии (1990). Если нет
отчетливой точки отсчета, то берется временной ориентир для других языков данной
группы (для Pl и Ls в группе западнославянских языков – 1993 год, для Bg в группе
южнославянских языков – 1992). Таким образом, чертой разграничений для измерения
влияния изменений в одном языке на расстояния между ним и другими языками являются
годы 1990–1993. Для определения интракорреляционного расстояния (вызванного
изменениями в определенных славянских языках с 1970 по 2010 гг.) выбираются перевод с
исследуемого языка, имеющий как минимум имеет две версии – одну из периода с 19701990 гг., а другую из периода 1991-2010 гг.
Hr
r
Bs
Sr
r
Mo
Рис. 3: Интеркорреляционал A
Mk
Bg
Рис. 4: Интеркорреляционал B
16
Sk
Cs
Рис. 5: Интеркорреляционал C
Вторая корреляционная система – интеракореляционал охватывают очень
близкие СЛЯ, какими являются (а) BS, Hr, Mo, Sr, (б) Bg и Mk, (в) Sk и Cs. Проведенное
исследование отношений в первой группе (Tošović 2008) свидетельствует о том, что
процесс дивергенции усилился после распада бывшей Югославии, что повлияло на
увеличение расстояния между BS, Hr, Mo, Sr. Этому особенно способствуют радикальные
пуристические тенденции в некоторых из них и обострение общественных процессов
(усиление национализма и шовинизма, развязывание военных конфликтов и т. п.) и
психические факторы (напр., ненависть к другим народам и их языкам). Целью данной
части исследования является не только изучение вопроса о расстоянии между СЛЯ внутри
каждого интеркорреляционала (A, B и C), но и вопрос о межгрупповом расстоянии
(скажем, является ли расстояние между Hr и Sr большим, чем между Bg и M или между Cs
и Sk).
Супракорреляционал состоит из территориально близких СЛЯ. В его состав
входит восточно-западнославянской супракореляционал: Be, Ru, Uk (А), западноюжнославянский супракореляционал: Cs, Ls, Pl, Sk (B) и южнославянский
супракореляционал: Bg, Bs, Hr, Mk, Mo, Sr (C). Цель исследования супракорреляционала –
определение
расстояния
между
языками,
входящими
в
состав
каждого
супракорреляционала в отдельности (скажем расстояния между Ls, Pl, Sk и Cs), а также
определение
расстояния
между
языками,
приадлежащими
различным
супракорреляционалам (здесь ставится вопрос, являются ли более близкими или более
далекими языки супракорреляционала A по отношению к B или C, напр. Bg, Mk ↔Cs, Sk,
Cs, Pl ↔ Ru, Uk, Be, Ru ↔ Mk, Sl).
Sl
Bs
Hr
Mo
Sr
Bg
Mk
Рис. 6: Супракорреляционал А
17
Ru
Be
Uk
Рис. 7: Супракорреляционал B
Sk
Cs
Pl
Ls
Рис. 8: Супракорреляционал C
18
Bg
Bs
Mo
Hr
Sl
Sr
Ru
Cs
Uk
Sk
Be
Pl
Ls
Рис. 9: Супракорреляционал
В составе суперкореляционала находятся СЛЯ, которые принадлежат различным
группам – 1. восточно-западнославянской: а) Be, Ru, Uk, б) Ls, Pl, Sk, Cs, 2. восточноюжнославянской: а) Be, Ru, Uk, б) Bg, Bs, Hr, Mk, Mo, Sr), 3. западно-южнославянской: а)
Cs, Ls, Pl, Sk, б) Bg, Bs, Hr, Mk, Mo, Sr. Одной из проблем в исследованнии данной
системы является вопрос, насколько интеркорреляционные изменения влияют на
суперкорреляционное расстояние. Здесь целесообразно рассмотреть гипотез о том,
насколько увеличение интеркорреляционного расстояния может влиять на характер
суперкорреляционного расстояния. Скажем, тяготеют ли некоторые процессы в Hr,
направленные на сознательное удаление от Sr (= увеличение интеркорреляционного
расстояния), к приближению Hr и Ru (= сокращение супракорреляционного расстояния).
Для определения интер-, супра- и суперкореляционного расстояния будут
выбираться тексты, которые переведены по возможности на все ИЯ или на большинство из
них. При этом преследуется цель, чтобы каждый славянский язык был как можно больше
представлен.
Особую систему составляют соотношения СЛЯ с немецким языком в рамках
экстракореляционала. Здесь в центре внимания находится расстояние между немецким
языком и славянскими интракорреляционными языками (например, Bs, Hr, Mo, Sr),
супракорреляционными языками (например, Cs, Ls, Pl, Sk) и суперкорреляционными
языками (например, Sl и Uk, Pl и Be, Mk и Cs). Данная часть исследования преследует цель
ответить на вопрос, к каким СЛЯ стоит ближе De, а от каких он находится подальше. Здесь
надо проверить гипотез о том, что наличие прямого территориального контакта влияет на
сокращение расстояния. Для определения экстракорреляционного расстояния выбираются
19
(а) славянские тексты, имеющие больше всего переводов на немецкий язык (по
возможности уже включенные в корпус по определению интер-, супра- и
суперкореляционного расстояния), и (б) немецкие тексты, имеющие больше всего
переводов на СЛЯ.
Bg
Bs
Mo
Hr
Sl
Sr
Ru
De
Cs
Uk
Sk
Be
Pl
Ls
Рис. 10: Экстракорреляционал
Для исследования расстояния во всех корреляционных системах выбираются
переводы, опубликованные в период с 1970 по 2010 гг. Если существуют два или больше
перевода, то как минимум один из них должен относиться к указанному периоду. При
выборе текстов будет учитываться то, какой их них является самым переводимым на ИЯ.
Для текстов, относящихся к литературно-художественному стилю, будут использованы
переводы художественных прозаических произведений. Анализ расстояния в
публицистическом
стиле
будет
проводиться
на
текстах
с
одинаковым,
немодифицированным содержанием из on-line изданий типа „Southeast European Times“,
„Deutsche Welle“, „Voice of America“ и т. п. В качестве материала для анализа расстояния в
рамках научного стиля будут использованы переводы строго научных произведений. Здесь
тоже критерием является время (переводы должны быть опубликованы в период с 1970 по
2010 гг.) и количество языковых версий (чем больше, тем лучше). Для анализа расстояния
в официально-деловом стиле будут использованы различные версии основных документов
международных организаций (ООН, ЕС, ЮНЕСКО и др.) на ИЯ. Для изучения
разговорного стиля предусматривается создать SlawSpeech-Korpus, который будет
охватывать записи устной речи. Он будет иметь три подкорпуса: Wort-Korpus, Fix-Korpus и
Frei-Kopus. Первые два будут использованы для фонетического и просодического анализа.
В Wort-Korpus войдут записи отдельных слов, являющимися общими для всех СЛЯ.
Например, составляется список из двадцати слов, относящихся к различным частям речи и
20
используемых во всех СЛЯ. Эти слова читаются опрошенными с паузами. Запись потом
разделяется на сегменты, которые соответствуют каждому слову, а потом они
паралеллизуются таким образом, чтобы нажатием на одно слово появились все
произнесенные версии на всех языках. В состав Fix-Korpusa войдут записи связанных слов
в предложении, которые имеют одинаковую или почти одинаковую лексическую и
грамматическую структуру во всех СЛЯ. Такие тексты должны быть небольшими (не
более двадцати предложений). Третий подкорпус – Frei-Kopus предназначен для
определения расстояния на уровне текста и стиля. Он будет охватывать спонтанно
произнесенные высказывания на одну из выбранных тем, что даст возможность измерять
расстояние в речи, не подлежащей внешней языковой корректуре и вмешательству
цензуры. Например, опрошенному дается рисунок или набор рисунок с просьбой
рассказать, что на них нарисовано. Так как данное исследование охватывает большое
число языков, такие записи должны был короткими. Для определения расстояния в устной
речи между СЛЯ и De будет создан Wort-Korpus и Fix-Korpus. В состав Wort-Korpusa
войдут слова, общие для СЛЯ и DE, а в состав Fix-Korpusa (а) самые простые предложения
на СЛЯ для опрашиваемых с родным немецким языком, и (б) самые простые предложения
на De для опрашиваемых с родным СЛЯ. В анализе устного материала будут использованы
два метода – акустический (при помощи программы типа Praat измеряется расстояние
между ИЯ по основным параметрам: длине произнесенных звуков, изменению в
интонации и т. п.) и слуховой.
8.
Общий комплекс взаимодействий в семье славянских языков –
корреляционалом состоит из лингвальной мегасистемы (комплекса языков) и структурной
мегасистемы (комплекса языковых единиц). В первом случае речь идет об отношении
между языками (лингвальный корреляционал), во втором – между их единицами
(структурный корреляционал).
Корреляционал
Лингвальный
Соотношение
языков
Структурный
Соотношение
языковых единиц
Рис. 11: Корреляционал
9.
Существуют различные членения славянских языков, учитывающие
территорию
(восточнославянские,
западнославянские,
южнославянские
языки),
особенности фонетико-фонологической системы (вокалические и консонантические
языки), морфологические свойства (аналитические и синтетические языки, – языки с
грамматическим членом и без него, – языки с полным, частичным или совсем утраченным
склонением) и т. п. Для данного анализа немаловажную роль играют изменения в каждом
из языков, влияющие на степень взаимной близости/отдаленности. Исходя из этого, можно
выделить пять межъязыковых систем в рамках лингвального корреляционала:
интракорреляционал, интеркорреляционал, супракорреляционал, суперкорреляционал и
экстракорреляционал.
21
язык А ↔ язык B ↔ язык X
Соотношение
языков
Лингвальный
корреляционал
Ru
Супракорреляционал
Интракорреляционал
Hr
Sr
Sr/Hr/BS ↔ Bg ↔ Mk ↔ Sl
Bs
Интеркорреляционал
Sr ↔ Hr ↔ Bs
Суперкорреляционал
Sr/Hr/BS ↔ Ru
Экстракорреляционал
Sr/Hr/BS ↔ неславянские языки
Ru ↔ неславянские языки
Sr – сербский, Hr – хорватский, Bs – бошняцкий,
Ru – русский,
Bg – болгарский, Mk – македонский, Sl – словенский
Рис. 12: Лингвальный корреляционал
10. В состав лингвального интракорреляционала входят отношения в рамках
одного славянского языка, в данном случае Ru, Sr, Hr и Bs в отдельности, особенно
отношения их региональных вариантов. Здесь важным вопросом является то, насколько
внутренние изменения в одном языке (например, в Ru) влияют на внешние отношения
двух или больше языков (например, Ru и Sr). Лингвальный интеркорреляционал
охватывает связи между генетически очень близкими языками, какими являются Sr, Hr и
Bs. В состав лингвального супракорреляционала входят языки одной и той же
территориальной группы (например, южнославянской или восточнославянской), но не
интракорреляционные.
Супракорреляционными
являются,
например,
сербский/хорватский/бошняцкий, с одной стороны, и болгарский, македонский и
словенский, с другой. Славянские языки, относящиеся к территориально различным
группам (напр., к южнославянской и восточнославянской), образуют лингвальный
суперкорреляционал. Гласные сербского, хорватского и бошняцкого языков входят в две
корреляционные системы – восточную и западную. Сюда относятся отношения между
сербским, хорватским и бошняцким и восточнославянскими языками: русским,
украинским и белорусским. Связи славянских языков с неславянскими входят в состав
лингвального экстракорреляционала. Все, что между языками является совместимым,
включается в лингвальный категориал. Кроме синхронного аспекта, славянские языки
22
взаимодействуют и на диахроническом уровне, и такие связи относятся к лингвальному
ретрокорреляционалу.18
Корреляционал
Категориал
Категориал
Интракорреляционал
Категориал
Супракорреляционал
Интеркорреляционал
Суперкорреляционал
Категориал
Экстракорреляционал
Категориал
Рис. 13: Корреляционал
11. Фонетико-фонологические отношения между Ru, Sr, Hr и Bs входят в состав
суперкорреляционала. Если исходить из того, что расстояние, в том числе и фонетикофонологическое, между интеркорреляционными языками (в данном случае к ним
относятся Sr, Hr и Bs) является минимальным, а между суперкорреляционными (Sr, Hr и
Bs, с одной стороны, и Ru, с другой) максимальным, то следует вывод, что
интеркорреляционные языки намного меньше отличаются друг от друга, чем
суперкорреляционные.
Структурный корреляционал охватывает отношения формальных,
семантических, категориальных и функциональных единиц отдельного языка или
корреляционных языков. На фонетико-фонологическом уровне выделяются две основные
системы – система гласных и система согласных. Они образуют свой
интракорреляционный,
интеркорреляционный,
супракорреляционный,
суперкорреляционный и экстракорреляционный комплексы.
12.
18
Например, на фонетико-фонологическом уровне существует различие между русским и
BKS, с одной стороны, и старославянским, с другой. Русский язык и BKS имеют намного меньше
гласных, чем старославянский. По отношению к шести гласным в русском (a, o, e, i, u, y) и пяти в
BKS (a, o, e, i, u) находится двенадцать старославянских: а) гласные переднего ряда, обозначаемые
графемами е, , и, ь, , , , , ю, б) гласные заднего ряда, передаваемые буквами о, ы, ъ, а, , оу.
Знак ь выражает (очень) редуцированный гласный переднего ряда и ъ (очень) редуцированный
гласный заднего ряда. В современном русском языке знак ь выполняет только графическую
функцию – указывают на мягкость предыдущих согласных (пить). Редуцированный гласный
заднего ряды ъ существует в болгарском (български), в то время как в русском языке он является
только графемой, которая стоит между приставкой и корнем (объём, объехать). Болгарское ъ
произносится между русским a и ы, например: дъб ‛дуб’, гъ̀лъб ‛голубь’, върба̀ ‛ива’, Алекса̀ндър,
Пѐтър (Maslov 1982: 44). В редких случаях может ъ появляется также в начале слова: ъ̀гъл ‛угол’.
Старославянский гласный y/ɨ (графема ы) имеют в настоящее время русский (быть, мыло),
украинский (графема и) и белорусский, а также западнославянские языки (графема y).
Старославянские согласные с функцией гласных r и l были не только твердыми [r], [l], но и мягкими
[r’], [l’].
23
единица 1 ↔ единица 2 ↔ единица x
Соотношение
языковых единиц
Структурный
корреляционал
звук x ↔ фонема x
Интракорреляционал
Супракорреляционал
гласный x1 ↔
гласный x2
гласный х ↔
согласный х
Суперкорреляционал
Интеркорреляционал
звук/фонема a ↔
графема a
гласный х ↔ гласный y
звук/фонема a ↔
морфема -a
Экстракорреляционал
звук/фонема x ↔ мимика y
звук/фонема x ↔ жест y
Рис. 14: Структурный корреляционал
Фонетико-фонологический интракорреляционал включают отношения а) звука и
фонемы, б) вариантов (аллофонов) одного и того же звука/фонема. Так как речь идет об
артикуляционных и функциональных разновидностях одного и того же звука/фонемы,
такая система охватывает все типы варьирования одного звука/фонемы (скажем, открытое
– закрытое е, ударное и безударное е, редуцированные и нередуцированное е, твердий и
мягкий шипящий и т. д.). Здесь основное несовпадение между Sr, Hr и Bs, с одной
стороны, и Ru, с другой, наблюдается в редукции безударных гласных а, е, о в Ru и их
четком произношении в Sr, Hr и Bs.
ударное
безударное
редуцированное
е
гласный е
е
открытое
первой ст.
закрытое
второй ст.
Рис. 15: Структурный интракорреляционал гласного е
Фонетико-фонологический интеркорреляционал состоит из связи единиц
определенного языка, относящихся к одной и той же фонетико-фонологической
подкатегории, например к системе гласных (a  e, o  u...) или к системе согласных (s 
š, t  d...).
24
Звук/Фонема
Гласный x
Гласный y
Рис. 16: Структурный интеркорреляционал
В состав фонетико-фонологический супракорреляционала входят отношения
между фонемами/звуками и просодическими единицами, какими являются ударение,
интонация, пауза, ритм и т. п.
Звук/Фонема
Просодема
Рис. 17: Структурный супракорреляционал
Фонетико-фонологический суперкорреляционал охватывает отношения различных
уровневых единиц – фонетических, фонологических, морфологических и т. п., например, 1.
фонем и морфем, что (особенно морфонологические чередования) изучается в составе
морфонологии, 2. звуков/фонем и графем.
Звук/Фонема
Графема
Морфема
Рис. 18: Структурный суперкорреляционал
Фонетико-фонологический экстракорреляционал образуют единицы языка,
которые относятся к различным гиперкатегориям. Таким образом, мы имеем дело с
отношением: фонетико-фонологические единица  единицы, не являющиеся фонетикофонологическими (морфологические, лексические, словообразовательные, синтаксические
и т. п. единицы).
Звук/Фонема
Мимика
Жест
Рис. 19: Структурный экстракорреляционал
13. Внутри фонологической системы славянских языков есть универсальные,
специфические и эксклюзивные фонемы. Универсальными называются те фонемы,
которые встречаются во всех славянских языках. Специфические фонемы присутствуют
только в некоторых языках, тогда как эксклюзивные фонемы есть только в одном языке.
Звуки/фонемы
Универсальные
Специфические
Уникальные
25
Рис. 20: Межъязыковые единицы
14. Анализ расстояния между СЛЯ следует проводить в рамках трех
направлений:
корпусно-лингвистического,
социолингвистического
и
психолингвистического.
Копрусно-лингвистическое направление преследует цель (а) собрать и обработать
материал для изучаемых языков, необходимый для анализа расстояния, (б) внести его в
параллельный on-line „Славянский корпус“ (сокр. Слав-Кор), (в) провести исследование
межъязыкового расстояния в корпусе. Каждая из вышеупомянутых корреляционных
систем будет иметь отдельный подкорпус – Интра-Кор (только для одного языка), ИнтерКор (для очень близких СЛЯ), Супра-Кор (для языков, относящихся к одной из трех групп
СЛЯ), Супер-Кор (для языков, относящихся к различным славянским группам), ЭкстраКор (для СЛЯ и немецкого). Только первый подкорпус (Интра-Кор) будет одноязычным,
но также параллельным, так как будет охватывать тексты из двух периодов развития
одного и того же языка. Все остальные подкорпуса будут содержательно унифицированы и
функционально сбалансированы, чтобы можно было на одном и том же материале
рассматривать расстояние во всех вышеприведенных отношениях (интер-, супра-, супер- и
экстра-) и в рамках всех основных разновидностей языка. В качестве on-line платформы
будет служить Gralis – славистический лингвистический портал Университета им. Карла и
Франца в Граце (Gralis-www). На нем уже находится параллельный Gralis-Korpus для Bs,
Hr и Sr (разработанный в рамках FWF-проекта P19158-G03), инфраструктура которого
будет использована для создания многоязычного корпуса всех СЛЯ.
В данном направлении выделяются две части: а) создание, пополнение и развитие
корпуса, б) лингвистический, социолингвистический и психолингвистический анализ
корпуса.
Корпусно-развивающееся направление охватывает накопление материала, его
обработку и аннотирование. Основная задача – создать в рамках многоязычного ГралисКорпуса параллельный корпус текстов на всех СЛЯ.19
В настоящее время существует мало параллельных корпусов СЛЯ. Общей
структурой и объемом выделяется Гралис-Корпус (Gralis-Korpus-www), предназначенный
для исследования Bs, Hr и Sr и созданный в рамках FWF-проекта P19158-G03 (2006-2009).
Он состоит из корпуса письменных текстов (Text-Korpus) и корпуса устной речи (Speech-
Это направление преследует следующие цели: 1. выработку инструментальных средств
для создания корпуса, его ведения (пополнения, предобработки текстов, паспортизации, контроля
их параметров и т.п.), структурирования (разметки структурными пометами), категоризации
(качественной квалификации его фрагментов и единиц, выделенных в ходе структурирования
текстов), выравнивания и фиксации связи между относительно эквивалентными элементами
параллельных текстов корпуса, 2. создание, тестирование, наполнение, пробную эксплуатацию и
развитие и совершенствование оболочки (программного средства) для выполнения работ по
созданию, ведению, структурированию, категоризации, выравниванию элементов параллельных
текстов, 3. выработку и согласование схемы метаязыка, а также структурной и категориальной
разметки фрагментов и единиц текстов, 4. переработку текстов каждого из языков, контроль их
параметров и характеристик паспортизации, структурную разметку текстов, категориальную
разметку фрагментов и единиц текстов (как минимум предусматривается осуществить
лемматизацию и морфологическая квалификацию словоформ), выравнивание (Alignment)
соответствующих эквивалентных фрагментов параллельных текстов, 5. выработку и согласование
функционально-стилистической (жанровой) схемы сбора параллельных текстов для корпуса, 6.
сбор и исходную паспортизацию (метаразметку) параллельных текстов по каждому из языков.
19
26
Korpus). В Text-Korpus включены тексты всех функциональных стилей (литературнохудожественного, публицистического, научного и официально-делового). Он насчитывает
в данный момент около трех миллионов формоупотреблений (token). Тексты сопровождает
основная метаязыковая и грамматическая аннотация. Speech-Korpus разделен на три
подкорпуса: Wort-Korpus, Fix-Korpus, Frei-Korpus. В Wort-Korpus включены записи
отдельно произнесенных слов. Fix-Korpus состоит из записей небольших текстов (напр.,
текст Jutro ‘Утро’ состоит из 18 предложений), в которых отсутствуют лексические и
грамматические различия между Bs, Hr и SR. Fix-Korpus содержит около 300 записей
устной речи. 20 Здесь можно упомянуть и „Русско-словацкий параллельный корпус“.21
Среди русско-неславянских параллельных корпусов, выделяется „Англо-русский
параллельный корпус“ в составе „Национального корпуса русского языка“ (Ruscorpora),
который находится в начальной фазе развития 22 . В этот корпус включены в меньшем
объеме переводные сочинения (параллельно с оригиналом). В рамках проекта „Opus“
подготовлен сбор свободно распространяемых параллельных текстов (техническая
документация, корпус субтитров). Он основан на CWB CQP. Сюда относится и
Параллельный корпус переводов „Слова о полку Игореве“ (SPI-www). Здесь можно
упомянуть и „Lilabar“ – англо-русский корпус параллельных предложений, содержащий
8500 пар пословиц, 130 000 пар фраз (Lilabar-www). 23 На Отделении переводоведения
Тамперского университета (Финляндия) создан русско-финский параллельный корпус
художественных текстов „ПарРус“. 24 Несколько больше по объему русско-английский
корпус (около 1,5 млн. словоупотреблений на каждом из языков), в который включены
произведения русской литературы XIX-XX вв. и их переводы на английский язык.
Существует параллельный корпус, состоящий, с одной стороны, из текстов на
английском и немецком языках, а, с другой, из текстов на некоторых славянских языках
(Bg, Be, Bs, Cs, Hr, Pl, Ru, Sk, Sr, Uk). Это The Regensburg Parallel Corpus (RPC) в
Институте славистики Университета в Регенсбурге (RPC-www).25
В процессе подготовки находится русско-немецкий и немецко-русский корпус в
составе „Русского национального корпуса“, а также „Русско-немецкий корпус
параллельных текстов“ в рамках проекта „Корпус Австрийской Академии наук“.
Последний охватывает лишь один текст – роман Ф. М. Достоевского „Идиот“ (1868-1869)
Более подробную информацию о нем см. Tošović 2008b.
Он в настоящее время содержит небольшое количество слов: в словацкой части 818 097
словоупотреблений, 43 381 предложений, а в русской части 819 09 слов и 46 832 предложений.
20
21
Национальный корпус русского языка в январе 2008 г. содержал 52 392 текста общим
объемом 149 357 020 словоупотреблений22
Он содержит базу параллельных предложений (память переводов) с возможностью
поиска по ней. В базе представлены переводы английских и русских предложений (фраз) в обоих
направлениях. Предложения (фразы) разделены по темам.
23
Для проверки данных использовались относительно небольшие по объему англо-русский
и русско-английский массивы художественных текстов (около 800 тыс. словоупотреблений на
каждом из языков). В его состав входят произведения русской литературы XIX-XX вв. (128 текстов)
и их переводы на финский язык. Объем корпуса составляет около 2,2 млн. словоупотреблений на
каждом из языков.
25
Он охватывает только один функциональный стиль – литературно-художественный
(тексты в подлиннике и в переводе). В настоящее время корпус насчитывает 10.376.769
словоупотреблений (tokens) и 300.358 лемм.
24
27
и его переводы на немецкий язык. 26 Готовится также немецко-русский корпус под
названием „Толкование снов Фрейда“ – “Traumdeutung” (Traumdeutung-www),2728
Среди неславянских параллельных корпусов выделяется Europarl Parallel Corpus
(EPC-www), в рамках которого развиты подкорпуса Danish-English, German-English, GreekEnglish, Spanish-English, Finnish-English, French-English, Italian-English, Dutch-English,
Portuguese-English, Swedish-English. Центр теории перевода Университета Leeds развил
„Leeds Corpus“ (Leeds-www), охватывающий различные языки (английский, китайский,
французский, немецкий, итальянский, японский, испанский), русский. 29 30 Одним из
параллельных корпусов является „MAASTR“ (Maastr-www), охватывающий мастристские
соглашения на немецком и английском языках. 31 Создан также параллельный корпус в
рамках немецко-французского проекта „Коллокации в контексте“. Этот корпус охватывает
немецкие тексты с французским переводом и французские тексты с немецким переводом.32
К этой группе относится также открытый online корпус под названием „Parallel Corpus of
Portuguese and English“, сокр. COMPARA (Compara-www).33
Обработка материала будет проходить в трех этапах. На первом будут отдельно
готовиться тексты для каждого СЛЯ. Важнейшей частью такой работы является аннотация
– метаязыковая, лексико-семантическая и грамматическая. Метаязыковая (паспортизация)
состоит из указания об источнике (авторе, заглавии текста, месте и годе издания,
26
Этот корпус ориентирован на изучение лексической семантики в сопоставительном
аспекте.
Целью данного проекта является создание и морфологическое аннотирование немецкорусского корпуса для различных пользователей.
27
В 2001 году в Самарском университете начался проект на тему „Корпусная лингвистика и
новые информационные технологии“ в рамках межкафедрального сотрудничества с Институтом
немецкого языкознания Университета г. Вюрцбурга (руководитель Н. Р. Вольф). Целью проекта
является последовательное составление и компьютерная обработка параллельного немецкорусского корпуса переводных текстов (DER-Korpus) для исследовательских и учебных целей. Нам
неизвестны результаты этого проекта.
28
Он содержит лишь тексты новостей из „Известий“ в период 2000-2001 г. (объем
14,564.884 словоупотреблений). Здесь использован и русский „Referenzkorpus“ (50,512.584
словоупотреблений).
29
Английский корпус состоит из новостей агентства Reuters. Использование корпуса
ограничено только в целях исследования.
30
31
Некоторые из этих корпусов являются недоступными из-за проблем с авторскими
правами.
Его объем – 15 миллионов словоупотреблений. Он состоит из CELEX-документов (право
Европейского Содружества – соглашения, внешние отношения, законы) и документов Европейского
парламента (EUROPARL). Ожидается его развитие до 50 миллионов словоупотреблений для
каждого языка. На основе этого корпуса сделан „Немецко-французский словарь коллокаций“ –
словарь сочетаемостей, охватывающих типичное и постоянное окружение какого-либо
лексического элемента, в первую очередь прилагательных и существительных (Kollokation-www).
32
Его авторы особенно подчеркивают проблему авторских прав и указывают, что для
текстов, авторами которых являются умершие 70 или больше лет назад, не нуждаются в получении
разрешения. В 1999 году началась в Институте немецкого языка в Мангейме (Institut für Deutsche
Sprache, IDS, Mannheim) работа над проектом „GeFrePac (German-French Reciprocal Parallel Corpus),
финансируемым ELRA (European Language Resources Agency, Paris) и IDS, под руководством
Вольфганга Тойберга (Wolfgang Teubert).
33
28
количестве страниц, издательстве, переводе и др.). Лексико-семантическая аннотация дает
основные лексические и семантические характеристики слова. Грамматическая аннотация
показывает, какая морфологическая структура и тип сочетаемости с другими словами на
уровне словосочетания и предложения. Существуют различные методы и кодировки,
используемые для грамматического аннотирования. Так как данное исследование требует
полностью унифицированной аннотации (чтобы искать информацию для всех языков),
необходимо выбрать ту, которая больше всего годится для изучаемых языков. Опыт и
проведенная работа в процессе подготовки параллельного корпуса для Bs, Hr Sr (Gralis
BKS-Korpusa) свидетельствуют о том, что в этих целях целесообразным является
использование Multext-East кодировки (Multilingual Texts and Corpora for Eastern and
Central European Languages – multilingual dataset for language engineering research and
development: MultiText East-www), разработанной в 2004 году группой авторов во главе с
Томажем Ерявцем.
После проведения разметки начинается второй этап, в котором текст будет
расчленяться на предложения, в результате чего получится система, в которой каждому
предложению языка А соответствует предложение языка В, C… Параллелизация состоит в
том, что тексты двух или более СЛЯ объединяются, потом проводится их выравнивание.
Если, например, в одном языке абзац состоит из трех предложений, а в другом из пяти,
приходится устранить такое неравновесие. Для автоматизации данного процесса (а) будут
использованы уже имеющиеся или взятые из других источников (не)модифицированные
разработки, (б) если существующие программы не в состоянии выполнить поставленные
задачи, будут созданы новые инструментальные средства, позволяющие в частности в
одном комплексе объединять тексты на различных СЛЯ, автоматически находить
несовпадения в числе предложений и, насколько это возможно, автоматические делать
исправления. Этим заканчивается параллелизация и начинается серверная работа, для чего
будут использованы IMS Coprus Workbench (CQP) и Asset-Menagement.
Третий этап состоит в том, что из корпусного материала создаются списки
языковых единиц, которые затем превращаются в реляционные базы данных при помощи
программы MySql, на основании которых можно готовить словари различного типа.
IMS Open Corpus Workbench представляет собой набор средств для администрации,
подготовки и осуществления поиска в больших текстовых корпусах с лингвистической
аннотацией. Его главным компонентом является гибкая и продуктивная поисковая
программа CQP (Corpus Query Processor). Первоначально разработанный в Инстутуте
машинной обработки языка Штутгартского университета (Csrist 1994, Csrist, Schulze 1995),
в 2007 году он был выпущен как программа с открытым кодом (open-source software) с GPL
лицензией (GNU General Public License) и размещен на SourceForge. CWB использует для
хранения корпуса свой собственный формат: быстрый доступ достигается за счет бинарной
кодировки, полный индекс способствует эффективному поиску словоформ и аннотаций,
используются специальные алгоритмы сжатия. В зависимости от аннотации размер
корпуса может достигать 500 миллионов слов (token). CWB содержит следующие
компоненты: инструменты для кодировки, индексации, сжатия, декодирования и
частотных распределений, общий реестр, где хранится информация о корпусе (название,
атрибуты, место нахождения), поисковую программу (CQP), которая осуществляет
быстрый поиск с использованием синтаксиса регулярных выражений по значениям
атрибутов отдельных позиций (например, по морфологическим тэгам).34
Поисковая система будет предоставляет простой и расширенный поиск, который
базируется на CQP-синтаксисе (Suche mit CQP-Syntax) и предлагает очень широкие и
разнообразные комбинации. Результаты поиска вертикально выводятся на монитор. Название
34
29
В процесс создания корпуса кроме подготовки базовых текстов и аннотации
метаданных в XML-формате необходимо переработать цифровые ресурсы (MP3-, WAVданные и т. п.) в рамках Speech-Korpusa для измерения расстояния на фонетическом и
просодическом уровнях. Asset Management Systeme (AMS) дает такую возможность,
используя web-базируемый Workflows. В узком смысле этим понятием обозначаются
системы хранения, управления и подготовки цифровых ресурсов, накапливаемых в
большом количестве. В отличие от Content Management Systemen, в Asset Management
выступает на передний план, прежде всего, архивирование постоянных метаданных,
доступных для цитирования и гибкого использования цифровых ресурсов. Основная идея
Asset Managements состоит в том, чтобы раздробленные цифровые ресурсы получили одну
центральную IT-структуру и этим обеспечили продолжительное архивирование
имеющегося цифрового фонда знаний, доступного для цитирования. С (текстуально)технологической точки зрения Asset Management Systemen предоставляет, в первую
очередь, очень гибкий способ хранения документов, основанных на XML, и управление
корпусом. Именно из-за этих свойств AM-System являются надежным местом для
хранения корпусных текстов.
В качестве платформы для трансфера материала будет использован Open Source
Projekt „Fedora“ (Flexible Extensible Digital Object Repository Architecture), разработанный в
Cornell University (который с 1997 г. вместе с University of Virginia и Mellon Foundation, а
раньше National Science Foundation, финансировали его). „Fedora“ предоставляет структуру
для сохранения цифровых web-ресурсов и управления ими (Repository).35
К о р п у с н о - а н а л и т и ч е с к о е направление преследует цель изучить
собранный корпусный материал. В его рамках будут рассмотрены основные уровневые
характеристики расстояния (фонетико-фонологические, орфографическое, лексикосемантические и грамматические) во всех функциональных стилях (литературнохудожественном, публицистическом, научном, официально-деловом и разговорном).36
текста/источника особо обознается желтый цветом. Нажатием стрелочки с левой стороны заглавия
можно будет получить основную мета-информацию (об авторе, месте и времени издания,
издательстве, числе страниц и т. п.). При отображении результатов поиска пользователь может
определить размер отображения. При этом допускаются различные виды сортировки строк,
подсчитываются частоты (например, для комбинации слов), составляется многоязычный индекс для
параллельных корпусов.
35
Она основана на архитектуры SOA, которая отличается следующими функциями: (a)
независящая от платформы и распределяющаяся системная архитектура, основанная на web-сервисе
Webservice (SOAP, Simple Object Access Protocol), (б) основанный на Apache Lucene полный
текстовый регистр (VolltextIndex) и версионное управление (Versionsverwaltung) Asset-содержанием
(Assetinhalte), (в) основанный на RDF регистр метаданных с языком запросов ITQL типа SQL
(Tucana Technologies), (г) определение тонко раздробленных прав на доступ к Assets и к его
частичным энтитетам на основании XACML (Extensible Access Control Markup Language), (д)
стандартные импорт- и экспортформаты: METS (Metadata Encoding and Transmission Standard) и т. п.,
(е) основанная на URL четкая адресация цифровых ресурсов, (ж) поддержка стандартных
протоколов обмена метаданными типа OAI-PMH, (з) на основе носящей технологии
(Trägertechnologie) Apache Tomcat можно осуществить при помощи Repository Clustering и
загрузочную балансировку (Load Balancing) системного окружения с соответствующим числом
пользователей (Concurrent Usern).
Данная часть подразумевает: 1. количественное и качественное сопоставление категорий
параллельных фрагментов и единиц текстов, 2. анализ статистики пар относительно эквивалентных
единиц параллельных текстов каждого из языков по ряду параметров (например, по статистике
типов соответствия: слово языка1 – слово языка2, слово языка1 – словосочетание языка2,
36
30
В анализе собранного корпусного материала будут исследованы не только сугубо
лингвистические вопросы и аспекты расстояния, но будет рассмотрено и влияние языковой
политики, стандартизации и кодификации на сокращение или увеличение расстояния
между ИЯ. Особое внимание будет уделено пуризму и заимствованиям. В качестве
дополнительного средства для получения и изучения материала будет служить on-line
программа по созданию, проведению и обработке опросов под названием „ГралисАнкетарум“ (разработанная в рамках FWF-проекта P19158-G03), а также и программа по
изучению орфографических нормы ИЯ „Гралис-Прескриптариум“, которую запланировано
создать.37
На собранном корпусном материале будет рассмотрен вопрос о том, как
носителями СЛЯ воспринимаются и оценивается расстояние между ИЯ. В таком анализе в
центре внимания находится критерий взаимного понимания, а также влияния расстояния
на кодовое переключение (code-swiching). 38 Здесь очень важную роль играет не само
понимание, сколько уровень (степень) понимания на шкале „больше“ – „меньше“.3940
15. Анализ расстояния между СЛЯ на различных языковых уровней требует
различных методов. Фонетико-фонологическое расстояние будет измеряться на основе
списков и баз данных с фонемами, полученных из устного корпуса. Такие данные будут
использованы для определения расстояния в системе гласных, согласных, гласных и
согласных по качественным и количественым параметрам, а также по их дистрибуции. В
исследовании будут учтены, результаты, полученные в анализе фонетического расстояния
различных языков и диалектов (напр., Wildgen 1977, Nerbonne/Hinrichs 2006,
Nerbonne/Heeringa 1997), особенно фонетического сходства (Good. 1995). Что касается
лексического уровня, в центре внимания будут семантическое расстояние (измерение
значения, семантического сходства), которое обычно рассматривается только в рамках
словосочетание языка1 – слово языка2, слово языка1 – ø языка2 и т. п.) , 3. интерпретация,
качественный анализ статистических данных, 4. выработка и согласование параметров, по которым
будут обследоваться тексты каждого из языков по отдельности – для последующей корректной
сопоставимости получаемых результатов (например, составление частотных словарей словоформ,
лексем, морфологических категорий и т.п. для каждого из текстов, для текстов определенного жанра,
функционального стиля и всего корпуса текстов данного языка в целом), 5. исследование
внутренних характеристик текстов каждого из языков и сопоставление двух корпусов по ним, также
по типам относительно эквивалентных единиц текстов.
37
При проведении опросов надо иметь в виду, что расстояние между языками невозможно
найти и определить только при помощи анкетирования взаимного понимания. Поэтому данный
метод может быть лишь одним из методов в поиске ответов на вопрос о расстоянии между языками.
Некоторые исследователи считают его основным для различения языков (если говорящие
друг друга не понимают, они говорят на различных языках, если же понимают друг друга, речь идет
об одном языке или диалекте).
39
Хадсон приводит причины, почему к критерию взаимного понимания надо осторожно
относиться, в частности: существуют варианты, которые можно считать различными языками, но их
носители понимают друг друга (скандинавские языки, кроме финского и лапонского), но и у
вариантов, принадлежащих к одному языку, может отсутствовать взаимное понимание (диалекты
китайского языка) – Hudson 1990: 35-37. Анализируя тесты понимания как посредственного метода
измерения лингвистического расстояния, Амон пришел к выводу, что отмеченную в этих тестах
степень взаимного понимания нельзя считать однозначным индикатором лингвистического
расстояния (Ammon 1986: 13).
40
Более подробно о измерении лингвистического расстояния и лингвистического
несходства, а также о тестах по измерению взаимного (не)понимания Амон писал в другой работе
(Ammon 1989: 31-46). Различие между вариантами, основанное на грамматике, он не называет
типологическим или структурным, а лингвистическим и реже системным (Ammon 1987b).
38
31
одного языка (см. Osgood et al. 1957, Miller/Walter 1991). Для проведения грамматического
анализа будет использована грамматическая аннотация текстов, на основе которой
автоматически будут получаться списки словоформ, а потом определяться межъязыковое
расстояние. Из корпусного материала сначала создается база данных, состоящая из
словоформ каждого исследуемого языка, потом проводится парадигматический и
синтагматический анализ. В парадигматическом анализе рассматривается частота
отдельных словоформ. Контекстуальный анализ преследует цель определять расстояние на
уровне параллельных предложений двух или более языков. В таком анализе будет учтен
опыт других исследователей (в частности Nerbonne/Hinrichs 2006, Nerbonne/Wiersma xxx).
В орфографическом анализе актуальные правила правописания ИЯ вносятся в базу
данных и создается интерфейс для поиска по языкам, правилам и ключевым словам. Она
позволяет искать определенное правило (напр., слитное написание слов) или ключевое
слово (напр., запятую) во всех правописаниях. Если в рамках одного языка существуют два
или более пособия, выбирается тот, который больше всего годится для данного анализа.
Для социолингвистического и психолингвистического анализа будет использована
метаязыковая аннотация корпуса и on-line опросы.
Литература
Ammon 1987: Ammon, Ulrich. Language – Variety/Standard Variety – Dialect. In: Ammon, Ulrich et al. (ed.). Sociolinguistics. An International Handbook of the Science of Language and Society. Bd. 1. Berlin – New York. S. 316–335.
Ammon 2005: Ammon, Ulrich. Pluricentric and Divided Languages. In: Ammon, Ulrich et al.
(ed). Sociolinguistics, Vol. 2, Berlin/New York. S. 1536–1543.
Arapov/Cherc1974: Арапов, М.В.; Херц М.М. Математические методы в исторической
лингвистике. Moskau.
Bērziņš 2004a: Berzinch, A.A. La comparaison de typologie traditionnelle et de typologie
phonolexique, basée sur la méthode des n-grammes, dans les dialectes baltes. In:
Identification des langues et des variétés dialectales par les humains et par les
machines. Paris. S. 103–104.
Bērziņš 2004b: Берзиньш, А.A. Сравнение балтийских языков методом n-грамм. In: Труды
международной коференции „Корпусная лингвистика“ – 2004. Sankt Peterburg. S.
65–71.
Bērziņš/Grigorjevs 2007: Берзиньш, А.A.; Grigorjevs J. Latviešu izloksnēs sastopamo fonēmu
telpa. In: Iesniegts publicēšanai Linguistica Lettica 2007. gadā. Rīga –
http://ansis.lv/raksti/endz2007.pdf
Bosák 1998: Bosák, Jan. Slovenský jazyk. Opole.
Cavnar/Trenkle 1994: Cavnar, William B.; Trenkle, John M. Ngram-based text categorization. In:
Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas. S. 161–175.
Cavnar/Vayda 1992: Cavnar, William B.; Vayda, Alan J. Using superimposed coding of N-gram
lists for Efficient Inexact Matching. In: Proceedings of the Fifth USPS Advanced
Technology Conference, Washington D.C.
32
Cavnar/Vayda 1993: Cavnar, William B.; Vayda, Alan J. Ngram-based matching for multi-field
database access in postal applications. In: Proceedings of the 1993 Symposium on
Document Analysis and Information Retrieval, University of Nevada, Las Vegas.
Dmitrijeva-www: Дмитриева, Ю. В. Проблемы двуязычия и интерференции. In:
http://nakhodka.wl.dvgu.ru/forum/section7/7-08.htm
Dimitrova 1997: Dimitrova, Stefana (ed.). Български език. Opole.
Duličenko 1981: Дуличенко, А.Д. Славянские литературные микроязыки: Вопросы
формирования и развития. Tallinn.
Dyen/Kruskal/Black 1992: Dyen, Isidore; Kruskal, Joseph B.; Black, Paul. An Indo-European
Classification: a Lexicostatistical Experiment. In: Transactions of the American Philosophical Society. Nr. 82 (5).
Erjavec 2004: Erjavec, Tomaž. Multext-East Version 3: multilingual morphosyntactic specification, lexicons and corpora. In: Lino, Maria Teresa; Xavier, Maria Francisca (ed.).
Fourth international conference on language resources and evaluation, Lisbon, 26th,
27th & 28th May 2004. Proceedings: held in memory of Antonio Zampolli. Paris. S.
1535–1538.
Erjavec 2006: Erjavec, Tomaž. Multext-East Morphosyntactic specifications and XML. In:
Slavcheva, Milena; Simov, Kiril, Angelova, Galia. Readings in multilinguality: selected papers for young researchers. Sofia. S. 41-48.
Faska 1998: Faska, Helmut. Serbšćina. Opole.
Forić 2008: Forić, Sandra. Das Gralis Speech-Korpus. In: Tošović, Branko (ed.). Die
Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen –
Münster et al. S. 755–764.
Gajda 1998: Gajda, Stanisław. Język polski. Opole.
Gajda 2000: Gajda, Stanisław (ed.). Komparacja systemów i funkcjonowania współczesnych
języków słowiańskich. Opole.
Gladrow 1989: Gladrow, Wolfgang. Russisch im Spiegel des Deutschen. Leipzig.
Ginsburgh/Ortuño-Ortin/Weber 2007: Ginsburgh, Victor; Ortuño-Ortin, Ignacio; Weber, Shlomo.
Why do People Learn Foreign Languages? In: Journal of Economic Behavior and Organizations. Nr. 64 (3). S. 337–347.
Gladková/Likomanova 2002: Гладкова, Хана; Ликоманова, Искра. Языковая ситуация:
истоки и перспективы (болгарско-чешские параллели). Prag.
Gooskens/Heeringa 2004: Gooskens, Charlotte; Heeringa, Wilbert. Perceptual evaluation of Levenshtein dialect distance measurements using Norwegian dialect data. In: Language
Variation and Change, 16(3). S. 189–207.
Gutschmidt 2002: Gutschmidt, Karl. Möglichkeiten und Grenzen der Standardisierung slavischer
Schriftsprachen der Gegenwart. Dresden.
Heeringa 2004: Heeringa, Wilbert J. Measuring Dialect Pronunciation Differences Using Levenshtein Distance. Rijksuniversiteit Groningen. Univ.-Dissertation.
Hinrichs 1999: Hinrichs, Uwe (ed.). Handbuch der Südosteuropa-Linguistik: Handbuch der
Südosteuropa-Linguistik. Harrassowitz Verlag, Wiesbaden.
33
Hinrichs/Gerdemann/Nerbonne-www: Hinrichs, Erhard; Gerdemann, Dale; Nerbonne, John.
Measuring linguistic unity and diversity in Europe. In: http://www.sfs.unituebingen.de/dialectometry/docs/VW-dialect-proposal.pdf. 31. 1. 2008
Ivić 1998: Ivić, Pavle. Rasprave, studije članci: 1. O fonologiji. Sremski Karlovci – Novi Sad.
Jachontov-www: Яхонтов, С.Е. Ocenka stepeni blizosti rodstvennych jazykov. In: Teoretičeskie
osnovy klassifikacii jazykov mira. Moskau 1980. S. 148–157. Zit. n:
www.philology.ru/linguistics1/yakhontov-80.htm
Jermolenko 1999: Jermolenko, Svitlana. Українскька мова. Opole.
Koch/Oesterreicher 1985: Koch, Peter; Oesterreicher, Wulf. Sprache der Nähe – Sprache der
Distanz. Mündlichkeit und Schriftlichkeit im Spannungsfeld von Sprachtheorie und
Sprachgeschichte. In: Romanistisches Jahrbuch 36. S. 15–43.
Kofler/Wonisch 2008: Kofler, Stefan; Wonisch, Arno Das Gralis-Rezensarium. In: Tošović,
Branko (ed.). Die Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen
und Serbischen. Münster et al. S. 803–806.
Kondrak 2005: Kondrak, Grzegorz. N-gram similarity and distance. In: Proceedings of the
Twelfth International Conference on String Processing and Information Retrieval
(SPIRE 2005), Buenos Aires. S. 115–126.
Kořenský 1998: Kořenský, Jan (ed.). Český jazyk. Opole.
Kromer 2004: Кромер, В.В. Глоттохронологическая ретрогностика языковой системы. In:
Проблемы лингвистической прогностики. Воронеж. S. 136–144.
Kromer 2005: Кромер, В.В. Об одном методе оценивания степени смешанности языков. In:
Актуальные проблемы компьютерной лингвистики. Минск. S. 104–110.
Kunzmann-Müller 2000: Kunzmann-Müller, Barbara et al. (ed.). Die Sprachen Südosteuropas
heute. Umbrüche und Aufbruch. Frankfurt am Main.
Laškova 1996: Laškova, Lili. On the Phenomenon of Slavic Languages in the Balkans. – In: Linguistique Balkanique. Sofija. 38/3. Pp. 231–237.
Lehner 2008: Lehner, Olga. Die technische Entwicklung des Gralis Speech-Korpus. In: Tošović,
Branko (ed.). Die Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen
und Serbischen. Münster et al. S. 777–779.
Levenshtein 1965: Levenshtein, Vladimir I. Binary codes capable of correcting spurious insertions and deletions of ones, Problems of Information Transmission 1(1). S. 8–17.
Ljubešić/Nives/Boras-www: Ljubešić, Nikola; Mikelić, Nives; Boras, Damir. Language identification:
how
to
distinguish
similar
languages?
In:
http://infoz.ffzg.hr/ljubesic/nlnmdb_iti07.pdf
Lončarić 1998: Lončarić, Mijo (ed.). Hrvatski jezik. Opole.
Lukašanec et al. 1998: Lukašanec, Aljaksandr. Беларусская мова. Opole.
Mackey 1971: Mackey, William F. La distance interlinguistique. Quebec: Les Presses de l’ Université Laval.
Magocsi 2004: Magocsi, Paul Robert. Русиньскый язык. Opole.
Marti 2000: Marti, Roland. Slavische Standardsprachen im Kontakt. Das Neben-, Mit- und
Gegeneinander slavischer Standardsprachen. In: Zybatow, L.N. (ed.). Sprachwandel in
der Slavia. Teil 2. S. 527–541.
34
Minova-Đurkova 1998: Minova-Đurkova, Liljana (ed.). Македонски јазик. Opole.
Mokienko/Walter 2008: Mokienko, Valerij; Walter, Harry (ed.). Komparacja systemów i
funkcjonowania współczesnych językow słowiańskich. Bd. 3: Frazeologia. Opole.
Multext-East-www: Multext East. In: http://nl.ijs.si/ME/V3/
Nerbonne/Heeringa 1997: Nerbonne, John; Heeringa, Wilbert. Measuring dialect distance phonetically. In Proceedings of SIGPHON-97: 3rd Meeting of the ACL Special Interest Group
in Computational Phonology, Madrid. S. 11–18.
Nerbonne/Hinrichs 2006: Nerbonne, John; Hinrichs, Erhard. Linguistic Distances. In: Nerbonne,
John; Hinrichs, Erhard (ed.). Linguistic Distances Workshop at the joint conference of
International Committee on Computational Linguistics and the Association for Computational Linguistics, Sydney, July, 2006. 1–6.
Nerbonne/Wiersma 2006: Nerbonne, John; Wiersma, Wybo. Measure of Aggregate Syntactic
Distance. In: Nerbonne, John; Wiersma, Wybo (ed.). Linguistic Distances Workshop at
the joint conference of International Committee on Computational Linguistics and the
Association for Computational Linguistics, Sydney. S. 82–90.
Neščimenko 2003: Нещименко, Г.П. Языковая ситуация в славянских странах. Опыт
описания. Анализ концепций. Moskau.
Nikitevič 2003: Никитевич, A.B. К сопоставлению деривационных подсистем глагола в
славянских
языках.
In:
Мовазнаўства.
Літаратура.
Культуралогія.
Фалькларыстыка. ХІІІ Міжнар. з’езд славістаў (Любляна, 2003). Minsk. S. 144–
158.
Ohnheiser 2003: Ohnheiser, Ingeborg (ed.). Komparacja systemów i funkcjonowania
współczesnych językow słowiańskich. Bd. 1: Słowotwórstwo/Nominacija. Opole.
Osgood et al 1957: Osgood, Charles E. et al. The measurement of meaning. Urbana: University of
Illinois Press.
Potemkin-www: Потемкин, С.Б. Лексическая база данных с наложенной семантической
метрикой. In: http://www.philol.msu.ru/~rlc2004/files/sec/19.doc
Radovanović 1996: Radovanović, Milorad (ed.). Српски језик. Opole.
Revzina 1970: Ревзина, О.Г. Типологический анализ грамматической категории рода. (На
материале
славянских
языков).
Moskau,
1970:
Univ.-Dissertation
(Zusammenfassung, AKD).
Sawicka 2007: Sawicka, Irena (ed.). Komparacja systemów i funkcjonowania współczesnych
językow słowiańskich. Bd. 2: Fonetyka/Fonologia. Opole.
Šipka 2008: Šipka, Danko. Varijantske razlike u semantičkom diferencijalu. In: Die Unterschiede
zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen. Münster et al.
S. 130–142.
Širjaev 1997: Širjaev, Evgenij. Русский язык. Opole.
Stecjuk-www: Стецюк, Валентин. Лексика как материал для реконструкции исстории
языка. In: http://www.inauka.ru/blogs/article71407.html
Stigler 2008: Stigler, Hubert. XML-Frameworks im Korpusmanagement. In: Tošović, Branko
(ed.). Die Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und
Serbischen. Münster et al. S. 617–629.
35
Swadesh 1952: Swadesh, Morris. Lexico-statistic dating of prehistoric ethnic contacts. In: Proceedings of the American philosophical society. Nr. 36. S. 452–463.
Tambovtsev 2002: Tambovtsev, Yuri. Comparative typological study of language distances based
on the consonants in sound chains of various languages. In: Elliot, John (ed.). The 5th
National Colloquium for Computational Linguistics in the UK. Proceedings of the Conference. 8-9 January. University of Leeds, UK. Leeds. S.77–80.
Tambovcev 2002: Тамбовцев, Ю.А. Фонологическая схожесть и фонологические
расстояния. In: сб. Гуманитарные проблемы миграции: социально-правовые
аспекты адаптации соотечественников в Тюменской области. Тюмень. S. 274–
277.
Thomann 2008: Tomman, Robert. Das Gralis Anketarium. In: Tošović, Branko (ed.). Die
Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen.
Münster et al. S. 796–802.
Tošović 2001: Tošović, Branko. Korelaciona sintaksa. Projektional. Graz.
Tošović 2002: Tošović, Branko. Funkcionalni stilovi. Funktionale Stile. Graz.
Tošović
2008a:
Tošović,
Branko
(ed.).
Die
Unterschiede
zwischen
dem
Bosnischen/Bosniakischen, Kroatischen und Serbischen. 1/3. Münster et al. Reihe
Slawische Sprachkorrelationen. Bd. 1.
Tošović 2008b: Тошович, Бранко. Сопоставительное изучение славянских языков при
помощи многоязычного „Гралис-Корпуса“. In: Stanković, Bogoljub (ed.).
Izučavanje slovenskih jezika, književnosti i kultura kao inoslovenskih i stranih.
Beograd. S. 336–340.
Vidovič-Muha 1998: Vidovič-Muha, Ada (ed.). Slovenski jezik. Opole.
Vojvodić 1997: Vojvodić, Dojčil. О елиптичним конструкцијама у словенским језицима. In:
Славистика, књ. I (1997). S. 7–14.
Wagner/Fischer 1974: Wagner, Robert A.; Fischer, Michael J. The string-to-string correction
problem. In: Journal of the Association for Computing Machinery. Nr. 21(1). S. 168–
173.
Weinreich 1953: Weinreich, Uriel. Languages in Contact. The Hague.
Wildgen 1977: Wildgen, Wolfgang. Differentielle Linguistik. Entwurf eines Modells zur
Bescheibung und Messung semantischer und pragmatischer Variation. Tübingen.
Wingender 1998: Wingender, Monika. Standardsprachlichkeit in der Slavia. In. Zeitschrift für
Slawistik. Bd. 43. S. 127–139.
Wonisch 2008a: Wonisch, Arno. Das Gralis Personalium. In: Tošović, Branko (ed.). Die
Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen.
Münster et al. S. 813–821.
Wonisch 2008b: Wonisch, Arno. Das Gralis Text-Korpus. In: Tošović, Branko (ed.). Die
Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen.
Münster et al. S. 724–749.
Zieniukowa 1992: Zieniukowa, J. (ed.) Procesy rozwojowe w językach sowiaskich. Warschau.
Zybatow 1998: Zybatow, Lew N. Zu neuen Horizonten der slavistischen Sprachkontakt und
Sprachinselforschung. In: Die Welt der Slawen: München. Jg. XLIII/2. S 323–338.
36
Параллельные (многоязычные) корпусы
Compara-www: http://www.linguateca.pt/COMPARA/index.php
EPC-www: http://www.statmt.org/europarl
Gralis-Korpus-www:
Korpus/korpus.html
http://www-gewi.kfunigraz.ac.at/gralis/0.Projektarium/Gralis-
Kollokation-www:
http://www.kokken.go.jp/public/world/mirror/www.idsmannheim.de/gra/kollokation.html
Leeds-www: http://corpus.leeds.ac.uk
Lilabar-www: http://lilabar.com/index.php
Maastr-www: http://www.philhist.uni-augsburg.de/lehrstuehle/anglistik/
sprachwissenschaft/mitarbeiter/stoll/elekhilf
RPC-www: http://www.uni-regensburg.de/Fakultaeten/phil_Fak_IV/Slavistik/RPC
Ruscorpora-www: http://ruscorpora.ru; http://ruscorpora.ru/search-para.html
SPI-www: http://nevmenandr.net/slovo
Traumdeutung-www: http://www.aac.ac.at/lab_parallel_freud.html
Исторники
Deutsche Welle: http://www2.dw-world.de
Glas Amerike: http://www.voanews.com/serbian/
Gralis-www: http://www-gewi.uni-graz.at/gralis/
Southeast European Times http://www.setimes.com
Сокращения
Be – Weißrussisch
Bg – Bulgarisch
Bs – Bosnisch
Cs – Tschechisch
De – Deutsch
Hg – Burgenlandkroatisch
Hr – Kroatisch
37
KS – Kaschubisch
Mk – Mazedonisch
Mo – Montenegrinisch
Pl – Polnisch
RS – Russinisch
Ru – Russisch
Sk – Slowakisch
Sl – Slowenisch
So – Sorbisch
Sr – Serbisch
Uk – Ukrainisch
SSS – slawische Standardsprachen
38
Супракорреляционал
Интракорреляционал
Супер-Кор
Экстра-Кор
Интер-Кор
Суперкорреляционал
Супра-Кор
Интра-Кор
Слав-Кор
Интеркорреляционал
Прескриптариум
Warte-Korpus
Орфография
Экстракорреляционал
Создание
корпуса
Звук/фонема
Слово
Форма слова
Словосочетание
Предложение
Ударение
Изучение
корпуса
1. Белорусский
2. Боснийский/
бошняцкий
3. Болгарский
4. Лужицкий
5. Македонский
6. Польский
7. Русский
8. Сербский
9. Словацкий
10. Словенский
11. Украинский
12. Черногорский
13. Чешский
14. Хорватский
Корпус
ФС-стиль
Акцентариум
Литературно-художественный
Публицистический
Научный
Официально-деловой
Разговорный
Расстояние
Языки
15. Немецкий
Социолингвистический
аспект
Языковая
политика
Стандартизация
Кодификация
Пуризм…
Психолингвистический
аспект
Восприятие
Понимание
Оценка
Опросы
Опросы
Download