sem3Volkov-Samples

advertisement
Олег Волков (volkovolek@gmail.com), ВШЭ, 25.11.2014
 Генеральная совокупность (population)
Что является генеральной совокупностью для языковой выборки?
 Репрезентативность (representativeness)
Должна ли языковая выборка быть репрезентативна?
 Объём выборки
Какой объём должен быть у языковой выборки и как её вообще
создать?
 Обзор общих проблем, связанных с языковыми выборками
 Определение помех (bias), вызывающих
нерепрезентативность выборки
 Обзор подходов к выделению языковых выборок
 Предложение собственного метода, основанного на
критерии разнородности (Diversity Value, DV)
 Примерно у 2/3 языков нет нормального (или хоть какого-то)
грамматического описания. 85% этих языков может умереть к концу
века.
 Большое количество языков либо вымерло, либо кардинально
изменилось. Расчёт: язык возник примерно 40000 лет назад, в
среднем – около 6000 языков одновременно, язык изменяется
каждые 1000 лет: всего исчезло около 233 000 языков. Из них нам
доступны данные около 500.
 Что же является в таком случае генеральной совокупностью?
 В некоторых случаях данные письменных мёртвых языков
указывают на то, что ничего существенно не изменилось. Однако
таких данных мало, и они не очень древние
 Но явно в существующих сейчас языках не проявляется всё языковое
разнообразие, которое когда-либо было на планете (кликсы)
 Можно ли делать утверждения о каких-то универсалиях или о каком-
то предпочтительном значении параметра насчёт давно вымерших
языков?
(порядок слов: http://wals.info/feature/81A#2/30.1/148.5)
 Проблему, как кажется, никак не решить
 У нас есть больше прав говорить о разнообразии (хотя
большую часть вариантов мы, возможно, не сможем
наблюдать), чем об универсалиях
 Нужна ли нам одна выборка на все случаи жизни? Или для каждого
исследования нужна своя выборка?
Плюсы универсальной выборки: удобнее изучать корреляцию между
параметрами, удобнее работать с языковыми данными (можно
ограничиться определёнными языками)
Минусы универсальной выборки: для ответа на разные вопросы
нужны разные выборки, объём и структура выборки зависят от
изучаемого параметра; при использовании разными исследователями
разных выборок проще обнаружить какие-то редкости и нетипичные
случаи
 Баккер выделяет два типа: probability sample и variety
sample. Первый тип – скорее про процентное
распределение в генеральной совокупности, второй – про
разнообразие
 Типы различаются стабильностью и изученностью
рассматриваемого параметра
 Для наиболее изученных параметров
 Для наиболее диахронически стабильных параметров
К примеру, вершинное / зависимостное маркирование – более
стабильный параметр, чем порядок составляющих. Перфект быстрее
эволюционирует, чем плюсквамперфект. И т. д.
 Объём – от 50 до 200 языков
(Предлоги / послелоги http://wals.info/feature/85A#2/14.9/152.8)
 Для неисследованных параметров (а также для наименее
стабильных)
 Исследователь расширяет выборку, пока не новые значения
параметра не прекращают появляться
 Размер жёстко не задан (можно определить минимальный размер),
чем больше, тем лучше
 Чем больше вариантов значений параметра, тем больше должна
быть выборка
(Род у личных местоимений
http://wals.info/feature/44A#2/16.7/148.6)
 Исследователь использует доступные, проверенные
данные, пользуется наиболее полными и подробными
описаниями, не ставя перед собой цель построить
репрезентативную выборку
 Это не всегда плохо, зависит от исследуемого параметра
 Какие помехи мешают нам построить репрезентативную выборку?
 Bibliographic bias. Описано мало языков, все описания – по разным
принципам, с разной полнотой.
 Genetic bias. Во многих выборках языки определённой языковой
семьи представлены более полно, чем языки какой-либо другой
семьи. Это особенно плохо для probability samples.
 Areal bias. Одни ареалы представлены более полно, чем другие
 Typological bias. В выборке превалируют языки с определённым
значением какого-либо параметра. Особенно портит картину при
импликативных универсалиях
 Cultural bias. В языках с большим количеством носителей сложней
найти какие-либо редкости, чем в экзотических языках
 Bell 1978: выделил 478 генетических групп, не задал оптимальный
объём выборки. Количество языков от группы в выборке должно
быть пропорционально количеству групп
 Perkins 1980: генетика + культура, 50 языков
 Tomlin 1986: генетика + ареалы
 Dryer 1989: более глубокий генетический анализ + макроареалы
…
 Видимо, единственный к настоящему моменту
формализованный алгоритм построения выборок.
Реализован в виде компьютерной программы
 Работает на основании любой классификации, выбранной
пользователем
 Минимальная выборка – по одному представителю каждой
вершинной группы. Соответственно, входят все изоляты,
если классификация генетическая
 Если число языков увеличивается, то для каждой группы
считается её показатель разнородности (DV). Он зависит
от количества промежуточных вершин и разветвлённости
дерева
 Ck = Ck-1 + (Nk − Nk – 1 ) (MAX − (k−1)) / MAX)
 Ck – вклад (contribution) вершины уровня k в DV какой-либо
вершины
 Nk – количество вершин на уровне k
 MAX – максимальная глубина дерева
 C0 (верхний уровень) = 0, ветвей в C0 также 0
 DV вершины = сумма вкладов всех её потомков
 В соответствии с DV определяется количество языков определённой группы в
выборке
 Для какого типа выборок применим этот критерий?
 Возможность использовать любую классификацию – это хорошо или
плохо?
 Зависимость состава выборки от количества промежуточных ветвей
– это хорошо или плохо?
«Our data on the history of languages, on processes of language
change and on their interaction with sociocultural conditions are not
sufficient (or not sufficiently known) to adequately supply this model»
[Bisang, http://www.phil-fak.uniduesseldorf.de/summerschool2002/Bisang2.PDF]
 Нужно ли типологам зацикливаться на выборках?
 Изучение языков идёт ступенчато: от описательного этапа к
обобщительному. Дескриптивисты сменяются типологами, и т. д. На
данном этапе развития лингвистики перспективная деятельность –
анализ конкретных языковых данных с опорой на достижения
типологов. В первую очередь интересны данные экзотических и
малоизученных языков.
 Одна из лингвистических универсалий
 Язык пирахан (муранские, Южная Америка) [Everett 1986] – якобы
отсутствие рекурсии
 Также минимальный инвентарь фонем, отсутствие числительных,
местоимений
Download