ppt, 5,7M - Летняя лингвистическая школа

advertisement
Лингвистически
ориентированный
поиск в интернете
Владимир Иванович Беликов
(МГУ и РГГУ)
Летняя лингвистическая школа 2013
Лингвистически ориентированный поиск в
интернете,
но речь пойдет практически только о лексике, хотя и
о грамматике в интернете можно найти нечто
занятное.
Общий план:
• некоторые важные общие понятия;
• инструментарий, применяемый для поиска,
связанного с языком:
• что можно узнать про русский язык, если
аккуратно пользоваться полезным
инструментарием.
Важные понятия:
узус, норма, кодификация
• Узус — фактическое словоупотребление:
звóнит~звонúт, воры́~вóры.
• Норма — социально одобренное,
напр., в уголовном мире: воры́.
• Кодификация — норма, фиксируемая словарем
(или иным изданием справочного характера). Кодификация характерна для
литературного языка (в частности, кодифицировано звонúт, вóры), а также для
различных терминосистем.
Исходные положения:
норма существует объективно,
кодификация субъективна
В. А. Ицкович (Очерки синтаксической нормы, 1982):
Норма это «комплекс закрепленных речевой практикой
языковых средств и закономерностей их реализации»,
объективно существующих «в данное время в данном
языковом коллективе». «Имплицитно норма выступает в
виде образца или, точнее, текстов, считаемых
образцовыми»
«Кодификация — это фиксация объективно
существующей языковой нормы, сформулированная в
виде правил (предписаний)».
Исходные положения:
(литературная) норма социально разнородна
Норма — то, как говорят те, чей язык считается
образцовым «в данное время в данном языковом
коллективе».
В «языковой коллектив» объединяются лица со сходными
социальными (любыми небиологическими)
характеристиками.
Мотивированность отдельных социальных характеристик
индивида может быть:
биологической
• возраст,
• гендер
и пространственной,
поскольку территориальные сообщества представляют
собой иерархически упорядоченные социальные
организмы.
Что охвачено кодификацией:
• Правописание (орфография
и пунктуация);
• Орфоэпия;
• Морфология;
• Синтаксис;
• Словарь.
Шрифтовое выделение отражает степень
кодифицированности (и кодифицируемости).
Я буду говорить о блогосфере как источнике знаний о лексической норме (не только
литературной). Но начну с того, что и как
кодификацировано толковыми словарями
На периферии словаря
кодификация часто ненормативна
Создатели толковых словарей «ориентируются в
первую очередь на собственный узус, во вторую —
на узус своего круга, но лишь настолько, насколько
этот узус пассивно знаком самим лексикографам»
[В. И. Беликов. Стереотипы в понимании литературной нормы]
В результате кодификация может
существенно отставать от состояния нормы,
заведомо ей не соответствовать,
быть неполной или ошибочной.
1 сорт: (1) лопаточная часть; (2) спинная часть (корейка);
(5) грудинка; (3) поясничная часть с пашиной; (4) окорок;
2 сорт:
(7) р у л ь к а;
(8) г о л я ш к а;
(6) баки с шейным зарезом.
(ГОСТ 7597-55 Взамен ОСТ НКПП и НКВТ 8474/24)
1955 год! Этот ГОСТ действует, но в новой редакции, без баков.
В словарях:
голяшка второй сорт?
рулька — еще ниже?
• Ушаков: голяшка: нет слова, рулька: нет слова.
• 17-БАС (т. 3 1954, т. 12, 1961): голяшка: нет слова,
рулька: нет слова.
• МАС: рулька: нет слова.
голяшка Прост. и обл. То же, что голень. Мне холодно,
ноги мерзнут в валенках, и голяшки мои щиплет и
обжигает огнем. Гладков, Повесть о детстве.
• БТС: рулька: нет слова.
голяшка Разг. 1. =Голень. ‹…›
2. Нижняя часть ноги животного.
• Шведова (2007): голяшка: нет слова, рулька: нет слова.
• Новый БАС: рулька — ? [том не вышел].
голяшка [т. 4, 2006] 1. Прост. То же, что голень ‹…›
2. Разг. Нижняя часть ноги животного ‹…›
3. Прост. Голенище ‹…›.
Где здесь камыш ?
Phragmites australis
Шведова 2007
Typha latifolia
Scirpus lacustris
Большой толковый словарь (gramota.ru)
Водяное или болотное злако- Водяное или болотное злаковое растение с
вое растение с коленчатым
пустотелым или губчатым коленчатым
твёрдым стволом.
стволом.
Многолетняя высокая болотная трава, копьевидный
тростник [сем. рогозовых].
Водное или болотное травянистое растение
(используется как корм, строительный
материал, для производства бумаги и
плетёных изделий) [сем. рогозовых].
Высокое водное или болотное растение сем. осоковых.
Высокое травянистое растение сем. осоковых,
растущее по берегам рек, озёр, на болотах
«Толковый словарь русского языка» Н. Ю. Шведовой (2007):
● белорыбица: ‘северная промысловая рыба сем. сиговых
с серебристой блестящей чешуей’.
● нельма: ‘крупная северная рыба сем. лососевых’.
Stenodus leucichthys, белорыбица = нельма
БТС:
НЕЛЬМА, -ы; ж. Ценная промысловая рыба северных рек и морей
сем. лососевых.
БЕЛОРЫБИЦА, -ы; ж. только ед. (???) Ценная промысловая рыба
сем. лососевых с серебристым телом и белым брюхом.
Пометы при единицах словаря —
тоже элемент кодификации.
В МАСе есть три слова для обозначения пихтового леса:
пихтовник (без помет)
пихтарник (разг.)
пихтач (прост.)
В базе СМИ «Интегрум» есть 37 номеров этого журнала
«Лесное хозяйство» за 2002—2008
пихтовник
— не встречается
пихтарник
— 14 текстов
пихтач
— 4 текста
пихтарник и пихтач — 1 текст
Это профессиональная норма. С региональной нормой
в местах произрастания пихты чуть сложнее.
В 2011 г. выходит 16 том нового «Большого академического
словаря», противоречащие норме пометы сохраняются.
Какого рода слова
• мацони?
• медресе?
Может быть, то что описано в грамматиках,
смотреть надо там, а не в словарях?
В академической грамматике читаем:
«Некоторые несклоняемые существительные,
оканчивающиеся на гласную и называющие
неодушевленные предметы, относятся к жен. р., например:
‹…› мацони ‘простокваша’, медресе ‘мусульманская
духовная школа’ ‹…› очевидно, под влиянием
грамматического рода (соответственно) слов: ‹…›
простокваша, школа» [Грамматика-80, т. 1, стр. 469].
Оба слова достаточно редкие, но в тех словарях последних
десятилетий, куда они попали (толковых, иностранных слов,
орфографических, орфоэпических) медресе маркируется
только средним родом, мацони — либо средним и женским,
либо только средним.
Мацони — не более простокваша, чем кефир: и то, и другое, и третье
— сквашенное молоко (средний род!) или же кисломолочный
продукт (мужской род!), а медресе с неменьшим успехом
оказывается духовным училищем.
Перехожу к основной части:
лингвистически
ориентированному
поиску.
Статистикой, полученной в интернете, я пользуюсь давно и
достаточно давно пишу об этом (впервые — в Yandex как
лексикографический инструмент, Диалог-2004)
Занятие это не хитрое и достаточно распространенное.
Но даже Богу молиться следует аккуратно, дабы не нанести
себе серьезных увечий.
Распространенный метод интернет-статистики — получить
некие числа, погуглив в интернете. (Узус таков, что
Яндексом тоже гуглят.)
Выраженный в числах результат измерений имеет
размерность: вольты, ватты, узлы, кубические сажени,
четверти ведра, дюймы и т. п.
В чем измеряется выдача Гугла и Яндекса?
Типичное утверждение любителя
интернет-статистики:
Например, написание Таллинн встречается в
Интернете 6 млн раз, а Таллин 4 млн раз,
употребление предложно-падежной словоформы
в Украине использовано на 62 млн страниц
Интернета, а словоформа на Украине
употреблена на 60 млн страниц. Написание
Кыргызстан использовано 6 млн, а Киргизия —
10 млн раз.
С. А. Кузнецов, Языковая норма и правила речевой
деятельности // Комментарий к Федеральному закону
«О государственном языке Российской Федерации».
Часть 1. Доктринальный и нормативно-правовой
комментарий, стр. 32.
При запросе "Украину" должны находиться тексты типа
Люблю Украину, инвестировать в Украину, волнуюсь
за Украину, еду на Украину, подкоп под Украину через
Тузлу и прочее.
Всего "Украину" «нашлось на 136 млн страниц»:
Любители высказывания «… встречается в Интернете
… млн раз» легко решат уравнение: 321+310+x = 136.
(я не решал — жалко времени на интерпретацию)
«Ну, подумаешь, Яндекс… Вот Google…»
Таллинн погугленный (начало 2010 г.) в деталях таков:
Таллинн без кавычек: 2 млн 40 тыс. страниц.
Поиск по отдельным словоформам:
Таллинн
192000
Таллинны
Таллинна
264000
Таллиннов
Таллинну
146000
Таллиннам
Таллинном
98700
Таллиннах
Таллинне
396000
Таллиннами
всего ед. ч.: 1096700
всего мн. ч.
785
71
36
39
34
965
(скриншоты имеются)
Итого: совокупно на другие словоформы ед. и мн. числа, а также
на словоформы двойственного и других чисел, не омонимичные
просмотренным: 2040000–1097665=942335.
(Поскольку в текстах про Таллинн он упоминается в разных
падежах, многие документы встречаются в двух и более
выдачах, так что документов с неэкзотическими словоформами должно быть сильно меньше миллиона, соответственно, в
большинстве текстов Таллинн должен встречаться в формах
типа Таллиннаай, Таллинныюхх и других похожих.
В следующей таблице приведены данные
одиннадцати поисков про Украину:
А
"на украину"
Б
"в украину"
В
"украину"
Поиск от 12.08.2011 в Угловке Новгородской обл.
1
без ограничения региона
310 млн
321 млн
136 млн
Поиск от 14.03.2013 в Петербурге
2
3
без ограничения региона
✓в Санкт-Петербурге
138 тыс.
951 тыс.
196 тыс.
2 млн
3 млн
2 млн
Поиск от 15.03.2013 в Москве
4
5
без ограничения региона
✓в Москве
4 млн
3 млн
14 млн
6 млн
5 млн
69 млн
Поиск от 23.06.2013 в Угловке Новгородской обл.
6
7
8
9
10
11
без ограничения региона
✓в Москве
✓в Санкт-Петербурге
✓в Великом Новгороде
✓в Окуловке по релев.
✓в Окуловке по дате
[забыл сделать]
3 млн
948 тыс.
278 тыс
3 тыс.
13 тыс.
16 млн
5 млн
2 млн.
492 тыс.
3 тыс.
10 тыс.
5 млн
86 млн.
28 млн.
736 тыс.
967 отв.
3 тыс.
Четыре вопроса:
1. Каких текстов должно
быть больше:
Украина && блок
или
Украина & блок?
2. В каком случае
число таких текстов
будет одинаково?
3. Как вы оцените долю
текстов
Украина & блок?
4. Что выдается на
запрос
Украина блок?
ввв
Эти результаты надо согласовать со следующими:
• ммм
Можно строить не только Новую
арифметику, но и Новую теорию
множеств на новой аксиоматике.
Осталось только придумать эти науки.
Тупое гугление никогда не
приводит ни к каким осмысленным
результатам.
Прежде, чем переходить к действительно
полезному инструментарию, о том,
с которым работать следует осторожно.
Но сначала один важный экскурс.
Экскурс в частотные словари
одежда
рубашка
ботинок
костюм
галстук
водка
война
Штейнфельдт
1963 (на 1 млн
словоупотр.)
60
67,5
52,5
105
95
45
355
Засорина 1977
49
53
24
49
21
88
825
М. А. Кронгауз в статье «Мем в русскоязычном
Интернете: опыт деконструкции» («Русский язык
как глобальный ресурс и новые технологии», изд.
НЛО, в печати), основываясь на данных Пульса
блогосферы, о выражении йа криветко делает
такой вывод:
«Всплеск популярности мема приходится на
2007—2008 гг., а со второй половины 2009 г.
начинается спад».
Вот в разумном масштабе интересный фрагмент.
Видно, что "йа креведко" (синим) в феврале 2009
чуть меньше, чем йа криветко в феврале 2007.
А за два следующих года, к февралю 2011, йа
креведко уменьшилось почти втрое.
Посмотрим, каково общее число записей, в которых авторы
ассоциирует себя с теми гадами морскими, которые
современная систематика относит к инфраотряду Caridea. Но
кроме абсолютных цифр нужен эталон для сравнения. Мем
представляется целесообразным сравнивать с другим
мемом, причем функционирующим в той же социальной
среде. Так что Ленин — гриб, не очень подходит, а Превед
Медвед — вполне годится.
Эволюция числа записей, содержащих эти два мема,
выглядит следующим образом:
февраль 2007: йа криветко — 170, Превед Медвед — 289.
февраль 2009: йа креведко — 225, Превед Медвед — 273.
февраль 2011: йа креведко — 535, Превед Медвед — 423.
За 4 года число креведок обогнало тех, кто передает превед,
хотя выросло по меркам блогосферы незначительно, в три с
небольшим раза.
Среди тех, чьи интересы сконцентрированы на политике, паранауке
или настоящей науке, любителей зваться креведками не много.
С февраля 2007 по февраль 2011 рост популярности
в этих сферах был таков:
"сказал Путин": рост в 4,3 раза;
Новая хронология: рост в 6,0 раза;
Кронгауз: рост в 35 раз.
Вот теперь понятно, кто виноват в том, что в интерпретации
Пульса блогосферы «со второй половины 2009 гг.
начинается спад» популярности мема йа криветко.
Собираясь пользоваться НКРЯ,
стоит и его потестировать.
Каждый знает, какого рода сингулятив
от слова кроссовки.
Но каждый знает по-своему.
Какой род должен встречаться
в НКРЯ чаще?
Логика
Ясна?
Попробуем воспользоваться корпусом со
снятой омонимией. Там во всех текстах все
вхождения только во множественном числе.
Результаты поиска невелики,
но ошеломительны.
При поиске на оба варианта ед. числа текст Аксенова
не находится!
Что можно извлечь из оцифрованных текстов
при аккуратной с ними работе?
Как говорилось, норма имеет три
измерения:
• возрастное,
• гендерное,
• пространственное.
Начту с возрастного.
Полных лет
на 7.07.2013
12—19
20—24
25—29
30—34
35—39
40—44
45—49
50—69
"кроссовком"
"кроссовкой"
44
122
123
83
50
19
11
6
3
37
51
44
32
16
10
13
Доля муж.
рода, %
94
77
71
65
61
54
52
32
Верифицируем следующее высказывание:
«Молодые преподаватели слово хворать
квалифицируют как просторечное, а приболеть
— как разговорное. Преподаватели старшего
поколения иногда с категоричностью выступают
против приболеть, отстаивая литературный
эквивалент захворать, также хворать»
[А. Н. Еремин Основания определения сущности
и границ просторечия // Наше слово. К 80-летию
профессора В. Д. Бондалетова. М.: Элпис, 2009]
Результаты поисков по запросам
"я приболел" | "я приболела" и "захворал" | "захворала":
Все блоги
на 25.10.2012
10—19 лет
приболеть захворать приб. / захв.
452
128
3,5
20—23 лет
869
235
3,7
24—28 лет
892
535
1,7
28—34 лет
524
488
1,1
35—39 лет
232
256
0,9
40—44 лет
101
177
0,6
45—49 лет
65
70
0,9
50—59 лет
58
98
0,6
60—69 лет
14
34
0,4
Смена формы жаргонизма:
Все блоги
на 23.10.2012
10—19 лет
"без балды"
"без булды"
балд/булд
24
0
…
20—29 лет
205
4
51,3
30—39 лет
613
17
30,1
40—49 лет
308
20
15,4
50—59 лет
101
13
7,8
60—69 лет
18
5
3,6
Изменение в литературной фразеологии:
Статистика за 2001 — май 2012 на 2.08.2012
… маленькая
тележка"
13―21 года
23—29 года
31―39 лет
40―49 лет
50—69 лет
"воз и…
"вагон и…
вагон/воз
17
127
173
68
42
201
895
959
347
80
11,8
7,0
5,5
5,1
1,9
Региональная специфика.
Загадочное распределение загадочных слов:
Блоги по
сент. 2012 г.
Москва
Ижевск
Одесса
Петербург
мульда
пухто
альтфатер
110
23
9
35
45
0
0
171
115
0
78
9
В 3 изд. «Большой советской энциклопедии» сообщается,
что:
• контр-адмирал В. М.Альтфатер «Родился в
дворянской семье ‹…› перешел на сторону
Советской власти, участвовал в мирных
переговорах в Бресте ‹…› Сыграл видную роль
в создании советского ВМФ и обороне
Петрограда».
• Мульда — «в сталеплавильном производстве —
стальная, обычно литая коробка для загрузки
шихты».
• Про пухто ничего не сообщается.
В Решении Городской Думы г. Ижевска «Об утверждении
Правил обеспечения чистоты и порядка на территории
застройки индивидуальными домовладениями г. Ижевска»
от 31.10.2002 говорится:
Совместно с председателями уличных
комитетов определить и согласовать с
Центром Госсанэпиднадзора места
расположения мульд и график вывоза
бытовых отходов; маршрут движения и
место сбора бытовых отходов.
Существует «Приказ» (стоило бы использовать скорее
слово распоряжение) территориального управления
Василеостровского административного района СанктПетербурга от 25.07.2002, который озаглавлен так:
О проведении конкурсов путем запроса
ценовых котировок по выбору
поставщиков компьютеров и
разработчиков электронных слоев
(уборочных территорий, размещения
пухто, свалок и урн) для нужд
территориального управления.
Из Одессы я никакого официального документа не нашел,
ограничусь газетной цитатой:
• По полутемным улицам мимо ярко освещенных
окон особняков чиновников нового президента
идут от альтфатера к альтфатеру стройные
колонны осчастливленных новой пенсией
украинцев. Их обгоняют веселые ватаги
бездомных ребятишек — как же не радоваться,
ведь молодость и скорость берут свое: они
могут урвать лучший кусок из общественного
альтфатера! («Юг», Одесса; 18.11.2004)
Региональное распространение
диалектной по происхождению лексики
По данным «Словаря русских народных
говоров» красноголовик ‘подосиновик’
фиксируется в Архангельской, Псковской,
Тверской, Новгородской, Владимирской,
Костромской, Московской областях и на
Среднем Урале. В современном городском
узусе для запада этого ареала слово
совершенно не характерно.
Блоги по сентябрь 2012
Запад ареала СРНГ (Псковск.,
Тверск., Новг., Влад., Костр. обл.)
Архангельская область
Коми
Вологодская область
Нижегородская область
Удмуртия
Кировская область
Свердловская область
Пермский край
«Южный Урал» (Башкирия,
Челяб., Оренб., Кург. обл.)
Тюменская обл. с округами
Сибирь
подосиновик
138
красноголовик
8
красн. от
подос., %
5,8
25
25
43
125
19
20
121
77
202
12
20
7
13
3
12
37
72
12
48,0
80,0
16,3
10,4
15,8
60,0
30,6
93,5
5,9
87
360
26
10
29,9
2,8
(Красным выделены ареалы сельских диалектов по СРНГ)
Мы не можем ждать милостей от природы,
взять их у нее — наша задача
(Мичурин)
У природы не только берем, но
возвращаем с процентами. Гриб
сумзик — эндемик Свердловской
области.
Фотография Михаила Гимадиева
из серии "Промзона".
[foto1uralsk.livejournal.com/74638.html?thread=16526]
Свердловская область:
подосиновик: 121
красноголовик: 37
сумзик:
6
Сумзики зародились в окрестностях
г. Ревды, где находится Среднеуральский медеплавильный завод.
Возможно, правильно писать
СУМЗик; по содержанию меди на
переплавку этот гриб не годится,
но и потреблению не подлежит,
поскольку представляет
серьезную угрозу здоровью.
Уколы делают или ставят?
Результаты запросов (сделать | делать) /2 укол
и (ставить | поставить) /2 укол:
Блоги по авг. 2012
Кир., Нижег., Ульян., Самар., Пенз., Сарат.
обл., Марий Эл, Мордовия, Чувашия
Башкортостан, Татарстан, Оренб. обл.
Удмуртия, Пермский кр. Уральский окр.
Сибирь ( с 04.2009)
Дальний Восток (с 04.2010)
Казахстан (с 11.2011)
Санкт-Петербург(с 04.2011)
Сев.-Зап. без СПб (с 04.2011)
Юг (с 02.2011)
Украина (с 07.2011)
Белоруссия
делать
1608
1148
1132
799
999
910
668
310
933
973
1000
ставить ставить
к делать
170
146
1202
997
685
544
124
39
100
137
72
0,11
0,13
1,06
1,25
0,69
0,60
0,19
0,13
0,11
0,14
0,07
В печатной продукции региональная специфика иногда
проявляется ярче, чем в блогосфере. Вот материалы газет
(база СМИ «Интегрум», начало августа 2007 г.):
Укол…
Запад — юго-запад
Республика Коми
Кировская обл.
Татарстан
Башкирия
Оренбургская обл.
Восток
Ижевск
Пермская обл.
Свердловская обл.
Челябинская обл.
Курган
делать
311
35
39
99
55
83
285
13
91
53
110
18
ставить
6
0
0
2
1
3
295
27
91
83
75
19
Данные СМИ по ареалу ставить уколы:
Зап. и юго-зап. соседи
Основной регион:
Прикамье,
Урал, Сибирь, Якутия
Южная периферия:
Казахстан
Восточная периферия:
Дальний Восток
делать ставить ставить
к делать
311
6
0,02
772
828
1,07
83
17
0,20
253
54
0,21
Oper от (кассовый) чек в официальных судебных документах
проби
(ва)ть
216
выби
(ва)ть
14
отби
(ва)ть
0
270
30
0
41
13
64
16
5
42
17-й Арбитр. апелл. суд (Пермь)
25
5
8
3
22
39
18-й Арбитр. апелл. суд (Челябинск)
53
21
7
Документы арбитражных судов
в базе «Интегрум» по январь 2010 г.
ФАС Московского округа
ФАС Северо-Западного округа
ФАС Уральского округа
в том числе дела из:
Удмуртии, Пермского края,
Свердловской обл.
Башкортостана, Курганской,
Оренбургской, Челябинской обл.
Неожиданная гендерная статистика
"как волка не корми" | "как волка ни корми"
"доброму вору все впору" | "доброму вору
все в пору"
"муж в Тверь жена в дверь"
"дорого яичко к Христову дню"
"стыд не дым"
"была бы шея"
"быстро только кошки"
"у семи нянек дитя" (с 2008)
"при ловле блох" (с 2008)
"дело мастера боится" с 2009
"овчинка выделки не стоит" (с 2010)
"голод не тетка" (с 09.2011)
("на халяву" | "на холяву" | "нахаляву" |
"нахоляву") "уксус" (04.2011—08.2012)
("кто первым встал" | "кто первый встал" |
"кто раньше встал") "тапки"с 2011
"не все коту масленица" (2011—08.2012)
"люби и саночки возить" с 2011
"любовь зла полюбишь и козла" (04-08.2012)
"работа не волк" (06-08.2012)
Ж
М
309 459
38 46
53
115
173
330
334
462
696
771
664
715
703
137
171
377
338
697
943
982
936
962
940
957
749 971
780
763
974
597
860
861
254
886
Еще более неожиданная гендерная статистика:
В мае 2012 г. пользовались выражениями:
так быстро
так мало
так много
такой большой
гораздо длиннее
намного меньше
во много раз
гораздо выше
сильно больше
сильно меньше
заметно меньше
заметно больше
женщины
942
937
977
874
763
657
614
454
417
416
380
289
мужчины
542
623
746
766
906
993
989
923
959
958
940
951
жен. /
муж.
1,73
1,50
1,31
1,14
0,84
0,66
0,62
0,49
0,43
0,43
0,40
0,30
Спасибо
за внимание!,
но еще одна табличка не из PowerPoint’а
Download