ppt, 1,0M

advertisement
Мастерская лингвиста:
компьютерные инструменты
те, которые есть, и те, которые будут
Владимир Селегей
Институт Лингвистики РГГУ
Лингвистические исследования ABBYY
ЛЛШ, июль 2013
8 июля 2011
Вступление. Чем занимается
компьютерная лингвистика
КоЛинг - это инженерная и научная
деятельность, нацеленная на:
 компьютерное моделирование языка
(создание моделей языкового поведение
человека);
 решение практических задач, связанных с
использованием языка на компьютере
(создание методов решения определенных
задач).
 Как связаны (и связаны ли) эти цели?

Мастерская лингвиста
Анализ языка: два подхода
Лингвистический подход:
 Язык – это устройство для «кодирования» (смысла)
с помощью системы специальных средств в целях
коммуникации.
 Но что такое «смысл», который нужно передавать и
распознавать?

Мастерская лингвиста
Анализ языка: два подхода
 «Символьный» подход (статистический,
дистрибуционный и т.п.)
 Язык
– это устройство неизвестной структуры
(черный ящик), производящий огромное количество
образцов в виде цепочек символов, слов,
предложений, текстов.
 Возможно (математически) анализировать тексты,
не обращаясь к их «смыслу»
(например, изучать
сходство текстов
на основании
распределения в них слов).
Мастерская лингвиста
Всегда хромающие аналогии
Как научиться летать: авиастроение
vs. орнитология:
 Как обыграть чемпиона мира по
шахматам: IBM Deep Blue vs. теория
Ботвинника
 Как сделать машинный перевод:
Google vs. лингвистическая теория
перевода

Мастерская лингвиста
Завершая вступление
При очевидном различии этих подходов они
оказались сегодня нужными друг-другу.
 В частности, в рамках «символьного» подхода
были разработаны эффективные методы анализа
языка, которые могут применяться для создания и
верификации собственно лингвистических
описаний, и должны входить в арсенал
исследовательских инструментов каждого
лингвиста.
 К ним относятся:




корпусные методы анализа языка
методы машинного обучения
методы экспертной оценки (краудсорсинг и проч.)
Мастерская лингвиста
Наводящий вопрос

Как правильно поставить лингвистический
эксперимент и получить результат быстро?
 Конь перепрыгнул барьер
 Конь перепрыгнул через барьер
Есть ли разница в значении, и как это
доказать?
Мастерская лингвиста
Темы для обсуждения
Насколько точны и полны имеющиеся
описания языка?
 Насколько адекватны, надежны и
точны инструменты, с помощью
которых мы изучаем язык?
 Насколько мы умеем ими
пользоваться?

Мастерская лингвиста
Почему сегодня эти вопросы кажутся
более важными, чем раньше
Появление Интернета создало новую среду
для создания и хранения текстов и новые
коммуникационные возможности:
 Объем доступных для изучения текстов и
количество авторов увеличилось на 4-5
порядков
 Возникли новые жанры, например т.н.
социальные медиа.
 В центре внимания (от науки до рекламы)
оказываются различия в языковом
поведении.

Мастерская лингвиста
Русский язык – объект изучения и описания
разных наук
Что объединяет исследователей?
 Общая базовая теоретическая платформа,
разделяемая всеми дисциплинами?
 Общая совокупность языковых фактов,
признаваемая в качестве материала для
изучения и описания русского языка?
 Мы переживаем эпоху перехода от
субъективной кабинетной -- к объективной
корпусной и интернет-лингвистике и
лексикографии - все ли в порядке с этим переходом?
Мастерская лингвиста
О профессиональной и
любительской лингвистике
 Изучая
языковое поведение авторов Интернета, мы
можем изучать общественные процессы.
 Простые лингвистические технологии поиска (Google,
Яндекс, etc) становятся инструментами такого
изучения, доступными как профессионалам, так и
любителям.
 И любители, и профессионалы, оказываются
чрезмерно доверчивыми, основывая весьма
глобальные выводы на статистике, полученной
неизвестным путем и часто – на языковых данных
неизвестного состава.
Мастерская лингвиста
Факты об интернет-поиске

Только небольшая часть WWW индексирована (по
оценкам для Гугла 5%). Много интересных данных
на сайте http://www.worldwidewebsize.com
Мастерская лингвиста
Независимых индексов становится все
меньше…
Мастерская лингвиста
Поисковики как лингвистические
инструменты
Только небольшая часть WWW индексирована (по
оценкам для Гугла 5%).
 Число независимых индексов стремительно
снижается
 Выбор индексируемого поисковиком в Интернете
определяется прежде всего бизнес-стратегией
 Количественные данные о выдаче являются
результатом сложных приближений
 Пользователь может увидеть (и проверить) только
небольшую часть выдачи (не более 1000 страниц)

Мастерская лингвиста
Масштабирование результата
Сколько A?
Результат
3751 стр.
Масштаб 1:1500
Мастерская лингвиста
5626500 стр.
«Недокументированные» возможности
Трудно представить себе доверчивого физика,
который проводит эксперименты на оборудовании,
принцип действия которого ему непонятен. В
«корпусных» исследованиях это обычное дело.
 Использование для лингвистических исследований
интернет-поисковиков требует изощренных
методов перепроверки результатов, о важности,
которых, увы, мало кто догадывается, и еще
меньше – ими владеет.
 О гугликах, гуглении и аксиомах яндексарифметики и теории множеств.
 Проблемы с «предикторами»

Мастерская лингвиста
Об устойчивости поиска в Интернете
и верности аксиом арифметики
Сравнительная частота вариантов «на украину»
«в украину» и «украину» по данным Яндекса

Место поиска (15.03.2013) «на У-ну» «в Уну» «У-на»
-----------------------------------------------------------------------Петербург
951 тыс. 2 млн 2 млн

Москва

4 млн 14 млн
Мастерская лингвиста
5 млн
Корпусная альтернатива интернетпоисковикам
Корпусом Х языка Y называется коллекция
текстов, обладающая следующими
свойствами:
 для нее явно указан принцип отбора
объектов X (что позволяет в теории оценить

полноту и другие свойста);
имеются методы поиска и подсчета
статистики, основанные на разметке;
 разметка бывает лингвистическая и
метатекстовая.
 Является ли Интернет корпусом?

Мастерская лингвиста
О корпусах, корпусометрии и
методиках корпусных исследований
Современная лингвистика является
преимущественно корпусной:
 Большинство лингвистов рассматривают корпуса
устной или письменной речи и как объект, и как
инструмент анализа.
 Ключевая роль корпуса находится сегодня в
разительном контрасте с экспериментальной
наивностью большинства исследователей:
 Объективные причины методических просчетов:
отсутствие адекватных корпусных инструментов
и/или изъяны в работе этих инструментов (что,
впрочем исследователю хорошо бы осознавать).

Мастерская лингвиста
О языковых данных, средних по корпусу

Резюме исследования (типичный пример из портфеля «Диалога») :







Материалом для исследования стали данные Национального
корпуса русского языка / (вар.) данные, полученные из Интернета
c помощью Яндекса. На момент написания работы количество
вхождений для каждой конструкции составило: конструкция А –
150 вхождений; конструкция B – 650 вхождений; конструкция C –
350 вхождения. Таким образом, можно говорить о…
Вопросы, оставшиеся без внимания:
сколько вхождений, сколько документов, сколько авторов;
с какой временной динамикой,
с каким распределением по параметрам метатекстовой
разметки (социолингвистической, региональной, жанровой?
нет ли в выдаче дублетов или результатов действия иных
систематических факторов, «накручивающих» счетчик.
Насколько объем данных в корпусе достаточен для
сделанных выводов?
Мастерская лингвиста
Что содержит корпус X?

Корпусом Х языка Y может называться собрание текстов с
явно указанными принципами отбора объектов X
(позволяющими в идеале оценить соответствие замысла и
исполнения по некоторым критериям).







Например:
корпус детских рассказов о сновидениях;
звуковой корпус «Один речевой день».
параллельный русско-немецкий корпус текстов переводов
романа «Идиот»;
корпус региональных СМИ России (Интегрум, Медиалогия);
Параллельный корпус документов Европарламента Europarl
(на всех языках Евросоюза);
корпус текстовых расшифровок переговоров шоферовдальнобойщиков на трассе Москва-Ростов летом 2011 г.
Национальный Корпус Русского Языка - НКРЯ (что это
значит?)
Мастерская лингвиста
Корпус как язык (масштабирование)



Предполагается возможность создания
универсальных корпусов языка L, которые
содержали бы языковой материал, адекватный (по
замыслу создателей) для любых
исследовательских задач.
«Национальный корпус Русского Языка
представляет данный язык на определенном этапе
(или этапах) его существования и во всём
многообразии жанров, стилей, территориальных
и социальных вариантов и т. п.» (из авторского
описания НКРЯ).
Гипотеза: Национальный корпус языка L и есть
универсальный корпус языка L.
Мастерская лингвиста
Корпусные беды
Неактуальность
 Недостаточность данных
 Несбаланстрованность
(дифференциальная неполнота)
 Малый объем размеченных текстов

Мастерская лингвиста
Жизнь, корпус и словарь











Какой из 3 вариантов вы бы использовали:
переадресование; переадресовка; переадресация?
Словарь (БАС, БТС).
Основное слово: переадресование.
На него ссылается: переадресовка
Отсутствует вовсе: переадресация
Корпус :
НКРЯ 20 век:
НКРЯ 21 век:
Журнальный зал:
Самиздат:
Блогосфера
(1-7.11.2011 г)
1/ 8 /2
0/ 4 /8
1 / 17 / 18
2 / 35 /120
0 / 6 / 600
Мастерская лингвиста
Сравнительные частоты употребления
100
90
80
70
60
переадресование
50
переадресовка
переадресация
40
30
20
10
0
Словари
НКРЯ
Самиздат
Мастерская лингвиста
Блоги
Еще об актуальности
Цитаты:
Куда пойти молодым стартаперам? Выбор в
Москве большой: хайкспейсы, антикафе,
коворкинги.
 Хакспейс — это в первую очередь социальный
институт, в составе которого коворкинг —
лишь одна из функций
 Коворкинг – это пространство для
круглосуточной работы, встреч и переговоров в
легком неформальном стиле в домике с
высокими потолками, и панорамными окнами в
Нескучном саду.


Мастерская лингвиста
Еще об актуальности

Результаты поиска
в основном корпусе НКРЯ:
коворкинг
хакспейс
По этому запросу ничего не найдено.
 Т.н. замкнутые (составленные вручную
корпуса) не годятся для изучения активных
лексических процессов в языке

Мастерская лингвиста
Корпусные беды
Неактуальность
 Недостаточность данных
 Несбаланстрованность
(дифференциальная неполнота)
 Малый объем размеченных текстов

Мастерская лингвиста
Как правильно поставить лингвистический
эксперимент и получить результат быстро?
Конь перепрыгнул барьер
 Конь перепрыгнул через барьер

Есть ли разница в значении, и как это
доказать?
Мастерская лингвиста
О достаточности объема
корпусных данных
Мастерская лингвиста
Частоты в блогах ЖЖ (ГИКРЯ)

перепрыгивать "барьер"
перепрыгивать "через барьер"
перепрыгивать "препятствие"
перепрыгивать "через препятствие"
перепрыгивать "забор"
перепрыгивать "через забор"
перепрыгивать "яму"
перепрыгивать "через яму"
перепрыгивать "ручей"
перепрыгивать "через ручей"
перепрыгивать "лужу"
перепрыгивать"через лужу
Мастерская лингвиста
92
81
74
63
410
800
48
34
87
123
212
235
Распределение выражения «хотеть
перепрыгнуть» по годам (НКРЯ)
Мастерская лингвиста
Корпусные беды
Неактуальность
 Недостаточность данных
 Несбаланстрованность
(дифференциальная неполнота)
 Малый объем размеченных текстов

Мастерская лингвиста
О ценности температуры, средней по корпусу
Привлечение к исследованию огромного языкового
материала требует ясного понимания его
принципиальной неоднородности как гарантии
объективности полученных результатов.
 Опирающаяся на корпусные исследования
лингвистика должна быть дифференциальной:
основываться на тщательно проработанных
моделях жанровых, социолингвистических,
региональных различий.

Мастерская лингвиста
Еще раз об Украине: дифференциальная
оценки по регионам (корпус ГИКРЯ)
Мастерская лингвиста
Дифференциальная лексикография
«Языки русских городов»
 Проект (www.lingvo.ru) описания
региональных различий на основании
анализа «городских» письменных
источников (СМИ, блогосфера).
 Более 5000 словарных единиц
регионально нормативной лексики

Мастерская лингвиста
Мастерская лингвиста
Мульда, пухто и альтфатер
100
90
80
70
60
Мульда
Пухто
Альтфатер
50
40
30
20
10
0
Ижевск
Одесса
Петербург
Мастерская лингвиста
Что в словарях и энциклопедиях:
В 3 изд. «Большой советской энциклопедии» сообщается,
что:



контр-адмирал В. М.Альтфатер «Родился в
дворянской семье ‹…› перешел на сторону
Советской власти, участвовал в мирных
переговорах в Бресте ‹…› Сыграл видную роль в
создании советского ВМФ и обороне Петрограда».
Мульда — «в сталеплавильном производстве —
стальная, обычно литая коробка для загрузки
шихты».
Про пухто ничего не сообщается.
Мастерская лингвиста
В Ижевске:
В Решении Городской Думы г. Ижевска «Об
утверждении Правил обеспечения чистоты и
порядка на территории застройки
индивидуальными домовладениями г. Ижевска»
от 31.10.2002 говорится:
Совместно с председателями уличных
комитетов определить и согласовать с
Центром Госсанэпиднадзора места
расположения мульд и график вывоза
бытовых отходов;
Мастерская лингвиста
В Петербурге:
«Приказ» территориального управления
Василеостровского административного района
Санкт-Петербурга от 25.07.2002:
О проведении конкурсов путем запроса
ценовых котировок по выбору
поставщиков компьютеров и
разработчиков электронных слоев
(уборочных территорий, размещения
пухто, свалок и урн) для нужд
территориального управления.
Мастерская лингвиста
В Одессе:
Газета «Юг», Одесса; 18.11.2004
:
По полутемным улицам мимо ярко освещенных
окон особняков чиновников нового президента
идут от альтфатера к альтфатеру стройные
колонны осчастливленных новой пенсией
украинцев. Их обгоняют веселые ватаги
бездомных ребятишек — как же не радоваться,
ведь молодость и скорость берут свое: они
могут урвать лучший кусок из общественного
альтфатера!
Мастерская лингвиста
Региональная грамматическая норма

Председатель Союза журналистов Удмуртии
Людмила Прокошева (в интервью):
Мой отец – удмурт, а мама – русская, из потомственных
дворян, и я очень жалею, что не знаю удмуртского языка ‹…›
Приедешь, бывало, на ферму, колхозники толкуют о своих
проблемах, а ты хоть не толкай соседа: «О чем речь?»

Нейтральный стиль газеты:
Беда, да и только: хоть в Красную книгу не заноси этих
умных животных [лошадей], вдруг оказавшихся на сельских
задворках (Удм. правда; 17.01.2002).
Мастерская лингвиста
В Удмуртии как везде:
Два«правильных» примера с «хоть … не»:


С киндером в рюкзаке на улицу хоть не выходи тетки заколебали уже просто.
Как жизнь тосклива, хоть не живи!!!
Мастерская лингвиста
Вне Удмуртии невозможное:














хоть не вешайся
хоть не умирай от тоски
хоть не скупай ближайшие 5 билетов
хоть не линяй в другую страну
хоть не пиши себе на лбу: 'Я замужем'
хоть не бери эти эректоры вместо зарплаты
хоть не рой себе умиральную яму
хоть не иди и не удавись
доброе утро хоть не говори
Хоть, не делай официального заявления
хоть не звони в олимпийский комитет
в голове не держится информация, хоть не конспектируй
Эмоций хоть не отбавляй
…
Мастерская лингвиста
Типы различий, которые должны
отражатсья в корпусе

Характеристики авторов:
Региональные
 Гендерные
 Возрастные
 Социальные
 Профессиональные


Характеристики текстов:

По назначению -- жанровые отличия
(функциональные стиль, регистр и проч.)
По тематике -- тематические отличия

Мастерская лингвиста
Сколько жанров можно
разместить на кончике иглы?
Одним из самых очевидных
дифференциирующих язык параметров
являются текстовые жанры.
 Существует ли единая система жанров,
разделяемая всеми или хотя бы
большинством исследователей?
 Как диагностировать жанр:
идентифицирующие признаки для
аннотатора, возможности автоматического
определения.

Мастерская лингвиста
Примеры жанровых классификаторов
Знаменитый Брауновский (Brown) корпус: (500 образцов по 2000
слов в каждом в 15 выделенных жанрах):
A) Press: reportage, B) Press: editorial, C)Press: Reviews, D) Religion,
E) Skill and hobbies, F) Popular lore, G) Belles-lettres, H) Miscellaneous,
J) Learned, K) Fiction: general, L) Fiction: mystery and crime, M)
Adventure . . .
 Британский национальный корпус BNC -- около 4,000 текстов,
классифицированных по 70 жанрам: (ac.med, ac.tech, non-ac.tech,
news. . . ), medium (book,periodical, ephemeral, . . . ), audience, . . .
 Каталог британской библиотеки (несколько сотен жанров для
художественной литературы); Adventure stories, Detective stories,
Picaresque literature, Robinsonades, Sea stories, Spy stories, Thrillers,
Allegories, Didactic fiction, Fables, Parables, Alternative histories,
Dystopias, Bildungsromane, Arthurian romances, уес. . .


Классификатор Адамчика [Adamzik (1995)] - около 4 тысяч
жанров, являющихся сокращением еще большего классификатора
(shortened from Dimter's (1981) list of 6,650 items)
Мастерская лингвиста
Фрагмент классификатора Адамчик
Мастерская лингвиста
Мастерская лингвиста
Корпус и его значимые характеристики



Сбалансированность и репрезентативность
(представительность). Иногда эти понятия рассматриваются
как эквивалентные.
НКРЯ: «Национальный корпус ... характеризуется
представительностью, или сбалансированным составом
текстов. Это означает, что корпус содержит по
возможности все типы письменных и устных текстов,
представленные в данном языке (художественные разных
жанров, публицистические, учебные, научные, деловые,
разговорные, диалектные и т.п.), и что все эти тексты
входят в корпус по возможности пропорционально их
доле в языке соответствующего периода»
Как доказать, что корпус обладает указанными
характеристиками?
Мастерская лингвиста
Корпусные беды
Неактуальность
 Недостаточность данных
 Несбаланстрованность
(дифференциальная неполнота)
 Малый объем размеченных текстов

Мастерская лингвиста
О важности разметки

Разметка – основание для специфицированного
лингвистического поиска:




морфология
синтаксис
семантика (снятие омонимии)
онтологическая разметка (связь с моделью мира)
Разметка – основание для применения методов
машинного обучения на корпусах.
 Как обстоит дело с разметкой в имеющихся
корпусах? - ее мало, потому что она делается вручную;
 она не всегда достоверна

Мастерская лингвиста
Запрос и результат поиска

Поэтому, чтобы заверить гостей в своем миролюбии, хозяин
не только наливал немного вина сначала в свой бокал и
выпивал его, но и все гости в ходе застолья неоднократно
"обменивались вином", то есть отливали из своего бокала в
бокал соседа, а затем символически соединяли бокалы чокались (!)
Мастерская лингвиста
Дерево разбора (система Compreno)
Мастерская лингвиста
Сколько бывает вопросов
1.
2.
3.
4.
5.
Обращение, требующее ответа.
Задать вопрос докладчику. Ответы на вопросы ЕГЭ по
русскому языку .
То или иное положение, обстоятельство как предмет
изучения и суждения, задача, требующая решения,
проблема. Национальный вопрос. Поднять вопрос. Вопрос
ребром поставить. Оставить вопрос открытым. Изучить
вопрос. Вопрос ясен.
Дело, обстоятельство, касающееся, зависящее от чего-н.
Положительное решение - вопрос времени. Вопрос чести.
Вопрос жизни и смерти.
Нечто неясное, до конца неизвестное (разг.).
Поедем или нет - это еще вопрос
Разберем: Быть или не быть - вот в чем вопрос.
Мастерская лингвиста
Корпусная лингвистика невозможна
без применения КЛ-технологий
Язык требует корпусного изучения (такова
его динамика и неоднородность)
 Корпусное изучение языка требует
адекватного инструментария: по объему
языков фактов, по составу, по
функциональности.
 Корпусные инструменты с нужными
свойствами могут быть получены только в
результате применения технологий КЛ:
сбора и отбора документов, их «очистки»,
разметки и т.п.

Мастерская лингвиста
Проект Генерального Интернеткорпуса Русского Языка (ГИКРЯ)





ГИКРЯ – проект создания корпуса для целей
дифференциальной лингвистики и лексикографии, объемом
ок. 50 миллиардов словоупотреблений (посредине между
НКРЯ и Рунетом).
В ГИКРЯ будут представлены все существенные социальные,
жанровые, тематические сегменты Интернета. Одна из
основных целей проекта – разработка соответствующих
методов классификации
Совместный проект Института Лингвистики РГГУ, МФТИ,
ABBYY, университета Лидса.
Корпус будет размещен на сайте www.webcorpora.ru (там
можно найти связанные работы)
Участники проекта: В. И. Беликов, Н.В. Копылов, А.Ч.
Пиперски, В. П. Селегей, С. А. Шаров
Мастерская лингвиста
Спасибо за внимание!
Мастерская лингвиста
Download