EXMARaLDA - NIT - for

advertisement
http://www.exmaralda.org
EXMARaLDA – это аббревиатура для «язык XML для Дискурса Аннотации». Представляет
собой систему понятий, форму представления данных и инструменты как для
автоматизированной транскрипции и аннотации разговорного языка, так и для
построения и анализа корпуса разговорного языка. EXMARaLDA первоначально была
разработана в рамках проекта «Автоматизированные методы для создания и анализа
многоязычных данных» в Совместном Исследовательском Центре «Multilingualism»
(«Многоязычие») (Sonderforschungsbereich "Mehrsprachigkeit" - SFB 538) в Гамбургском
Университете. С июля 2011 года, разработка EXMARaLDA продолжается в Гамбургском
Центре Языкового корпуса. Все компоненты системы EXMARaLDA в бесплатном доступе
пользователям за пределами Университета Гамбурга.
Основные особенности EXMARaLDA:
 Основанная на XML форма представления данных
Все данные EXMARaLDA хранятся в XML-файлах. Использование данного стандарта W3C
обеспечивает гибкое удобство и долгосрочную архивируемость данных.
 Основанные на Java инструменты
Все программные инструменты для создания и работы с данными EXMARaLDA (Редактор
частей, Корпус менеджер и инструмент запроса EXAKT) – это приложения Java. Это делает
их подходящими для всех используемых в настоящее время операционных систем
(Windows, Macintosh, Linux, Unix).
 Совместимость
Методология EXMARaLDA основана на графической структуре аннотации (Bird/Liberman
2001) и это направленно на максимальную взаимозаменяемость и возможность
многократного использования транскрипции данных. Таким образом, можно создавать и
редактировать данные EXMARaLDA не только собственными инструментами системы, но
так же и другими известными программами (например, Praat, ELAN, Transcriber или
FOLKER).
Кроме того, данные EXMARaLDA могут быть преобразованы в ряд широко используемых
форматов (RTF, HTML, PDF) для публикации в веб или печатной публикации. И наконец,
EXMARaLDA поддерживает несколько важных систем транскрипции (HIAT, DIDA, GAT,
CHAT) через ряд параметризованных функций.
1
Демо-корпус EXMARaLDA
Демо-корпус EXMARaLDA – это небольшой корпус, с помощью которого можно проверить
функциональность системы EXMARaLDA.
Демо-корпус содержит
метаданные для
коммуникации и говорящих
Все данные доступны в
нескольких вариантах
транскрипции и
представлении
Транскрипции связаны с аудио
Демо-корпус многоязычен
(англ., нем., турецкий, фр.,
исп.)
Демо-корпус содержит следующие записи и транскрипции:
 Beckhams – Американское ток-шоу с Дэвидом Бекхэмом и его женой
 Monty Python: My Theory – Английская транскрипция Мисс Эльк, представляющей свою теорию о бронтозаврах
(любое сходство с живыми лингвистами простая случайность)
 Paul McCartney: Interview – Английская транскрипция интервью с молодым, амбициозным Полом Маккартни
 Pear Story – Английская транскрипция пересказа Уоллеса Чейфа История Груши
 Rudi Vӧller: Wutausbruch – легендарный приступ ярости менеджера Немецкой национальной футбольной
команды
 Helge Schneider: Tropfsteinhöhle – коротенькая аудио-пьеса Немецкой актрисы Хельги Шнайдер, которая
включает параллели говорящих
 Hubert Fichte: Interview – интервью, проведенное нем. писателем Губертом Фихте в районе Св. Паули, Гамбург
 Helge Schneider: Arbeitsamt – еще одна аудио пьеса Хельги Шнайдер
 Studio Braun: Английский Переводчик – телефонный разговор между ничего не подозревающими продавцом
ластика и членом Студии Браун
 Deutsche Bahn: Rossau – телефонный разговор между мужчиной из Саксонии и Компьютером расписания
поездов Deutsche Bahn
 Studio Braun: Forum Waffenrecht – еще один телефонный разговор из Студии Брауна
 Hart aber fair – отрывок из ТВ ток-шоу «Hart aber fair»
 Anne Will: Halbes Wahlrecht – отрывок из ТВ ток-шоу «Anne Will»
 Serif Issi: Expertenauskunft – Турецкая транскрипция телефонного разговора между экспертом по социальным
вопросам и немного в замешательстве звонящим
 Royal: Dѐbat – Французская транскрипция отрывка из ТВ дебатов между Николя Саркози и Сеголин Роял
 Savater: Hermandad – Испанская транскрипция отрывка из радио-интервью с писателем Фернандо Саватером
 Gaspenini: Calcio – Итальянская транскрипция отрывка из ТВ-интервью с футболистом Кристианом Пануччи
 Nguyen Ngoc Ngan – Вьетнамская транскрипция отрывка из ТВ-интервью с футболистом Nguyen Ngoc Ngan
 Telia Telenor – Шведская /Норвежская транскрипция радио беседы из корпуса «Scandinavian
semicommunication»
 Szymon Majewski – Польская транскрипция из отрывка ТВ ток-шоу
Корпус можно запустить онлайн, начиная с этого обзора (генерирован из файла корпуса
COMA). Для того чтобы пользоваться корпусом офлайн нужно скачать zip file и
распаковать на компьютер.
2
Онлайн-демо (на примере Helge Schneider: Arbeitsamt)
Онлайн-пользование в браузере
Можно использовать корпус онлайн (например, воспользовавшись браузером и не
скачивая данные) для просмотра метаданных, транскрипций и записей.
Обычно начинают с обзора корпуса:
Обзор корпуса состоит из списка коммуникации (слева) и списка говорящих (справа).
3
При нажатии на тему в одном из списков, откроется информация по теме.
Для коммуникации, в верхней части списка указываются метаданные. Сюда входит
список участвующих в коммуникации. Щелчок по говорящему предоставит
соответствующую информацию с списке говорящих. В нижней части список всех
документов (записи, транскрипции, визуализации и эксортные форматы), относящихся к
этой коммуникации.
4
5
А именно:
 Раздел EXMARaLDA связан с Основной транскрипцией EXMARaLDA, которую можно
открыть и редактировать с помощью Редактора частей EXMARaLDA и Сегментированной
транскрипцией EXMARaLDA, чей файловый формат используется для запросов в EXAKT.
 Раздел Визуализация связан с визуализацией музыкального сопровождения в
четырех форматах (HTML, RTF, PDF и XML), в списке высказываний (HTML), в списке слов
(HTML) и (в старых корпусах) в отдельных визаулизациях транскрипции названий
(HTML).
 Раздел Экспорт связан с несколькими форматами экспорта. TEI – это файл XML,
соответствующий принципам Инициативы по кодированию текстов. AG – это файл
графической аннотации, который может использоваться для обмена данными с помощью
разных инструментов аннотаций. EAF – это файл аннотации ELAN, который можно
открыть и редактировать с помощью инструментов ELAN из MPI, Неймеген. Praat – это
TextGrid, который можно открыть и редактировать с помощью программы Praat. CHAT –
это формат файла редактора CLAN CHILDES. И наконец, FOLKER – это файл, который
можно открыть с помощью редактора транскрипции FOLKER IDS, Мангейм.
Визуализация HTML
При просмотре HTML версии визуализации музыкального сопровождения (и если корпус
поддерживает аудио-записи) вам предоставят транскрипцию, связанную с флэш аудиоплеером:
6
В музыкальном сопровождении при нажатии на любую маленькую стрелочку верхнего
ряда, плеер начнет проигрывать с выбранного момента аудиозаписи. Щелчок по любому
числу верхнего ряда музыкального сопровождения перепрыгнет на соответствующее
место в списке высказываний:
Здесь так же при нажатии стрелки около выражения запустится Флэш Аудиопроигрыватель. Кликая по числу в квадратных скобках обратно возвращаетесь к
соответствующему отрезку визуализации музыкального сопровождения.
Программа
Для автономного использования можно скачать корпус целиком. Это особо полезно, если
необходимо самим редактировать данные или сделать запросы корпуса. Для скачивания
корпуса, нужно кликнуть на ссылку ZIP-архива и распаковать на жесткий диск. Это
должно привести к нижеследующей структурированной директории:
В верхней левой директории должен быть файл корпуса .coma (для демо-корпуса – этот
файл называется EXMARaLDA_DemoKorpus.coma – в старых корпусах .xml вместо .coma).
Можно открыть этот файл с помощью корпус менеджера EXMARaLDA для просмотра,
редактирования или запроса метаданных.
7
Для большей информации о том, как делать запросы в корпусе EXMARaLDA, необходимо
посмотреть в документации CoMa и EXAKT.
8
Пример (английской коммуникации Monty Python: My Theory):
При клике на название коммуникации (слева) открываются метаданные (тип, название
проекта, ресурс; говорящие (сокращенный вариант), язык; место (дата, страна); запись
(название, продолжительность), в каком формате (.mp3, .avi, .wav, .ogg, .webm и т.д.);
транскрипция (название, регулировка, алгоритм сегментирования, кто транскрибировал,
правила транскрипции, дата, статус), EXMARaLDA (транскрипция, сегментирования),
способ представления (частично, RTF, PDF, выражения, слова), экспорт (TEI, EAF, Praat,
FOLKER, AG, Chat, Plain text)).
9
При клике на спикера в окне коммуникации откроется информация о нем (справа),
где указываются такие данные: пол, семья (статус), имя; дата, страна рождения; место;
первый язык; где в коммуникации присутствует (список).
Предоставленные файлы в пункте Записи скачиваются, онлайном не прослушиваются.
10
Из пункта EXMARaLDA в формате транскрипции принимает следующий вид:
(начало)
11
(конец)
12
А сегментирование принимает такой вид:
(начало)
13
(конец)
14
Из пункта Форма просмотра, Частично:
15
В формате RTF:
16
В формате PDF:
17
В Виде выражений:
18
В виде списка слов:
19
Экспортировать данные можно в разных форматах. Например, в форме TEI будет
выглядеть как:
20
Файл формата EAF примет вид:
21
В виде файла Praat будет скачиваться, например, как:
Файл FOLKER будет выглядеть как:
Файл вида AG:
22
Файл вида Chat:
23
Файл вида Plain text:
24
Для онлайн аудио-прослушивания или видео-просмотра необходимо выбрать пункт
Способ просмотра: Выражения. В данном случае видео-фрагмент, взятый из ток-шоу,
представляющий собой сам видео-документ в левом верхнем углу. Под ним список
возможных вариантов (ELAN, TEI, Plain text и т.д.). И справа список выражений, где также
указываются данные: значок воспроизведения, номер фразы, номер кадра, автор слов и
само выражение. При нажатии значка плей, начинается воспроизведение с выбранного
момента.
При нажатии на одну из цифр открывается следующее окно:
25
Если кликнуть по мальнькой стрелочке возле номера кадра, начнется воспроизведения
выбранного момента.
26
Download