Многоязычный доступ к информации в проектах Европейской Комиссии (Обзор)

advertisement
Многоязычный доступ к информации в проектах
Европейской Комиссии
(Обзор)
Н.В. Браккер
гл. специалист Центра по проблемам информатизации сферы культуры
[email protected]
Введение
Язык – один из главных барьеров для доступа к веб-ресурсам, из-за которого
значительные части цифрового наследия Европы найти в Интернете невозможно. Те, кто
публикует информацию в Интернете, и люди, занимающиеся ее поиском, должны
обладать равными возможностями, независимо от того языка, который является для них
наиболее предпочтительным.
Европейская Комиссия поддерживала лингвистические технологии в течение 40 лет.
В 1980 – 1990 годах были проведены научные исследования и созданы новые технологии
машинного перевода и переводческой памяти. Европейский Союз не только помогал
финансировать проекты, но и внедрил системы машинного перевода, которые
использовались для перевода постоянно увеличивающегося объема информации.
После некоторого спада интереса к лингвистическим технологиям наступило
осознание огромной важности этих исследований и разработок в связи с новыми
политическими решениями, которые последовали за расширением Европейского Союза.
Добавление одиннадцати официальных языков стран
– членов ЕС прибавило
переводчикам работы, они просто не справляются с наплывом информации. В то же
время, оказывают свое влияние процессы глобализации. Растет число коммерческих
онлайн трансакций. Покупателей, пользующихся Интернетом и не знающих английский
язык, уже значительно больше, чем владеющих английским. Если несколько лет назад
английский был основным языком Интернета, то сейчас объем информационных ресурсов
на других языках, особенно из азиатских стран и арабского мира, увеличилось, и
англоязычный контент покрывает не более 29% всех Интернет-ресурсов. Исследования
показывают, что в странах Европейского Союза два из трех пользователей Интернета
используют только свой родной язык. Это означает, что язык стал существенным
барьером на пути создания единого европейского общего рынка онлайн. Языковые
барьеры влияют не только на коммерческую деятельность, но и на доступ к виртуальным
услугам и информационным ресурсам.
1
В
результате
анализа
этих
процессов
Европейская
Комиссия
выпустила
информационное сообщение «Многоязычие: богатство и целенаправленная политика
Европы»1, за этим последовало создание подразделения2 лингвистических технологий и
машинного перевода. Европа, ее население, его компетенции и разнообразие языков
занимает 50% мирового рынка языковых услуг, и это должно привести к весомым
материальным результатам. Однако до сих пор существуют определенные научнотехнические проблемы, которые необходимо разрешить в ближайшем будущем, чтобы
достойно ответить на вызовы времени. Понимая значение языков в цифровую эпоху, в
Рабочей Программе на 2011 – 2012 годы Европейская Комиссия выделила направление
«Технологии цифрового контента и языков», цель которого – сделать веб-контент
доступным для всех, как для граждан, так и бизнеса.
В Рабочей Программе запланировано 12 конкурсов проектов, которые должны быть
проведены за ближайшие 2 года. 7-й конкурс проектов, объявленный в конце сентября
2010 года, имеет бюджет в 50 миллионов Евро по тематическому направлению 4.2
«Лингвистические технологии». В феврале 2011 года будет объявлен следующий конкурс
с бюджетом 35 миллионов Евро по тематическому направлению 4.1 «Деятельность малых
и средних предприятий в области цифрового контента и языков».
В следующих разделах будет дан обзор проектов, поддержанных Европейской
Комиссией в последние годы в рамках программ Технологии информационного общества
(63-я и 74-я рамочные программы научных исследований и разработок), eContentPlus5 и
Программой
поддержки
политики
по
информационным
и
коммуникационным
технологиям (ICT PSP6), ориентированных на поддержку многоязычия в информационном
обществе. Большая часть проектов не направлена непосредственно на научные
исследования общих проблем многоязычия или технологические разработки широкой
сферы действия, а ставит перед собой совершенно другие задачи, ограниченные
тематически или функционально, при этом решение проблем многоязычного доступа к
информации является важнейшей и необходимой их составляющей. Несколько проектов
имеет целью формирование сообществ специалистов, распространение информации,
оценку качества технологий по многоязычному доступу к цифровой информации.
http://cordis.europa.eu/fp7/ict/language-technologies/docs/multilingual-comm.pdf на английском языке
http://cordis.europa.eu/fp7/ict/language-technologies/upcoming_en.html на английском языке
3
http://www.minervaplus.ru/homepage/fp6projs.htm на русском языке
4
http://www.minervaplus.ru/homepage/fp7projs.htm на русском языке
5
http://ec.europa.eu/information_society/activities/econtentplus/index_en.htm на английском языке
6
http://ec.europa.eu/cip/ict-psp/index_en.htm на английском языке
1
2
2
Многоязычный доступ к информации
В общем виде постановка задачи многоязычного доступа к информации такова:
пользователь должен иметь возможность сформулировать запрос на своем родном языке;
в результате поиска получить доступ к релевантной информации, хранящейся на любом
другом языке; иметь возможность интерпретировать полученные результаты и
группировать их с информацией на других языках; получить перевод результатов на свой
родной язык.
Исследования в области доступа к многоязычной информации (Multilingual
Information Access, MLIA) сосредоточиваются, таким образом, на вопросах хранения,
доступа, поиска и представления информации на любом языке мира.
Исследования ведутся по 2-м основным направлениям:
 многоязычный доступ, который занимается технологиями, обеспечивающими
поиск и просмотр информации, ее отображение, в том числе, кодировку символов,
поддержку
определенных
требований
конкретных
языков
и
шрифтов,
интернационализацию и локализацию;
 поиск и сбор информации на разных языках (Cross-Language Information Retrieval,
CLIR), который занимается проблемами подготовки запроса на одном языке для поиска по
коллекции, содержащей документы на разных других языках, фильтрации, отбора и
ранжирования найденных документов и представления полученной информации в форме,
подходящей для перевода и дальнейшей работы.
Основная проблема в процессе создания системы CLIR заключается в том, чтобы
сопоставить запрос пользователя с коллекцией документов. Для этого и запросы, и
документы должны пройти предварительную обработку и индексирование, чаще всего, с
использованием методов обработки естественного языка (National Language Processing),
уникальных для каждого языка (сегментация текста, игнорируемые слова, выделение
основы слова, морфологический анализ, разложение на составляющие и пр.). Для этого
используются разные подходы, которые предполагают перевод запроса или документа (а
иногда и того, и другого). Системы, работающие с разными языками, как правило,
используют
промежуточный
язык.
Роль
промежуточного
языка
может
играть
искусственный концептуальный язык или естественный язык, обычно это английский
язык. Для перевода используются самые разнообразные методы и технологии:
автоматический (машинный) перевод, системы переводческой памяти, словари терминов,
сокращений, имен, двуязычные словари, многоязычные тезаурусы, онтологии. Наиболее
3
успешно работающие системы используют комбинацию из нескольких средств перевода.
Приемлемое качество перевода достигается системами, ориентированными на одну,
достаточно узкую, предметную область, для которой существуют высококачественные
словари, тезаурусы, онтологии.
Основные трудности CLIR включают: определение языка запроса и документа;
морфологический анализ; выделение имен собственных; выделение терминов; понятия,
состоящие из нескольких слов; устойчивые словосочетания и идиомы; разрешение
омонимии и полисемии. Одновременная обработка многих языков, объединение
результатов из разных источников/носителей, а также представление результатов в
надлежащей форме для конкретного пользователя представляет собой задачу, успешное
решение которой все еще находится на стадии изучения.
Сложнейшей задачей является проведение многоязычного поиска по коллекции
материалов на разных носителях и в разных форматах. Разные носители подвергаются
разным формам обработки и страдают от разных видов ошибок индексирования: устные
документы индексируются с использованием средств распознавания речи, рукописные
документы индексируются с использованием автоматического распознавания символов
(OCR), а коллекции изображений используют индексирование, основанное на выделении
признаков. Поиск в таких случаях предполагает сложную интеграцию разных технологий.
В любом случае внедрение функции доступа к многоязычной информации –
сложный процесс, который включает разные вопросы разных уровней сложности. В
случае многоязычного портала необходимо решить, какое количество языков он будет
поддерживать, какие уровни сайта будут многоязычными, как обеспечить перевод
основного контента на разные языки и как следует работать с обновлениями. Для
моноязычного поиска в многоязычных коллекциях следует решить вопросы кодирования
и представления информации. Для поиска на разных языках следует приобрести
надлежащие средства перевода, которые необходимо поддерживать и регулярно
обновлять. Наконец, представление результатов должно быть сделано в такой форме,
которая поддается переводу и подходит для дальнейшей работы пользователя.
Многие проекты ориентированы на решение проблем многоязычного доступа к
информации с помощью технологий Семантической паутины (Semantic Web)7 или на
сочетание лингвистических технологий (National Language Processing) и технологий
Семантической паутины.
7
http://dic.academic.ru/dic.nsf/ruwiki/28440
4
Проекты 6-й и 7-й рамочных программ Европейской Комиссии
Программа «Технологии информационного общества» 6-й рамочной программы
научных исследований и технологических разработок, реализация которой завершилась в
2006 году, поддержала разработку ряда проектов по машинному переводу (это проекты
LC-STAR8, METIS9, TC-STAR10 и другие).
По разделу «Цифровое наследие» в 6-й рамочной программе научных исследовании
и
технологических
разработок
был
реализован
проект
MultiMATCH
(Multilingual/Multimedia Access to Cultural Heritage)11, целью которого является разработка
многоязычной
поисковой
машины,
ориентированной
на
поиск,
организацию
и
персонифицированную презентацию информации по культурному наследию. Для
многоязычного поиска мультимедийной информации используются технологи Semantic
WEB.
Консорциум, координатором которого является Паскуале Савино (Pasquale Savino,
[email protected]), включает Институт информатики и информационных технологий
(Istituto di Scienza e Tecnologie dell’Informazione), Университет Шеффилда (University of
Sheffield), Университет Дублина (Dublin City University), Университет Амстердама
(University of Amsterdam), Университет Женевы (University of Geneva), Национальный
университет удаленного обучения (Universidad Nacional de Educación a Distancia), OCLC,
WIND Telecomunicazioni S.p.A., Культурное наследие (Cultural Heritage), Институт
художественных произведений «Фрателли Алинари» (Fratelli Alinari Istituto Edizioni
Artistiche SpA), Нидерландский институт звука и образа (Netherlans Institute for Sound and
Vision), Университет Аликанте – Виртуальная библиотека имени Мигеля де Сервантеса
(University of Alicante – Biblioteca Virtual Miguel de Cervantes).
Первой попыткой дать полное и интегрированное решение, облегчающее поиск
информации по культуре, стало изобретение поисковой машины MultiMatch. Она
осуществляет поддержку разных видов поиска информации по культуре:
 свободный текстовый поиск. Этот режим поиска аналогичен тому, который
осуществляют общецелевые поисковые машины типа Google, с той разницей, что
MultiMatch должен поддерживать многоязычный поиск и обеспечивать большую точность
8
www.lc-star.com на английском языке
9
http://www.ilsp.gr/metis/ на английском языке
10
11
http://www.tc-star.org/ на английском языке
www.multimatch.eu на английском языке
5
его результатов, поскольку информация будет извлекаться из определенных источников,
содержащих информацию по культурному наследию;
 многоязычный поиск на основе установления подобия и автоматического
извлечения информации;
 поиск с использованием метаданных, при котором пользователь может отобрать
один из имеющихся индексов, составленных для конкретного поля метаданных, и
определить ценность поля метаданных (например, имя создателя) плюс возможные
дополнительные условия;
 просмотр, позволяющий пользователям осуществлять навигацию по коллекции
MultiMatch, используя структуру, подобную веб-директории на основе онтологии
MultiMatch.
Что касается многоязычной функциональности MultiMatch, то пользователи смогут
формулировать запросы на одном из возможных языков этой поисковой машины и
получать результаты на одном или на всех языках, охваченных прототипом (английском,
итальянском, испанском, голландском, немецком и польском). Осуществляется поддержка
6-и раздельных моноязычных предметных указателей.
Поиски на многих языках выполняются комбинацией машинного перевода и
тематических словарей. Пользователи могут выбирать исходный и конечный языки, а
также наиболее правильные варианты перевода их тех, что будут предложены системой.
Тематические словари составляются путем компилирования из соответствующих
корпоративных источников культурного наследия и, в частности, из Wikipedia. В
дополнение к отдельным моноязычным предметным указателям для облегчения
многоязычных поисков осуществляется поддержка одного многоязычного предметного
указателя, созданного в результате перевода на английский язык всех поступающих
документов. Входящие запросы на любом языке могут быть переведены на английский
язык и переданы в этот указатель. Производительность по выдаче результатов повышается
благодаря расширению тезауруса и обратной связи по соответствию выданного
результата.
На сайте подразделения «Лингвистические технологии и машинный перевод»12
Европейской Комиссии представлены проекты, принятые для финансирования в
результате уже состоявшихся конкурсов 7-й рамочной программы. Эти проекты ещё не
имеют собственных веб-сайтов.
12
http://cordis.europa.eu/fp7/ict/language-technologies/portfolio_en.html на английском языке
6
BOLOGNA - Bologna Translation Service
Недорогой высококачественный перевод размещаемых в Интернете образовательных
информационных ресурсов и программ на английский язык
CESAR - Central and South-East European Resources
Проект, работающий в тесном сотрудничестве с METANET (см. ниже), имеет целью
стандартизацию, обеспечение устойчивости, совместимости, возможности использования
в различные контекстах лингвистических технологий и ресурсов, а также решение
правовых вопросов, что в конечном итоге приведет к развитию открытой лингвистической
инфраструктуры.
LISE - Legal Language Interoperability Services
Разработка административной и правовой терминологии и стандартов.
Organic.Lingua - Demonstrating the potential of a multilingual web portal for
Sustainable Agricultural & Environmental Education
Демонстрация потенциала многоязычного веб-портала для образования в области
сельского хозяйства и экологии.
PROMISLingua - Performance Operational and Multilingual Interactive Services to
support Compliance for SMEs in Europe
Перевод, локализация и внедрение онлайновой службы для малых и средних
предприятий PROMIS® на восемь языков.
SUMAT - an online service for subtitling by machine translation
Машинный перевод субтитров.
По тематическому направлению «Международное сотрудничество» 7-й рамочной
программы в 2008 – 2010 годах реализуется проект MEDAR13 (Mediterranean Arabic
Language and speech technology), одной из целей которого является машинный перевод и
многоязычный информационный поиск, ориентированные на арабский язык.
По тематическому направлению «Интеллектуальный контент и семантика» 7-й
рамочной программы в 2008 – 2010 годах осуществляется проект SMARTMUSEUM14, в
рамках которого разработаны многоязычные сервисы для улучшения взаимодействия
посетителей с музейными предметами в музее будущего.
13
http://cordis.europa.eu/fetch?CALLER=PROJ_ICT&ACTION=D&DOC=4&CAT=PROJ&QUERY=011b02e1369f
:7230:682f8cd7&RCN=85530 на английском языке
14
http://cordis.europa.eu/fetch?CALLER=PROJ_ICT&ACTION=D&DOC=3&CAT=PROJ&QUERY=011b02f1abf0:
628a:4eba8784&RCN=85482 на английском языке
7
По тематическому направлению «Цифровые библиотеки и контент» был поддержан
проект Проект Treble-CLEF.
Еще в 2000 году для оценки качества технологий многоязычного поиска информации
был
организован
форум
CLEF15
(Cross-Language
Evaluation
Forum),
который
финансировался 5-й и 6-й рамочными программами научных исследований и
технологических разработок в рамках проектов серии DELOS16. Цели CLEF определялись
следующим
образом:
продвижение
исследований
и
стимулирование
развития
многоязычных систем информационного поиска для европейских языков через разработку
критериев
оценки
и
регулярного
тестирования
систем;
создания
сообщества
специалистов, занимающихся MLIA/CLIR; создание общественно-доступных тестовых
модулей17.
Ежегодная
конференция
CLEF
стимулировала
исследовательскую
деятельность в ранее неисследованных областях. Европейская Комиссия отметила, что
этот в целом успешный проект необходимо продолжить и расширить для использования
его результатов в прикладных разработках.
В результате в 7-й рамочной программе научных исследований и технологических
разработок в 2008 – 2010 гг. был реализован проект Treble-CLEF18 – анализ состояния
дел, передовой опыт и сотрудничество в области многоязычного доступа к информации
(Evaluation, Best Practice and Collaboration for Multilingual Information Access). Цель этого
проекта – экспертиза и консолидация научных исследований в области многоязычного
доступа к информации, распространение результатов исследований и технологий в
сообществах, занимающихся созданием цифровых библиотек.
TrebleCLEF продвигает научные исследования и технологические разработки по
многоязычному доступу к информации, поддерживая и развивая тестовую систему CLEF;
разрабатывая модели пользователей, учитывающие требования различных групп
пользователей к многоязычному поиску информации; проводя эксперименты с
различными языками для определения наилучших методик для каждого языка;
распространяя результаты исследований; создавая профессиональное сообщество для
обсуждения достигнутых результатов и новых направлений деятельности.
http://www.clef-campaign.org/ на английском языке
DELOS – сеть экспертных центров по цифровым библиотекам, интеграция и координация научных
исследований и технологических разработок. (www.delos.info).
17
См. подробнее http://www.cir.ru/docs/ips/publications/2006_romip_clef.pdf на русском языке
18
ftp://ftp.cordis.europa.eu/pub/ist/docs/digicult/trebleclef_en.pdf на английском языке http://www.trebleclef.eu/
15
16
8
Проекты программы eContentplus
Проект CACAO:19 многоязычный доступ к каталогам и библиотекам он-лайн
(Cross-language Access to Catalogues And On-line libraries) финансировался программой
"eContentplus"
в
2007
–
2009
гг.
Объединяя
лингвистические
технологии
с
существующими информационно-поисковыми системами и технологиями обработки
многоязычных ресурсов, CACAO разработал инфраструктуру, которая должна быть
интегрирована в существующие системы OPAC20 и цифровые библиотеки. В результате
пользователь может набрать запрос на своём родном языке и получить список
документов, написанных на любом другом языке. Планируется, что технологии CACAO
будут интегрированы в Европейскую библиотеку21. Кроме того, пять библиотек-партнёров
(из Венгрии, Германии, Италии, Франции, Польши) организуют единый пункт
многоязычного доступа к своим собственным информационным ресурсам, а также три
многоязычных тематических портала (математика, средневековая литература, география).
Услуги CACAO охватывают 6 языков: английский, венгерский, итальянский, немецкий,
польский, французский.
Технологии CACAO включают в себя:
- анализ он-лайн каталогов для улучшения методов доступа к информации на разных
языках путем использования технологи обработки естественного языка и индексации
информации, содержащейся в неструктурированных полях;
- перевод и расширение запросов с использованием различных многоязычных
источников и технологий: двуязычные словари, списки слов, синонимы, программы
автоматического перевода;
- использование различных стандартов, метаданных и протоколов доступа;
- расширение доступа к услугам CACAO большему числу пользователей через
дружественный интерфейс, который позволяет получить доступ к любым библиотечным
каталогам, независимо от протокола доступа, а также представить результаты поиска в
унифицированном виде.
www.cacaoproject.eu/home на английском языке
Online Public Access Catalog www.opac.com на английском языке
21
www.theeuropeanlibrary.org
19
20
9
Архитектура технологии CACAO
Агрегирование – важный аспект технологии CACAO. Чтобы интерфейс был удобен
для различных библиотек, необходимо гармонизировать ввод запроса: он должен быть
обработан на разных серверах, независимо от используемого протокола (Z39.50,
SRU/SRW, OAI-PMH). Также необходимо гармонизировать выход: результаты поиска
также должны выводиться в форме, удобной для любой библиотеки, независимо от
используемой схемы метаданных и протокола доступа.
Европейская компания по многоязычному поиску в цифровых библиотеках Cross
Library Services22 (CLS), расположенная в Тренто (Италия), использует технологии
CACAO, CLIR, NLP.
Компания предоставляет услуги по переводу запросов, многоязычному поиску и
доступу к цифровым библиотекам. Все услуги библиотеки доступны на итальянском,
французском, немецком, польском и испанском языках.
22
http://www.cross-library.com/
10
CLSTranslate переводит запросы с одного языка на другой. На вход поступает текст
и (желательно) код языка, на выходе – структурированный объект с альтернативными
переводами, оценкой качества перевода и индексом доверия. Эта услуга предлагается
пользователям, у которых есть своя поисковая машина. При переводе снимается
семантическая многозначность. Технология показывает хорошие результаты на коротких
текстах, на которых традиционный машинный перевод дает плохие результаты из-за
отсутствия синтаксиса. Для улучшения результатов перевода могут подключаться словари
определенной предметной области.
CLSSearch – это услуга по многоязычному поиску. Эта услуга реализуется в два
этапа. На первом этапе кроулер скачивает и индексирует данные и метаданные,
содержащиеся в репозитарии, предпочтительно через протокол
OAI-PMH. Когда
конечный пользователь производит поиск, его запрос переправляется на сервер компании.
CLSSearch реализует следующие функции:
 перевод запросов;
 расширение запросов путем включения синонимов;
 формулирование понятий на основе запроса;
 обработка имен собственных.
Система адаптируется в соответствии с требованиями заказчика.
CLSAccess – это полнофункциональная система поиска, которая реализуется на
сервере
компании.
Пользователь
получает
доступ
к
странице
your_library_name.crosslibrary.com и осуществляет поиск и навигацию по каталогу
заказчика. Ссылки на найденные материалы указывают на сайт /OPAC заказчика, на
котором находится репозитарий. Это оптимальное решение для заказчиков, которые хотят
добавить к своему каталогу поисковые возможности, не интегрируясь в более крупные
цифровые библиотеки.
CLSAccess реализует следующие функции:
 перевод запросов;
 расширение запросов путем включения синонимов;
 формулирование понятий на основе запроса;
 обработка имен собственных;
 фасетная навигация;
 интерактивное конструирование запроса;
 поиск информации.
11
Проект ENRICH23: Европейские сетевые ресурсы и информация по культурному
наследию (European Networking Resources and Information Concerning Cultural Heritage)
также поддерживался программой eContentPlus в 2007 – 2009 гг. Основная цель проекта –
создание облегченного доступа к распределенной информации о манускриптах и редких
печатных книгах Европы (Manuscriptorium24). Одним из ассоциированных партнеров
проекта была Троице-Сергиева Лавра (Сергиев Посад, Россия).
Manuscriptorium – это распределенная база данных манускриптов и редких печатных
книг, в центральном хранилище которой хранятся только метаданные. Рекомендуемый
формат метаданных - TEI P525, однако система поддерживает любые форматы (MASTER,
MARC 21, UNIMARC, MODS ... METS, а также индивидуальные форматы конкретной
библиотеки).
Многоязычный доступ реализуется с помощью перевода таблицы стилей,
основанной на спецификации формата TEIP P5; оптимизации специальных исторических
словарей; онтологиях VICODI26, используемых для улучшения перевода; многоязычного
поиска, т.е. быстрого полнотекстового поиска, основанного на переводе запросов.
Система охватывает чешский, датский, голландский, английский, французский, немецкий,
греческий,
итальянский,
польский,
португальский,
сербо-хорватский,
словацкий,
испанский и шведский языки. Многоязычный доступ управляется переводческой
машиной
SYSTRAN, для
которой
была
создана
XSL-таблица
стилей
Systran;
использовались словари, переводческая память27, нормализованные словари.
Проект MILE28 (Metadata Image Library Exploitation) финансировался в рамках
программы eContentPlusв в 2006 – 2009 годах. Цель проекта – улучшить использование,
доступность и торговлю изображениями
в Европе. Было выделено три области
деятельности:
- классификация метаданных;
- поиск и перевод метаданных;
- метаданные и права на интеллектуальную собственность.
23
http://enrich.manuscriptorium.com/
24
http://www.manuscriptorium.com
25
http://enrich.manuscriptorium.com/index.php?q=node/50
26
Онтология Vicodi была разработана в рамках проекта Visual Contextualization of Digital Data
http://www.vicodi.org программы IST для использования в http://www.eurohistory.net
27
Переводческая память (Translation Memory) помогает переводчику быть всегда последовательным,
используя один и тот же эквивалент для всех одинаковых терминов и строк. Программа сохраняет пары
терминов или строк текста и воспроизводит их, когда идентичный термин или строка встречается в любой
другой части переводимого документа. Перевод становится более рациональным и качественным.
28
http://www.mileproject.eu/
12
В состав консорциума входили 13 организаций из Испании, Греции, Италии,
Швеции,
Соединенного
Королевства,
Германии,
Ирландии,
Польши,
а
также
ассоциированные партнеры, в том числе, проекты CACAO и Europeana, учреждения и
организации из США, Канады, Чили, Соединенного Королевства, Израиля. Это архивы
изображений, специалисты по интеллектуальным правам, торговые ассоциации и
провайдеры IT услуг.
В рамках проекта была проведена серия семинаров, темы проекта обсуждались на
форумах, подготовлены отчеты и рекомендации:
- рекомендации по метаданным29;
- справочник по схемам метаданных для изображений и их использованию30;
- справочник по правам на изображения31.
Проект FlaReNet32 (Fostering Language Resources Network)– сетевое взаимодействие,
стандарты, передовой опыт в области создания, координации и использования языковых
ресурсов. Проект финансируется с 2007 года. Деятельность FlaReNet
организована в
соответствии с пятью тематическими областями:
- карта областей языковых ресурсов и технологий в разных ракурсах;
- методы и модели создания, использования, взаимодействия, управления,
распространения языковых ресурсов;
- гармонизация форматов и стандартов;
- оценка и проверка протоколов и процедур
- методы автоматического создания и обработки языковых ресурсов.
Проект STERNA33 – Тематическая Европейская сеть, основанная на технологиях
Semantic Web (Semantic Web-based Thematic European Reference Network Application) –
интеграция семантически обогащенных цифровых информационных ресурсов в области
естественной
истории,
биоразнообразия
и
консервации.
Результаты
проекта
предназначены для включения в Европейскую цифровую библиотеку Europeana.
29
http://www.mileproject.eu/asset_arena/document/NS/MILE_D1.2.3_FINAL_REPORT_RECOMMENDATIONS.PDF
30
http://www.mileproject.eu/asset_arena/document/DE/MILE_D1.2.3_FINAL_REPORT_APPENDIX_1_METADA
TA_GUIDE.PDF
31
http://www.mileproject.eu/asset_arena/document/RS/MILE_D1.2.3_FINAL_REPORT_APPENDIX_2_STEP_BY_
STEP_GUIDE_TO_CLEARING_RIGHTS_FOR_DIGITAL_IMAGE_USERS.PDF
32
http://www.flarenet.eu/
33
http://www.sterna-net.eu/index.php/en/about
13
Тематическая область, которую охватывает проект – птицы и любая информация,
связанная с птицами и их средой обитания.
STERNA использует технологии Semantic Web. Основная архитектура дает
возможность осуществлять распределенный поиск контента, находящегося на сайтах
участников проекта, основанный на формате RDF (Resource Description Framework) и/или
на указателях, представленных в формате SKOS (Simple Knowledge Organisation System).
Кроме того, институции, хранящие контент, могут использовать он-лайн механизм для
семантического обогащения информационных ресурсов, а также объединять свои
информационные объекты с цифровыми коллекциями других провайдеров через
указатели. Наконец, пользователи получают набор инструментов для поиска по
коллекциям и обогащения результатов поиска через фасетную навигацию. Проект
использует многоязычные указатели. Многоязычие достигается на уровне описания
объекта. Пользователи формулируют запрос на своем родном языке и получают
релевантные информационные ресурсы на других языках.
Проекты программы ICT PSP
На смену программе Программа eContentplus, действие которой закончилось 31
декабря 2008 г., пришла Программа поддержки политики по информационным и
коммуникационным технологиям (Information and Communications Technologies (ICT)
Policy Support Programme ("ICT PSP"). Это одна из трёх специальных подпрограмм,
входящих в Рамочную программу конкурентоспособности и инноваций (Competitiveness
and Innovation Framework Programme (2007-2013) ("CIP")34. С 2009 года проекты по
созданию
и
использованию
технологические
разработки,
цифровых
основанные
информационных
на
ресурсов,
результатах
других
а
также
научно-
исследовательских проектов, поддерживаются этой программой.
В 2010 году в программе ICT PSP35 финансируется тематическое направление
«Многоязычный ВЕБ», на которое выделено 16 миллионов Евро. В рамках этого
направления поддерживаются проекты по разработке открытой лингвистической
инфраструктуры и многоязычным услугам он-лайн. В программе утверждается, что
проекты, связанные с развитием многоязычного ВЕБа, внесут свой вклад в создание
единого пан-европейского рынка цифровых услуг, так как они стимулируют межязыковые
коммуникации и сотрудничество, основанные на ИКТ. Успешное распространение
34
35
http://ec.europa.eu/cip/index_en.htm
http://ec.europa.eu/information_society/activities/ict_psp/documents/ict_psp_wp2010_final.pdf
14
цифровых услуг в Европе зависит от того, насколько успешно будут преодолены
языковые барьеры. Необходимо разработать разнообразные лингвистические услуги онлайн, понизить стоимость разработок и эксплуатации.
В результате конкурса по этому тематическому направлению приняты к реализации
следующие проекты36:
Проект FLAVIUS: Иноязычные версии веб-сайтов (Foreign LAnguage Versions of
Internet and User generated Sites). Цель проекта – разработка он-лайн платформы, которая
даст возможность создателям ВЕБ-сайтов быстро, легко и эффективно разрабатывать
многоязычные версии своих сайтов для любого количества языков. Проект затронет такие
важные аспекты, как гармонизация тестов сайта-источника для обеспечения качества
перевода, сохранение структуры и навигации сайта, перевод. Проект ориентирован на
различные типы сайтов (блог-платформы, сайты сообществ с комментариями о
ресторанах, туристические сайты).
Проект ATLAS: Прикладные лингвистические технологии для систем управления
контентом (Applied Technology for Language-Aided CMS).
Такие механизмы, как автоматическое аннотирование текста путем использования
важных слов, фраз и имен, категоризация текста и автоматический перевод могут помочь
пользователю разобраться в разнородном многоязычном контенте, а также перемещаться
по различным его частям. Проект унифицирует эти механизмы на общей программной
платформе ATLAS и разрабатывает на ее основе три приложения. Первое приложение, i
Publisher, относится к уровню визуализации и обеспечивает мощный инструмент для
создания небольших веб-сайтов и управления их контентом. i Publisher будет бесплатной
онлайновой услугой, а также будет использована в рамках проекта для создания двух
тематических веб-сайтов - i Librarian и EUDocLib. i Librarian предоставит пользователям
возможность хранить, систематизировать и публиковать свои собственные работы,
находить аналогичные материалы на разных языках и с легкостью получать наиболее
важные работы по определенной тематике из больших коллекций документов. EUDocLib
– это публично доступный депозитарий документов Евросоюза, с развитой навигацией и
легким доступом к релевантным документам на языке пользователя.
Проект GALATEAS: Общий анализ LOG-файлов для автоматического перевода и
анализа результатов поиска (Generalized Analysis of Logs for Automatic Translation and
Episodic Analysis of Searches). Сервис, предлагаемый проектом (LangLog), будет извлекать
36
http://ec.europa.eu/information_society/apps/projects/index.cfm?prog_id=IPSP
15
содержательную информацию из LOG-файлов, которая поможет администраторам и
менеджерам получить ответы на такие вопросы: «Что именно ищут пользователи в моей
коллекции на определенном языке?», «Как эти темы связаны с моим каталогом?», «Какие
люди и географические названия наиболее популярны среди моих пользователей?».
Вторая проблема, решением которой занимается этот проект, связана с межязыковым
информационным поиском (CLIR), т.е. возможностью подать запрос на одном языке и
получить в результате поиска релевантные документы на разных языках. Консорциум
CACAO уже предоставляет услуги по индексации и поиску в цифровых библиотеках и
репозитариях метаданных. Во время маркетинговых исследований CACAO было
выяснено, что некоторые институции предпочитают сами осуществлять индексирование и
поиск, используя свои поисковые сервисы, и хотели бы иметь сервис по переводу
запросов. Второй сервис, который будет разработан в рамках проекта GALATEAS
(QueryTrans), ставит перед собой амбициозную и инновационную задачу создания вебуслуги для перевода запросов. Сайт проекта http://www.galateas.eu/ .
Проект iTranslate4: Интернет- переводчики для всех европейских языков (Internet
Translators for all European Languages). Цель этого проекта – объединить все лучшие
автоматические переводчики основных европейских разработчиков на одном веб-сайте, на
котором будут бесплатно предоставляться возможности автоматического перевода с
любого официального европейского языка на любой другой. Переводы между парами
европейских языков будут осуществляться переводчиками партнеров проекта, которые
получат возможность рекламировать дополнительные переводческие услуги и получать
прибыль от продажи объявлений.
Проект LetsMT!37 - Platform for Online Sharing of Training Data and Building User
Tailored MT
Статистические
системы
машинного
перевода
(SMT)
стали
лидирующим
направлением машинного перевода. Системы SMT основаны на анализе огромных
объемов параллельных корпусов и самообучающихся моделях. Качество систем SMT
зависит от объема корпусов. Так как объемы корпусов для распространенных языков
значительно больше, чем корпуса менее распространенных языков, качество перевода для
распространенных
языков
значительно
лучше.
Используя
большой
потенциал
существующих открытых систем SMT, проект предлагает построить инновационное
сотрудничество онлайн для обмена корпусами и создание систем машинного перевода.
Проект MOLTO38 - Multilingual On-Line Translation
37
http://www.letsmt.eu/
16
Цель проекта – разработка набора инструментов перевода текстов для нескольких
языков, в реальном времени и хорошего качества. Языки имеют отдельные модули,
поэтому можно подключать новые языки; прототип охватывает большинство из 23-х
официальных языков Европейского Союза.
Проект MONNET39 - Multilingual Ontologies for Networked Knowledge
Проект сочетает технологии машинного перевода и семантического веба. Проект
работает с информацией на семантическом уровне, т.е. независимо от языка и формы, что
позволяет улучшить и унифицировать интеграцию, агрегирование, поиск и презентацию
информации.
Проект MORMED40 - Multilingual Organic Information Management in the Medical
Domain
MORMED предлагает многоязычную платформу. которая сочетает в себе социальное
программное обеспечение Web 2.0 и семантическую интерпретацию контента по
медицине, автоматический перевод текстов, ориентированный на данную предметную
область.
Проект MultilingualWeb41. Тематическая сеть по развитию многоязычного ВЕБа
(Advancing the Multilingual Web, Thematic Network). Цель проекта – распространение
информации о стандартах и удачных проектах, связанных с многоязычным Интернетом,
обсуждение достижений и того, что должно быть сделано. Проект координируется
консорциумом W3C, организацией, которая насчитывает более 400 членов по всему миру.
Проект PANACEA42 - Platform for Automatic, Normalized Annotation and CostEffective Acquisition of Language Resources for Human Language Technologies.
Платформа для автоматического нормализованного аннотирования и получения
языковых ресурсов для лингвистических технологий. Проект должен решить проблему
получения корпусов на естественном языке, которые лежат в основе независимых от
языка систем машинного перевода.
Проект PLuTO: Он-лайн переводы патентов (Patent Language Translations Online).
Проект базируется на существующих переводческих машинах, успешно используемых
для торговых марок, и адаптирует их для патентов. Будет разработана онлайновая система
38
http://www.molto-project.eu/
http://www.monnet-project.eu/
40
http://www.mormed.eu/
41
http://www.multilingualweb.eu/
42
www.panacea-lr.eu
39
17
автоматического перевода, которая поможет в поиске патентной информации лучше, чем
системы автоматического перевода общего профиля, и быстрее, чем переводы,
осуществленные человеком. Планируется, что в будущем система охватить все 23
официальных языка Европы. Однако на первом этапе система ориентируется на
английский, немецкий, французский, испанский, русский, голландский и шведский языки.
Проект PRESEMT - Pattern REcognition-based Statistically Enhanced MT
PRESEMT43 – это гибкая и адаптируемая система машинного перевода, основанная
на методе, независящем от языка. Принципы системы обеспечивают простой переход к
новой паре языков. Этот метод делает попытку преодолеть хорошо известные проблемы
машинного перевода, такие как компиляция двуязычного корпуса или создание правил
для каждой языковой пары.
Проект T4ME44 (Technologies for the Multilingual European Information Society) –
технологии
многоязычного
информационного
общества
Европы
финансируется
Генеральным директоратом «Информационное общество» (DG INFSO) в 7-й рамочной
программе. Проект рассчитан на 3 года (2010 – 2013). В консорциум входят 13
организаций из стран-членов ЕС. Проект поддерживает Европейский альянс технологий
многоязычия (Multilingual Europe Technology Alliance - META), деятельность которого
распределяется по трем направлениям:
- создание динамичного и влиятельного экспертного сообщества на основе общих
подходов и направлений исследований в области многоязычия (META-VISION);
- создание открытой платформы для обмена мнениями и ресурсами (META-SHARE);
- организация взаимодействия релевантных технологий в смежных областях.
META-Net взаимодействует с заинтересованными сторонами из таких областей, как
общество, промышленность и научные исследования для того, чтобы сформулировать
задачи
и
стратегические
направления
исследований
и
разработок
в
области
лингвистических технологий до 2020 года. Одной из ключевых проблем считается
создание гибридных систем, сочетающих технологии, основанные на статистике, и
технологии, основанные на точном описании языка.
Альянс организует конференции и семинары по тематике проекта.
На сайте альянса опубликованы45 четыре «белых документа»:

Риск для языков – вызов для лингвистических технологий
http://www.presemt.eu/ на английском языке
http://t4me.dfki.de/ на английском языке
45
http://www.meta-net.eu/whitepapers на английском языке
43
44
18

Риски и вызовы

Почему компьютеру так трудно иметь дело с естественным языком?

Почему язык передаёт информацию?
Предполагается финансирование еще двух проектов, развивающих сеть META:
METANET4U - Enhancing the European Linguistic Infrastructure (Усиление европейской
лингвистической инфраструктуры) и META-NORD - Baltic and Nordic Parts of the European
Open Linguistic Infrastructure (Балтийская и северная части открытой европейской
лингвистической инфраструктуры).
Проект TTC46 - Terminology Extraction, Translation Tools and Comparable
Corpora
Улучшение
многоязычным
технологий
контентом
машинного
путем
перевода
автоматического
и
технологий
управления
генерирования
двуязычной
терминологии из корпусов нескольких языков (английский, французский, немецкий,
испанский и латышский, а также русский и китайский).
Универсальный сетевой язык
Универсальный сетевой язык (Universal Networking Language - UNL) – этот
искусственный язык, который используется для замены естественных языков в сетях
коммуникаций. Программа по разработке UNL была инициирована ООН и реализуется
фондом UNL (Universal Networking Language Foundation - UNLF)47. UNLF объединяет
национальные центры UNL. Один из базовых центов разработки UNL организован в
Александрийской библиотеке48 (Египет), которая организовала в 2007 году первый
международный семинар49 по UNL. В России такой центр работает в Институте проблем
передачи информации50 РАН (Москва) и занимается разработкой модулей перевода
русских и английских текстов на UNL и обратно.
Ядром системы UNL является программное обеспечение, которое состоит из двух
частей. Enconverter переводит тексты с входного естественного языка на UNL. Deconverter
переводит тексты с UNL на выходной естественный язык. Перевод основывается на
словарях, которые содержат морфологическую, синтаксическую и семантическую
http://www.ttc-project.eu/ на английском языке
http://www.undlfoundation.org/undlfoundation/
48
http://www.bibalex.org/unl/Frontend/home.aspx
49
www.bibalex.org/unlworkshop07/
50
http://www.iitp.ru/ru/science
46
47
19
информациию
о
естественных
языках.
Александрийская
библиотека
занимается
созданием арабского – UNL словаря.
Библиография и полнотекстовые материалы по UNL доступны на сайте UNLF51.
Статьи по UNL на русском языке
Авторы: В.Г. Диконов
Атрибуты модальности в UNL // Сборник трудов 32-ой Конференции молодых ученых и
специалистов ИППИ РАН «Информационные технологии и системы (ИТиС’09)»,
Бекасово (15-18 декабря).
Загрузить (434.7 KB)
2009 г.
Авторы: В.Г. Диконов, И.М. Богуславский
Semantic Network of the UNL Dictionary of Concepts // Proceedings of the SENSE Workshop
on conceptual Structures for Extracting Natural language SEmantics Moscow, Russia, July 2009
Перейти к публикации
2008 г.
Авторы: В.Г. Диконов
UNL Graph Structure // Информационные процессы. 2008. Т. 8 № 1.
Перейти к публикации
2008 г.
Авторы: В.Г. Диконов
Развитие системы построения семантического представления текста с использо¬ванием
языка-посредника UNL на базе лингвисти¬ческого процессора ЭТАП-3 // Сборник трудов
31-ой Конференции молодых ученых и специалистов ИППИ РАН «Информационные
технологии и системы (ИТиС’08)», Геленджик (27 сентября - 04 октября). ISBN 978-5901158-08-01. М., 2008.
2007 г.
Авторы: В.Г. Диконов
Обзор реализации семантического языка UNL в системе ЭТАП // Сборник трудов 30-ой
Конференции молодых ученых и специалистов ИППИ РАН «Информационные
технологии и системы (ИТиС’07)». Звенигород, 2007 (18-21 сентября). С. 141-149.
2000 г.
Авторы: И.М. Богуславский, Л.Л. Иомдин, Л.Г. Крейдлин, И.Л. Сагалова, В.Г. Сизов,
Н.Е. Фрид
Модуль универсального сетевого языка UNL в составе системы ЭТАП-3 Труды
Международного семинара «Диалог-2000» по компьютерной лингвистике и ее
приложениям. Под ред. А.С. Нариньяни. Протвино, 2000. Т. 2. С. 48-58
51
http://www.undlfoundation.org/undlfoundation/index.php?option=com_content&view=article&id=95&Itemid=113&lang=
en
20
Заключение
Для проекта «Средства поддержки многоязычного доступа к метаданным
электронных коллекций на основе онтологий» наиболее интересными являются
результаты следующих проектов, краткое описание которых приведено в данном обзоре:

CACAO

GALATEAS

MultiMatch

MILE

MONNET

STERNA
Также рекомендуется обратить внимание на исследования и разработки по UNL.
При работе над проектом необходимо учесть современные тенденции в области
автоматического
(машинного)
перевода,
которые
ориентируются
на
сочетание
статистических методов и лингвистических технологий.
Рекомендуется более подробно изучить доклады и статьи, собранные в рамках
проектов CLEF и TrebleCLEF.
Для получения более развёрнутой информации по результатам европейских
проектов можно обратиться к их разработчикам, так как на сайтах проектов содержится,
чаще всего, только презентационная информация.
Работа выполнена при финансовой поддержке РФФИ (проект № 10-07-00445-а)
Приложение
Статьи по тематике проекта на русском языке:
Формирование многоязычных словарей и их использование при кросс-языковом
поиске информации
Н.Н. Абрамова Е.И. Глобус
Федеральное государственное унитарное предприятие «Научно-исследовательский
центр информатики при МИД Российской Федерации»
[email protected]
Аннотация
Рассматриваются проблемы поиска иноязычной информации по запросам на русском
языке, так называемый кросс-языковой поиск. Ранее подобные исследования
проводились при создании систем машинного перевода только для автоматического
21
составления двуязычных словарей группой исследователей под руководством
профессора Г.Г. Белоногова. Суть исследования состоит в разработке методов
автоматического составления многоязычных словарей по заголовкам параллельных
текстов и методов перевода запросов с русского языка на несколько иностранных
языков с помощью многоязычных словарей. В результате исследования сформирован
машинный многоязычный словарь объемом около 20.000 словарных единиц, который
получен на основе автоматически составленного словаря и дополнения из
традиционных
словарей.
Проведен
эксперимент
по
переводу реальных
пользовательских запросов к поисковой системе Яндекс, который показал
эффективность разработанных методов.
http://download.yandex.ru/company/grant/2005/01_Abramova_102704.pdf
Организация двуязычного поиска в университетской информационной системе
Россия
Б.В. Добров, Н.В. Лукашевич
Научно-исследовательский вычислительный центр
МГУ им. М. В. Ломоносова;
АНО Центр информационных исследований НИВЦ МГУ, Воробьевы горы,
Москва, 119899
{dobroff, louk}@mail.cir.ru
http://lvk.cs.msu.su/~bruzz/articles/web_retrieval/vol2_148-158.pdf
22
Скачать