doc (MS Word), 264 Kb, Russian

advertisement
Тезаурус по архитектуре и искусству (Тезаурус AAT) как основа системы
автоматизированного индексирования описаний музейных предметов1
Б.В.Добров 2, Н.В.Лукашевич 1, В.Д.Соловьев3
В эпоху всеобщей компьютеризации доступ широких слоев исследователей к
оцифрованному культурному наследию по прежнему является нерешенной задачей.
Организация эффективного доступа к цифровым ресурсам по культурному
наследию является актуальной задачей – достаточно проанализировать тематику
поддержанных Европейским сообществом в 2006 году исследовательских проектов в
сфере культуры (см., например, http://www.minervaplus.ru/homepage/fp6projs.htm).
Трудность доступа к цифровым ресурсам по культурному наследию определяется
необходимостью поиска информационных ресурсов:
- либо нетекстовой природы (мультимедиа образы реальных предметов изображения, аудио, видео),
- либо изложенных текстовым образом, но в традициях другой культуры (с
частично утраченными связями с повседневной практикой),
- либо на иностранном языке.
В такой ситуации основным средством организации доступа является описание
артефактов на промежуточном концептуальном языке, при этом для использования в
информационном поиске по большим коллекциям данный ресурс должен иметь связи с
естественным языком пользователя.
Те же проблемы стоят и перед российским обществом. Количество музейных
экспонатов в РФ оценивается величинами 50-70 миллионов единиц хранения, при этом
только 1-5% музейных экспонатов выставлено в экспозициях.
Самым востребованным [1] является разработка специального лингвистического
ресурса и соответствующего, основанного на лингвистическом ресурсе программном
обеспечении, которые позволят построить информационные системы нового типа:
- снижающие трудоемкость описания музейного предмета;
- позволяющие эффективно искать музейные предметы по их разнообразным
характеристикам, в том числе в многоязычной среде;
- на основе эффективного поиска и иерархии понятий
нетривиальный вывод при исследовании свойств музейного предмета.
осуществлять
Важным фактором для развития новых лингвистических и программных средств
может стать перевод и адаптация к русскому языку и русской культуре Тезауруса по
архитектуре и искусству (The Art and Architecture Thesaurus, далее - тезаурус AAT),
развиваемого фондом П. Гетти для описания предметов материальной культуры [2].
В настоящее время тезаурус AAT содержит около 30 тысяч дескрипторов и более
130 тысяч англоязычных терминов. Терминология тезауруса охватывает искусство,
Работа выполнена при частичной финансовой поддержке РФФИ, грант № 06-07-89219.
НИВЦ МГУ им. М.В.Ломоносова
3
Казанский государственный университет им. В.И.Ульянова-Ленина
1
2
архитектуру, декоративное искусство, материальную культуру, архивные материалы с
античности до наших дней.
Дескрипторы тезауруса подразделяются на 7 фасетов: АССОЦИИРОВАННЫЕ
ПОНЯТИЯ, ФИЗИЧЕСКИЕ СВОЙСТВА, СТИЛИ И ПЕРИОДЫ, АГЕНТЫ (люди и
организации), ДЕЯТЕЛЬНОСТЬ, МАТЕРИАЛЫ, ОБЪЕКТЫ.
Наиболее полное покрытие тезаурус обеспечивает для терминологии по
искусству Западной Европы и Америки, включает широкий круг межкультурных
понятий, однако в настоящее время недостаточно описывает терминологию по
культуре Российской Федерации.
В работе [1] подчеркивается, что первоочередное значение для описания
музейных предметов в российских музеях имеют два фасета: МАТЕРИАЛЫ и
ОБЪЕКТЫ.
1. Перевод Тезауруса по архитектуре и искусству на русский язык
С 2006 в рамках действий по формированию инфраструктуры научнообразовательного центра по лингвистике, создаваемого при Казанском госуниверситете
решением Минобрнауки РФ, начаты работы по переводу на русский язык тезауруса
AAT. НИВЦ МГУ была получена лицензия на использование тезауруса AAT для
некоммерческих целей. После подписания соглашения с фондом Гетти разработчиками
авторам проекта были предоставлены данные Тезауруса в формате XML.
…
614.
615.
616.
617.
618.
619.
620.
621.
622.
623.
624.
625.
626.
…
biotite – биотит
lepidolite – лепидолит
muscovite (mica) – мусковит ТЕЗ 133835
phlogopite – флогопит ТЕЗ 133836
olivine – хризолит ТЕЗ 108751
opal – опал ТЕЗ 110324
pyrite – пирит ТЕЗ 133526
quartz (mineral) – кварц (минерал) ТЕЗ 109128
amethyst – аметист ТЕЗ 8949
aventurine – авантюрин ТЕЗ 135751
chalcedony – халцедон ТЕЗ 109312
agate – агат ТЕЗ 8074
moss agate – моховой агат
Рис. 1 Фрагмент файла перевода фасета «Материалы» с
указанием ссылок на дескрипторы тезауруса РуТез
В настоящее время переведено 8 тысяч дескрипторов тезауруса (Рис.1),
входящих в состав фасетов МАТЕРИАЛЫ и ОБЪЕКТЫ.
Для функционирования системы автоматизированного индексирования
описаний музейных предметов недостаточно перевести тезаурус AAT на русский язык,
необходимо снабдить дескрипторы тезауруса русскоязычными синонимами,
терминологическими вариантами.
Для этого переводимый дескриптор ищется в большом ресурсе русского и языка
тезаурус РуТез [3], и если он находится, то снабжается отсылкой на соответствующий
дескриптора РуТез. Ссылки на дескриптор тезауруса РуТез позволяют сразу же
присоединить набор русскоязычных синонимов, приписанных в тезаурусе данному
дескриптору, что важно для стабильного распознавания дескриптора в текстах
описаний. В среднем порядка четверти дескрипторов тезауруса AAT получают ссылки
на дескрипторы тезауруса РуТез.
В дальнейшем предполагается тестирование ресурса на основе русскоязычных
описаний музейных коллекций и пополнение списка русскоязычных синонимичных
рядов.
Рис.2. Пример экрана оболочки ведения тезауруса,
в которую загружены русские переводы Тезауруса AAT
2. Загрузка переводов Тезауруса по Архитектуре и искусству в оболочку
ведения тезаурусов
Для преобразования переводов дескрипторов тезауруса в двуязычный
лингвистический ресурс, способный использоваться в автоматической обработке
текстов были разработаны три программы:
- одна программа конвертирует данные Тезауруса AAT (основной файл в XML
формате размером 248 Мб) в формат базы данных Borland Paradox в структуры таблиц
ведения тезауруса РуТез;
- вторая программа считывает файлы переводов, осуществленных лингвистамипереводчиками, и формирует русскоязычные названия дескрипторов;
- третья программа пополняет русскоязычные синонимические ряды нового
двуязычного тезауруса текстовыми входами соответствующих понятий тезауруса РуТез
(Рис.2).
3. Подготовка предварительной версии автоматизированной
индексирования по Тезаурусу по Архитектуре и искусству
системы
Для исследования, насколько сделанные переводы соответствуют реальным
музейным
коллекциям,
была
подготовлена
предварительная
версия
автоматизированной системы индексирования на основе перевода Тезауруса AAT.
Рис.3. Окно веб-сервиса системы автоматизированного индексирования по
тезаурусу AAT
Для формирования автоматизированной системы индексирования используются
следующие технологии:
-
автоматическая лингвистическая обработка русскоязычных и англоязычных
текстов, применяемая в информационной системе УИС РОССИЯ
(www.cir.ru) [4], где в качестве терминологических словарей используется
новый лингвистический ресурс;
-
веб-сервис АЛОТ (Автоматическая Лингвистическая Обработка Текстов),
позволяющий получать тексты на обработку АЛОТ через HTTP запрос и
отсылающий обратно результаты обработки;
-
интерфейс пользователя, взаимодействующий с веб-сервисом АЛОТ.
Для штатного функционирования системы должен быть запущен веб-сервис
АЛОТ . Пользователь может ввести текст описания (описаний) в веб-форму (Рис.3) и
нажать на клавишу «Обработать!». В текущем примере в окно обработки помещены
фрагменты реальных описаний экспонатов Этнографического музея Казанского
университета.
Данные из веб-формы ввода передаются веб-сервису АЛОТ, который сразу
запускает обработку поступившего текста, производятся морфологический анализ и
терминологический анализ.
Результаты АЛОТ форматируются с помощью динамического HTML и
возвращаются пользователю (Рис.4).
Пользователь может видеть, какие фрагменты текста
дескрипторам Тезауруса AAT - они подсвечены разными цветами.
соответствуют
Если подвести курсор устройства «мышь» к выделенным фрагментам
обработанного текста, то во всплывающих окошках отображаются наименования
найденных дескрипторов Тезауруса AAT.
Рис.4. Результаты обработки файла описаний музейных предметов. Сопоставленные
термины выделяются цветом. Мышь подведена к слову кафтан, высвечивается
соответствующий дескриптор в тезаурусе AAT – caftans.
Заключение и дальнейшее развитие
Для создания полноценного двуязычного лингвистического ресурса и
системы автоматизированного индексирования описаний музейных предметов
предстоит еще выполнить ряд шагов.
Во-первых, необходимо пополнить русскоязычную часть полученного
ресурса. Пополнение должно осуществляться в двух направлениях. Первое
направление – это пополнение русскоязычными синонимами, терминологическими
вариантами. Богатство синонимических рядов необходимо для стабильного
распознавания соответствующего дескриптора в текстах.
Кроме того, необходимо пополнить набор дескрипторов тезауруса
дескрипторами в области русского искусства, искусства народов России, которые в
настоящее время в тезаурусе AAT представлены явно недостаточно.
Во-вторых,
необходима
доработка
создаваемого
программного
и
лингвистического обеспечения на основе реальных музейных описаний, контактов и
демонстраций для специалистов ведущих музеев Российской Федерации; проведение
ряда экспериментов по интерактивному описанию музейных предметов, двуязычному
поиску в музейных коллекциях на основе созданного программно-лингвистического
комплекса.
Литература
1. Е.С. Кузьмина, Л.Я. Ноль, В.В. Черненко, Е.Л. Кощеева, И.Ю. Хургина,
Краткое описание музейного предмета: информационно-лингвистическое обеспечение
// Стандарты описания объектов культурного наследия (Культура: политика
модернизации. Вып. 2) Псков-Москва 2001. С.35-62.
(http://future.museum.ru/part03/030202.htm)
2. Art and Architecture Thesaurus. Second Edition. Toni Petersen, Director. New
York: Oxford University Press, 1994. 5 vols.
(http://www.getty.edu/research/conducting_research/vocabularies/aat/).
3. Лукашевич Н.В., Добров Б.В., Тезаурус русского языка для автоматической
обработки больших текстовых коллекций // Компьютерная лингвистика и
интеллектуальные технологии. Труды Международного семинара Диалог'2002
/ Под ред. А.С.Нариньяни - М.: Наука - 2002. - Т.2 - С.338-346.
(http://www.dialog-21.ru/materials/archive.asp?id=7619&y=2002&vol=6078)
4. Добров Б.В., Лукашевич Н.В., Тезаурус и автоматическое концептуальное
индексирование в университетской информационной системе РОССИЯ // Третья
Всероссийская конференция по Электронным Библиотекам «Электронные библиотеки:
перспективные методы и технологии, электронные коллекции» - Петрозаводск, 2001 –
С.78-82.
Download