ТЕХНОЛОГИИ АВТОМАТИЗИРОВАННОГО ПЕРЕВОДА СПЕЦИАЛИЗИРОВАННЫХ ТЕКСТОВ И.Г. Тихонова

advertisement
ТЕХНОЛОГИИ АВТОМАТИЗИРОВАННОГО ПЕРЕВОДА
СПЕЦИАЛИЗИРОВАННЫХ ТЕКСТОВ
И.Г. Тихонова
ООО «ПРОМТ»
Санкт-Петербург
Технология автоматизированного перевода текста хорошо известна и, на первый взгляд, довольно
проста. Существующие программы перевода вполне пригодны для использования, они переводят
моментально и очень дешево, или вовсе бесплатно. Web-страница или небольшой текст могут быть
переведены за считанные секунды, возможны различные комбинации языков. Программа берет исходный
текст и автоматически генерирует соответствующий ему на желаемом языке, используя особые правила
перевода грамматических структур. Технология автоматизированного перевода специализированного
текста в целом аналогична, но при выполнении тех же шагов без настройки системы машинного перевода
полученный перевод может быть неудовлетворительным и потребует значительного времени на
редактирование.
Под специализированным текстом здесь подразумеваются, например, тексты научных публикаций
различных дисциплинарных направлений, юридических документов, искусствоведческих исследований,
административного делопроизводства и переписки и т.д. Особенности таких текстов с точки зрения систем
машинного перевода могут быть сведены к следующему:
– незнакомые слова, употребляемые только в данной узкой области (термины);
– слова стандартной лексики, имеющие специализированный перевод в данном дисциплинарном
направлении;
– конструкции и словосочетания, характерные для данной области знания и использования.
Система машинного перевода PROMT позволяет учесть указанные особенности, предлагая
пользователю целый ряд дополнительных настроек, позволяющих улучшить качество перевода. При
переводе текста анализируется не только содержательная часть документа, но и форматная информация, что
дает возможность полностью сохранить структуру документа (стили форматирования, заголовки,
разделение на части и т.д.). Это особенно важно при переводе документов сложной структуры, т.к.
существенно сокращает время редактирования выходного текста.
При первичном переводе специализированного текста система самостоятельно выявляет незнакомые
слова, отсутствующие в генеральном словаре. Эти слова по усмотрению пользователя могут быть сразу или
позже занесены в пользовательский словарь.
Возможность создания и использования пользовательских словарей существенно влияет на качество
перевода. Вы можете создать собственный пользовательский словарь и ориентировать его на определенную
предметную область. Система позволяет добавлять в словарь новые слова и словосочетания, изменять их
переводы, имеющиеся в других словарях, и вводить дополнительную грамматическую информацию. Для
модификации словаря необходимы базовые знания о грамматике входного и выходного языков
(представление о частях речи, правилах изменения слов и т.д.). К системе могут быть подключено
одновременно несколько пользовательских словарей, кроме того, их можно создавать прямо в процессе
работы над переводом. Объем пользовательского словаря не лимитирован (кроме аппаратных
ограничений — недостаток памяти). Для быстрого создания пользовательского словаря удобно
использовать предварительно подготовленный текстовый файл, состоящий из столбца слов
(словосочетаний) и их переводов. Редактор словарей позволяет перенести информацию из этого файла в
требуемый словарь.
Для нескольких подключенных словарей устанавливается приоритет, т.е. указывается словарь, в
котором перевод слова будет главным, и в дальнейшем система будет сразу использовать именно это
значение для перевода вашего текста. Этот способ в некоторых случаях является наиболее удобным для
настройки системы на более качественный перевод.
Для любого текста могут быть указаны слова, не требующие перевода, — зарезервированные слова.
Чаще всего к ним относятся имена собственные, иноязычные вкрапления и сочетания, специальные
наименования и т.п. Резервирование имен собственных особенно важно в тех случаях, когда они совпадают
со значимыми словами (например, при отсутствии резервирования фамилия «Smith» будет переведена на
русский как «Кузнец»). Для зарезервированных слов существует возможность транслитерации — записи
Опубликовано:
Тихонова И.Г. Технологии автоматизированного перевода специализированных текстов // Технологии
информационного общества — Интернет и современное общество: труды VII Всероссийской
объединенной конференции. Санкт-Петербург, 10 – 12 ноября 2004 г. — СПб.: Изд-во
Филологического ф-та СПбГУ, 2004. С. 72 – 74.
ISBN 5-8465-0294-6
слов одного языка буквами другого языка (фамилия ‘Smith’ после транслитерации выглядит как «Смит»).
Предварительная подготовка списка зарезервированных слов позволяет существенно сократить процесс
редактирования перевода.
В настоящее время производители систем автоматизированного перевода все большее внимание
уделяют интеграции двух основных технологий — системы машинного перевода (MT) и системы класса
Translation Memory (ТМ), такая интеграция реализована и в системе перевода PROMT. Перевод в системе
класса Translation Memory опирается не на словари, а на базы переводов. В отличие от словарей, которые
содержат перевод слов или словосочетаний, база переводов содержит отдельные сегменты текста
(предложения, конструкции) вместе с их переводами. В процессе автоматического перевода программа
сравнивает сегмент исходного текста с сегментами из подключенных баз переводов. В случае заданного
процента совпадения (включая знаки препинания и стили форматирования текста) перевод фрагмента текста
(сегмента) подставляется из базы переводов, а не отправляется на машинный перевод. Базы переводов
создаются в специальной программе, переводы сегментов могут быть введены вручную, с использованием
машинного перевода, а также на основе параллельных текстов — текстах одного содержания на двух
языках. К системе автоматизированного перевода может быть подключено несколько баз переводов.
Согласно алгоритму перевода, система сначала анализирует базы перевода и только при отсутствии
вариантов использует машинный перевод. Использование такого рода интегрированной технологии
особенно эффективно в областях, связанных с переводом большого числа однотипных документов.
Компания PROMT предлагает интеграцию машинного перевода с собственной технологией Translation
Memory и с технологий наиболее известного производителя систем Translation Memory — TRADOS.
Совокупность настроек системы сохраняется и может быть неоднократно использована для работы с
текущим документом и с другими, загружаясь автоматически.
Система автоматизированного перевода легко интегрируется и может эффективно использоваться в
процессах электронного документооборота и On-line перевода в Intranet сети организации или глобальной
сети Интернет.
Настройка системы автоматизированного перевода на определенную предметную область требует
некоторых усилий, но в конечном итоге пользователь получает мощный инструмент лингвистической
поддержки профессиональной деятельности.
Опубликовано:
Тихонова И.Г. Технологии автоматизированного перевода специализированных текстов // Технологии
информационного общества — Интернет и современное общество: труды VII Всероссийской
объединенной конференции. Санкт-Петербург, 10 – 12 ноября 2004 г. — СПб.: Изд-во
Филологического ф-та СПбГУ, 2004. С. 72 – 74.
ISBN 5-8465-0294-6
Download