Реферат - сайт Сокола Н.А.

advertisement
БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
На правах рукописи
УДК 81.3224
Сокол
Никита Александрович
Программное обеспечение автоматизации перевода
Выпускная работа по
«Основам информационных технологий»
Магистранта кафедры теории и практики
перевода
Специальность: 10.02.04 – германские
языки
Научные руководители:
кандидат психологических наук Уланович О.И.
старший преподаватель Шешко С.М.
Минск, 2012
ОГЛАВЛЕНИЕ
Оглавление ................................................................................................................... 2
Перечень условных обозначений............................................................................... 3
введение ........................................................................................................................ 4
Глава 1 Обзор литературы .......................................................................................... 5
Глава 2 Методика исследования ................................................................................ 6
Глава 3 Программы автоматизации перевода .......................................................... 7
3.1 Формы организации взаимодействия ЭВМ и человека при осуществлении
перевода. Автоматизированный и машинный перевод ....................................... 7
3.2 Становление и развитие концепции автоматизированного перевода .......... 9
3.2 Современное использование средств автоматизированного перевода ...... 10
3.3.1 Память переводов ...................................................................................... 11
3.3.2 Стандарты и форматы памяти переводов ............................................... 13
3.3.3. SDL Trados ................................................................................................. 14
Заключение ................................................................................................................. 17
Библиографический список ...................................................................................... 19
Приложения................................................................................................................ 20
Приложение А ............................................................................................................ 20
Предметный указатель .............................................................................................. 20
Приложение Б ............................................................................................................ 21
Интернет-ресурсы в предметной области исследования ...................................... 21
Приложение В ............................................................................................................ 24
Действующий в WWW личный сайт (гиперссылка) и printScreen главной
страницы ..................................................................................................................... 24
Приложение Г ............................................................................................................ 25
Граф научных интересов .......................................................................................... 25
Приложение Д ............................................................................................................ 28
XML-формат тестовых вопросов по Основам информационных технологий ... 28
Приложение E ............................................................................................................ 29
Презентация магистерской (кандидатской) диссертации ..................................... 29
2
ПЕРЕЧЕНЬ УСЛОВНЫХ ОБОЗНАЧЕНИЙ
АП – автоматизированный перевод.
МП – машинный перевод.
ЭВМ – электронная вычислительная машина.
CAT – Computer Aided (Assisted) Translation.
TM – Translation Memory.
M(A)T – Machine And Computer-Aided Translation.
TMX – Translation Memory Exchange Format.
3
ВВЕДЕНИЕ
В XXI веке основополагающим фактором развития человечества в информационной области является повсеместная интеграция средств информатики не только на национальном уровне, но и в международном масштабе. Развитие информационных технологий привело к автоматизации различных производственных и бизнес-процессов. Неудивительно, что это коснулось и бизнеса
в области переводов (особенно письменных) с одного языка на другой, ведь перевод является важнейшим инструментом межкультурной коммуникации. Поэтому и обучение переводу играет большую роль в подготовке учащихся в языковых вузах.
Тем не менее, в учебную программу таких вузов не входит обучение по
крайней мере основам работы с системами автоматизации перевода. Такое обучение может происходить в рамках курса теории и практики перевода или в качестве специального курса основ информационных технологий. Это может
быть решением для подготовки грамотных и умелых специалистов и будет способствовать улучшению качества оказания лингвистических услуг.
В связи с этим в настоящем исследовании мы проанализируем работу и
сегодняшнее состояние систем автоматизированного перевода на примере программы SDL Trados.
Таким образом, целью настоящей работы выступает анализ использования систем автоматизированного перевода на примере программы SDL Trados.
Для этого мы поставили перед собой следующие задачи:
 определить понятие, сущность и основные принципы работы систем автоматизированного перевода;
 проследить историю возникновения и развития систем автоматизированного перевода;
 выявить преимущества и недостатки, неудобства, ограничения в
практическом использовании этих систем;
Объектом исследования в настоящей работе выступает использование
информационных технологий в процессе перевода; в качестве предмета выступает процесс перевода.
Актуальность нашего исследования обусловлена необходимостью постоянного обновления сведений о ситуации в области автоматизации процесса перевода для выполнения соответствующей работы надлежащего качества, необходимостью оптимизации переводческой деятельности, эффективной работы
человека и компьютера.
4
ГЛАВА 1
ОБЗОР ЛИТЕРАТУРЫ
На сегодняшний день разработана масса компьютерных программ, которые выполняют анализ, обработку, хранение, перевод и прочие операции с текстами. Эти программы (англ. lingware) включают в себя электронные словари,
корректоры, поисковые системы, системы анализа и синтеза речи, системы голосового перевода, системы машинного и автоматизированного перевода. Работа с рядом из указанных типов программ показала необходимость комплексного подхода в переводческой деятельности с использованием программного
обеспечения. Широко применяя системы автоматизированного перевода, ни в
коем случае нельзя игнорировать электронные словари и программы машинного перевода и т.д.
Теории и практике перевода в целом посвящены работы Рецкера Я.И.,
Слеповича В.С., Бархударова Л.С., Алексеевой И.С. и др.
Говоря о непосредственно теме использования систем автоматизированного перевода, следует упомянуть работы Коротких Г.И., Тереховой Е.В., Пригожева А.С. и др.
При подготовке данной работы мы использовали материалы соответствующих сайтов сети Internet, включая, помимо прочих, http://elibrary.ru (научной электронной библиотеки), http://proz.com (сайт крупнейшего сообщества
переводчиков в мире), http://www.tra-service.ru (сайт реселлера компании SDL
Trados в СНГ) и другие.
5
ГЛАВА 2
МЕТОДИКА ИССЛЕДОВАНИЯ
В основу нашей работы легли принципы системного подхода,
целостности, корректности.
В ходе работы мы использовали следующие методы исследования:
1. сравнение и обобщение;
2. исторический анализ;
3. логический анализ;
4. сравнительный анализ и синтез.
6
ГЛАВА 3
ПРОГРАММЫ АВТОМАТИЗАЦИИ ПЕРЕВОДА
3.1 Формы организации взаимодействия ЭВМ и человека при
осуществлении перевода. Автоматизированный и машинный перевод
Перевод представляет собой процесс передачи значения информации и её
последующего эквивалентного воспроизведения. Перевод текстов на компьютере с помощью компьютерного программного обеспечения называется автоматизированным переводом (АП), англ. Computer-Aided Translation – CAT. Может также употребляться термин machine-aided translation или machine-assisted
translation (MAT), в отличие от machine translation (MT) – машинный перевод,
МП. В англоязычной терминологии для обозначения сразу двух видов перевода
используют аббревиатуру M(A)T. От МП автоматизированный перевод отличается тем, что весь процесс перевода осуществляется человеком, компьютер
лишь помогает ему произвести готовый текст либо за меньшее время, либо с
лучшим качеством.
Инструменты CAT – это нынешний оптимум средств труда переводчика.
Это база памяти перевода, которая может быть передана вместе с документом
другому переводчику. Это обеспечивает унификацию терминологии всего текста, что имеет решающее значение при переводе технической и юридической
документации. CAT память работает следующим образом: весь текст разбивается на сегменты, части от нескольких слов до предложения длиной. В случае
обнаружения подобного сегмента в дальнейшем программа выдаст подсказку
перевода, которую можно утвердить, отвергнуть, слегка изменить. Такой подход обеспечивает экономию времени для переводчика.
Автоматизированный перевод применяется для перевода преимущественно письменной речи. Однако АП может быть использован и в синхронном
переводе. В этом случае использование средств АП из-за его специфики ограничено. Одним из примеров является использование словарей, загружаемых на
КПК. Другим примером может служить полуавтоматическое извлечение списков терминов при подготовке к синхронному переводу в узкой предметной области.
Главным преимуществом АП, в сравнении с переводом вручную, является то, что он выполняется компьютером и, следовательно, быстрее, чем с помощью человека. Таким образом, экономится время при переводе больших
объёмов информации. К тому же, такой вид перевода дешевле и надёжнее, чем
7
перевод вручную. Кроме того, используя системы АП и МП, можно перевести
также содержание любого web-сайта или запрос поисковой системы. Это особенно эффективно в случае с комбинациями языков, которые относятся к одной
языковой семье, как например, испанский и португальский, испанский и итальянский и т.д.
В отличие от систем АП, системы МП производят перевод текстов в автоматическом режиме без участия человека. Программное обеспечение первоначально анализирует, а затем передаёт грамматическую структуру текста оригинала с помощью языка перевода.
Но и МП, и АП имеют также и свои недостатки. В основе работы АП лежат систематические правила, и поэтому иногда при таком переводе невозможно избежать неточностей. При использовании автоматизированного перевода
не всегда получаются переводы идеального качества, но для получения основного содержания или создания первичного наброска перевода он может оказаться очень выгодным и экономным. Пользуясь машинными средствами, переводчик получает буквальный перевод, который не учитывает ни использование
слова в переносном значении, ни второй или третий смысл, который человек
вычленяет автоматически, основываясь на данных, полученных при постоянном общении с другими людьми. Такого опыта компьютер не имеет, а смоделировать его невозможно из-за бесконечно большого количества возможных
вариантов. Поэтому перевод любого, даже самого схематизированного текста,
нуждается в дополнительной обработке человеком. Выделяются несколько таких видов «хирургического вмешательства»:
 постредактирование: исходный текст перерабатывается машиной, а человек-редактор исправляет результат.
 предредактирование: человек приспосабливает текст к обработке машиной
(устраняет возможные неоднозначные прочтения, упрощает и размечает
текст), после чего начинается программная обработка.
 интерредактирование: человек вмешивается в работу системы перевода,
разрешая трудные случаи.
 смешанные системы (например, одновременно с пред- и постредактированием).
 частично автоматизированный перевод: например, использование
переводчиком-человеком компьютерных словарей.
 системы с разделением труда: компьютер обучен переводить только
фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё не уложившееся в схему отдает человеку.
8
3.2 Становление и развитие концепции автоматизированного
перевода
Сам термин АП появился в середине XX века. Первые теоретические разработки относят к 1930-40-ым годам. Мысль использовать ЭВМ для перевода
была высказана в 1946 году, сразу после появления первых ЭВМ. Переводчики
всегда выступали против стандартной в те годы концепции МП, на которую
было направлено большинство исследований в области компьютерной лингвистики, но поддерживали использование компьютеров для помощи переводчикам. Первая публичная демонстрация машинного перевода (так называемый
Джорджтаунский эксперимент) состоялась в 1954 году. Несмотря на примитивность той системы (словарь в 150 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ,
Японии и других странах; в том же 1954 году и в СССР. В период холодной
войны исследования в данной области представляли особый интерес в военной
сфере и при достаточном финансировании усиленно развивались. Составлялись
алгоритмы, интенсивно проводились прикладные исследования в области
структурной лингвистики по изучению и формализации языковых структур. С
развитием кибернетики по мере снятия технических трудностей становился
очевидным тот факт, что процесс перевода не ограничивается формальным переходом от одного языка к другому. Разработчикам предстояло решить ряд задач: формализация контекста; передача смысла всей фразы и отдельных единиц
мысли с учётом факторов адекватности перевода.
В 1960-е годы Европейское объединение угля и стали («прародитель» Европейского союза) стало создавать терминологические базы данных под общим
названием Eurodicautom. В Советском Союзе проводились аналогичные разработки, был учреждён ВИНИТИ (Всесоюзный институт научной и технической
информации).
К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода: MARK (в Департаменте
иностранной техники ВВС США); GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).
Однако созданная для оценки подобных систем комиссия ALPAC пришла
к выводу, что в силу низкого качества текстов, переведённых «машинным способом», эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её вы-
9
воды привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике.
Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров, а с ними
всё более сложных словарных, поисковых и т. п. систем, ориентированных на
работу с данными, относящимися к «естественному языку». Росла и необходимость в переводе как таковом ввиду роста международных связей. Всё это привело к новому подъёму этой области, наступившему примерно с середины
1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.
В это же время, в 1980 году, Мартином Кеем была сформулирована концепция АП в её современном понимании: «by taking over what is mechanical and
routine, it (computer) frees human beings for what is essentially human» (компьютер берёт на себя рутинные операции и освобождает человека для выполнения
им операций, требующих человеческого мышления).
3.2 Современное использование средств автоматизированного
перевода
Системы автоматизации перевода стали неотъемлемой частью современного процесса профессионального перевода.
Данные системы представляют собой целый комплекс технологий и инструментов для перевода документации, локализации программного обеспечения, ведения терминологических глоссариев, проверки качества перевода, создания и распределения переводческих проектов, встраивания в разнообразные
системы документооборта. С их помощью решаются задачи по созданию качественного перевода в рамках кратчайшего производственного цикла.
Применение систем автоматизации перевода эффективно при переводе
технической, финансовой, юридической и другой документации, с высокой
степенью повторяемости текстов. По опыту активных пользователей в среднем
количество повторов в проекте может достигать 50%, что означает увеличение
скорости перевода в полтора-два раза. Согласно результатам опроса пользователей, экономия времени на перевод и форматирование с применением систем
автоматизации составляет от 30 до 50%.
Использование данных систем также целесообразно при коллективной
работе, когда необходимо обеспечить согласованный перевод в рамках одного
10
проекта. Весь перевод автоматически сохраняется в единой базе данных, доступной всем участникам процесса перевода. В режиме реального времени
пользователи видят результаты перевода друг друга. При этом переводчики могут находиться в одной локальной сети или подключаться удалённо. Это особенно важно для компаний, имеющих филиалы в разных городах и даже странах.
Работу с системами автоматизации перевода можно условно разбить на 2
этапа. На первом этапе пользователь работает на систему, а именно осваивает
базовую функциональность, накапливает первоначальную базу переводов (преобразовывает ранее переведённые материалы в соответствующий формат) и создаёт глоссарий. Как правило, на этот этап требуется от двух до шести недель в
зависимости от интенсивности использования и объёма материалов. На втором
этапе система начинает работать на пользователя. С увеличением базы переводов возрастает количество совпадений, уменьшается объём новых сегментов,
следовательно, сокращается время, затрачиваемое на перевод, и увеличивается
производительность. Автоматическое распознавание терминологии сводит к
минимуму поиск терминов вручную.
В основе самых современных решений обычно лежат 3 основные технологии:
 Память (или База) переводов (Translation Memory, TM);
 Управление терминологией (Terminology Management);
 Управление проектами (Project Management, Translation Management
System, TMS).
В настоящий момент существует огромное множество самых различных
программ автоматизации перевода. Признанными лидерами в этой области считаются программы SDL Trados, Deja vu, Wordfast и другие. В рамках нашего
исследования мы проанализируем принципы работы программы SDL Trados.
В данной работе мы более подробно остановимся на изучении памяти переводов как основе системы автоматизированных переводов. Именно память
переводов является главным, принципиальным отличием АП от МП.
3.3.1 Память переводов
База Translation Memory (Память переводов, ПП) – это лингвистическая
база данных, в которой переводы сохраняются в рамках определенной структуры по мере их создания человеком-переводчиком. Обычный состав базы ТМ исходные сегменты и эквивалентные им целевые сегменты или «единицы перевода» (translation units). Как правило, за сегмент принимается предложение, реже — часть сложносочинённого предложения либо абзац. При обработке ново11
го текста, поступившего на перевод, система сравнивает каждое его предложение с сохранёнными в базе и извлекает соответствующие совпадения. В результате не требуется многократно переводить одно и то же предложение – напротив, при необходимости можно повторно использовать ранее переведённые
фрагменты текста. В основе данных ТМ-программ лежит принцип сбора и хранения фрагментов переведённых текстов на двух языках (исходный фрагмент и
его перевод). Эти фрагменты хранятся в специальном накопителе переводов
(Translation Memory) и служат бесценным подспорьем при последующем выполнении переводов в рамках заданной тематики. Среди продуктов, использующих технологию ТМ, на международном рынке средств АП доминируют
Trados и Stylus. В основу перевода, выполняемого при помощи ТМ-программы,
ложатся конструкции, выбранные человеком. Поэтому необходимым условием
адекватности текста перевода является бесспорная компетентность специалиста-переводчика. Необходимо также учитывать, что МТ-программы опираются
на готовые словари и поэтому готовы к работе в момент их приобретения. А
для ТМ-программ базой служит накопитель, который в момент покупки программы пуст. Чтобы начать плодотворно использовать ТМ-программу, накопитель необходимо заполнить соответствующими речевыми моделями, при этом
существует возможность обмена накопителями в рамках больших коллективных проектов, что, в свою очередь, повышает качество работы специалистов и
обеспечивает единство терминологии.
Большинство систем Translation Memory как минимум поддерживают создание и использование словарей пользователя, создание новых баз данных на
основе параллельных текстов (англ. alignment), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов. Переводчик
на этом этапе может выделить вновь переведённые фрагменты и занести новые
пары параллельных текстов на двух языках в базу данных.
В основе поиска совпадений лежит относительный параметр «Минимально допустимая степень совпадения» (Minimum Match Value). Например, минимально допустимая степень совпадения, равная 70%, означает, что если отклонение переводимого предложения от сегмента, сохраненного в базе находится,
в пределах 30%, этот сегмент будет предложен пользователю как неточное совпадение. Величина данного параметра задается пользователем. Как правило,
оптимальное значение для стандартных текстов на европейских языках находится в диапазоне от 65% до 75%. Следует отметить, что для таблиц и азиатских языков минимально допустимое совпадение в два раза ниже. Оптимальным следует считать значение, позволяющее находить незначительные отклонения и в то же время, не предлагающее соответствий в одно или два слова.
При этом применяется специально разработанная в технологии ТМ система оценки процента совпадений сегмента в базе с сегментом в тексте (так
12
называемый fuzzy match – нечеткое совпадение, exact match – точное совпадение perfect match – идеальное совпадение или совпадение контекста). Ранее переведённый текст является важным ресурсом для последующих переводов, поскольку многие повторяющиеся фрагменты могут быть подобными или даже
идентичными.
При помощи этих решений создаются одноязычные или многоязычные
глоссарии, доступные для всех сотрудников, использующих терминологию, как
в рамках корпоративной локальной сети, так и за её пределами. Словарные статьи обычно имеют разветвленную структуру - и могут содержать обширную
информацию, необходимую для принятия решения об использовании того или
иного термина: термин, аббревиатура, синонимы, определение, контекст, источник, статус, комментарий, рисунки, звукозаписи, перекрестные ссылки и др.
Самые современные системы позволяют редактировать термины непосредственно в среде перевода, а также просматривать результаты поиска, параметры
которого можно ограничивать и настраивать.
В соответствии с обзорами использования систем ПП к наиболее популярным системам относятся ABBYY Aligner, Déjà vu, OmegaT (бесплатная система, распространяемая по лицензии GNU GPL), SDLX, Trados (наиболее популярная программа, долгое время бывшая стандартом ПП), STAR Transit,
Wordfast (реализована как набор макросов для MS Word, новая версия 2009 года является отдельным приложением).
3.3.2 Стандарты и форматы памяти переводов
В каждой конкретной системе ПП данные хранятся в своем собственном
формате.
TMX (Translation Memory Exchange Format — Обмен памятью переводов). Этот стандарт обеспечивает взаимный обмен между разными поставщиками памяти переводов. TMX является общепринятым форматом в среде переводчиков и лучше всего подходит для импорта и экспорта памяти переводов.
Последняя версия этого формата — 1.4b позволяет восстанавливать исходные
документы и их перевод из файла TMX.
TBX (Termbase Exchange Format — Обмен терминологическими базами). Это принятый LISA (Ассоциации индустрии локализации) формат сейчас
пересматривается и переиздается согласно ISO 30042. Этот стандарт позволяет
проводить обмен терминологией, в том числе детальной лексической информацией. Основная база TBX определяется стандартами: ISO 12620, ISO 12200 и
ISO 16642. ISO 12620 обеспечивает реестр четко определенных «категорий
данных» со стандартизованными именами, которые функционируют как типы
13
элементов данных или предопределенные значения. ISO 12200 (известен также
как MARTIF) предоставляет основу для каркасной структуры TBX. ISO 16642
(известен также как Terminological Markup Framework — Структура терминологической разметки) включает структурную метамодель для терминологических
языков разметки (Terminology Markup Languages) в целом.
SRX создан для улучшения формата TMX и большей эффективности обмена памятью переводов между программами. Возможность указывать правила
сегментации, которые использовались в предыдущем переводе, повышает эффективность отождествления сегментов в текущем тексте с содержимым ПП.
GMX GILT означает Globalization, Internationalization, Localization, and
Translation (Глобализация, интернационализация, локализация, перевод). Стандарт GILT Metrics состоит из трех частей: GMX-V для показателей объема,
GMX-C для показателей сложности, GMX-Q для показателей качества. Предложенный стандарт GILT Metrics направлен на квантификацию объема работ и
требований качества при реализации задач GILT.
OLIF — открытый стандарт, совместимый с XML, который используется
для обмена терминологическими и лексическими данными. Хотя изначально он
применялся в качестве способа обмена лексическими данными между частными лексиконами МП, постепенно этот формат превратился в более общий стандарт терминологического обмена.
XLIFF (XML Localisation Interchange File Format — XML формат для взаимного обмена при локализации), создан как единый формат файлов для взаимного обмена, который распознается всеми программными средствами локализации. XLIFF — это наилучший в современной индустрии переводов способ
обмена информацией в формате XML.
TransWS (Translation Web Services — переводческие веб-сервисы), определяет требуемые параметры вызова веб-сервисов при отправлении и получении файлов и сообщений, имеющих отношение к проектам локализации. Задумывался как развернутая система автоматизации процесса локализации с использованием сервисов в сети Интернет.
xml:tm — этот подход к памяти переводов основан на концепции текстовой памяти, которая позволяет совмещать авторскую память и память переводов. Формат xml:tm был передан Lisa OSCAR компанией XML-INTL.
3.3.3. SDL Trados
Среди систем автоматизированного перевода наиболее распространённой
является SDL Trados. Она стала своего рода промышленным стандартом письменного перевода. По независимым оценкам, 80% переводчиков во всём мире
14
применяют решения SDL Trados. Система SDL Trados постоянно совершенствуется и дорабатывается в соответствии с требованиями, выдвигаемыми новыми тенденциями. Компания SDL даже отслеживает настроения пользователей с помощью специального ресурса - ideas.sdl.com. Это форум, где пользователи делятся с разработчиками своими идеями по улучшению и разработке дополнительной функциональности систем. Участники форума оставляют комментарии и голосуют за высказанные предложения. Каждая идея получает рейтинг, на основе которого разработчики судят о её актуальности и принимают
решение о внедрении.
В последней версии системы SDL Trados – SDL Trados Studio 2009, реализовано 90 идей, предложенных пользователями на форуме ideas.sdl.com. К
такой идее относится, например, возможность работы с pdf-документами. Ранее
для перевода pdf-документов требовалось предварительно распознать файл с
помощью какого-либо PDF-конвертера. Теперь поддержка PDF формата осуществляется посредством встроенного в SDL Trados фильтра, использующего
технологию Solid Framework.
Новая версия SDL Trados Studio 2009 объединила возможности двух
предыдущих систем – SDLX и SDL Trados. Её отличает единая, не содержащая
тегов, среда переводов, интеграция всех компонентов и ряд инновационных
функций. Настраиваемый интерфейс пользователя может быть изменён в соответствии с индивидуальными требованиями.
Большой интерес представляет запатентованная технология AutoSuggest.
AutoSuggest максимизирует многократное использование ранее переведённого
контента, предлагая возможные переводы слов или фраз (субсегментов) из памяти переводов. В основе интеллектуальной подстановки лежит TM и исходный сегмент, над которым ведётся работа. Аналогично функции интеллектуального ввода текста, варианты подстановки появляются по мере ввода первых
символов слова.
К ключевым особенностям SDL Trados Studio 2009 также следует отнести:
Функцию Context Match -она определяет расположение сегмента в документе и контекст и используется для оптимизации подстановки 100% совпадений.
Функцию AutoPropagation – с её помощью перевод автоматически подставляется во все повторяющиеся сегменты.
Поиск по нескольким базам перевода.
Проверка качества и орфографии, выявляющая ошибки непосредственно
при вводе текста.
Предварительный просмотр в режиме реального времени, позволяющий
просматривать документ в конечном формате во время выполнения перевода.
15
Решения SDL Trados Studio 2009 обладают гибкой масштабируемостью и
позволяют использовать одни и те же технологии при индивидуальной работе,
в небольших отделах переводов и на крупных предприятиях.
В системе SDL Trados Studio 2009 используются открытые отраслевые
стандарты: реализована поддержка XLIFF (межплатформенный формат файлов
для перевода), TMX (формат обмена базами переводов) и TBX (формат обмена
терминологическими базами).
16
ЗАКЛЮЧЕНИЕ
В нашей работе мы проанализировали основные характеристики систем
автоматизированного перевода, определили преимущества и недостатки этой
системы, провели небольшой исторический анализ развития данной отрасли
информационных технологий. На основании всего вышеописанного мы сформулировали следующие выводы:
Системы автоматизированного перевода являются оптимальным решением при необходимости перевода больших объёмов текста за сравнительно короткий промежуток времени и при работе не одним человеком, а группой квалифицированных переводчиков.
Как в историческом плане, так и сегодня развитие программ автоматизированного перевода является куда более востребованным среди профессионалов, нежели программы машинного перевода. Принципиальным отличием от
последних выступает необходимость переводчика самостоятельно формировать
базу для автоматизации будущих переводов, что, несомненно, требует большого опыта, качества и профессионализма от переводчика.
Говоря о недостатках, ограничениях в применении систем автоматизированного перевода, следует упомянуть, что данные системы работают максимально эффективно при работе с текстами, требующими унифицированной
лексики (например, юридическом, техническом переводе и т.д.) и не годятся (во
всяком случае, пока) для переводов художественных произведений. Безусловно,
это является стимулом для дальнейшего развития математической, прикладной
лингвистики и подобных им дисциплин. Также большой необходимости использовать систему АП нет и в случае, когда нужно лишь получить основное
содержание текста на оригинальном языке. Как раз тогда и эффективнее всего
использовать машинный перевод.
Учитывая всё вышесказанное, мы считаем необходимым дать некоторые
практические рекомендации:
Шире использовать системы АП как средствами реальной экономии времени в переводческой деятельности. Следить за обновлениями программного
обеспечения в области автоматизации переводов и, соответственно, при необходимости, обновлять аппаратные средства в соответствии с системными требованиями данных программ.
Как можно более активно пользоваться возможностями АП, активно
участвовать в совершенствовании данных программ, напр., посредством дачи
он-лайн рекомендаций фирме-производителю.
17
Устанавливать оптимальный баланс между функциями компьютера и человека в переводческой деятельности.
18
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Реальные возможности и обучающий потенциал программ автоматизированного перевода в вузовском курсе иностранного языка / Г.И. Коротких //
Вестник Кемеровского государственного университета. – 2009. - № 1. – С. 60-65.
2. Современные тенденции развития автоматизированного перевода (по
материалам ведущих разработчиков систем машинного перевода) / Е.В. Терехова // Научный вестник Воронежского государственного архитектурностроительного университета. Серия: Современные лингвистические и методико-дидактические исследования. – 2006. - № 5. – С. 146-152.
3. Автоматизированный перевод исходных текстов программ / А.С. Пригожев // Электромашиностроение и электрооборудование. – 2009. - № 72. – С.
222-225.
4. Современные системы автоматизации перевода [Электронный ресурс].
– 2012. – Режим доступа: http://www.tra-service.ru/article – Дата доступа:
30.11.2012.
5. Системы машинного перевода [Электронный ресурс]. – 2012. – Режим
доступа: http://1000perevodov.ru/site/91 – Дата доступа: 30.11.2012.
6. Автоматизированный перевод и перевод вручную [Электронный ресурс].
–
2012.
–
Режим
доступа:
http://kievbridge.com.ua/blog/automatedvsmanual.html – Дата доступа: 30.11.2012.
7. Инструменты CAT [Электронный ресурс]. – 2012. – Режим доступа:
http://www.abellanaplus.com/ru/poleznaja_informacija/instrumeti_cat – Дата доступа: 30.11.2012.
8. Машинный и профессиональный перевод [Электронный ресурс]. – 2012.
– Режим доступа: http://www.norma-tm.ru/article2.html – Дата доступа:
30.11.2012.
9. Не делайте один и тот же перевод дважды [Электронный ресурс]. –
2012. – Режим доступа: http://www.computerra.ru/hitech/37605/ – Дата доступа:
30.11.2012.
10. Каталог лингвистических программ и ресурсов в Cети [Электронный
ресурс]. – 2012. – Режим доступа: http://www.rvb.ru/soft/catalogue/index.html –
Дата доступа: 30.11.2012.
19
ПРИЛОЖЕНИЯ
ПРИЛОЖЕНИЕ А
Предметный указатель
автоматизации, 4, 8, 11, 12, 16, 18, 20
анализ, 4, 6, 7, 18
АП, 3, 8, 9, 10, 11, 13, 18, 19
глоссарий, 12
информационных, 4, 18
компьютер, 8, 9, 10, 11
накопитель, 13
память, 8, 13, 16
перевод, 3, 4, 6, 8, 9, 10, 12, 13, 15, 17, 18, 20
программа, 8, 15
программы, 4, 6, 12, 13, 18
систем, 4, 6, 9, 11, 12, 13, 14, 16, 17, 18, 20
системы, 6, 9, 10, 11, 13, 14, 16, 18, 20
технология, 17
формат, 12, 15, 16, 17
20
ПРИЛОЖЕНИЕ Б
Интернет-ресурсы в предметной области исследования
http://ru.wikipedia.org/wiki/Дискурсивный_анализ
Ссылка на отредактированную статью в Википедии
Рисунок Б.1 – Принтскрин добавленного раздела в статью «Дискур-
сивный анализ» на странице в Википедии
http://ru.wikipedia.org/w/index.php?title=%D0%94%D0%B8%D1%81%D0%
BA%D1%83%D1%80%D1%81%D0%B8%D0%B2%D0%BD%D1%8B%D0%B9_
%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7&oldid=51031646&diff
=cur&diffonly=0
Ссылка на различия между версиями статей (пользователь NicKSokoL)
Рисунок Б.2 – Принтскрин различий между версиями редактирован-
ной статьи «Дискурсивный анализ» на странице в Википедии
21
http://elibrary.ru
Научная электронная библиотека
Научная электронная библиотека eLIBRARY.RU – это крупнейший российский информационный портал в области науки, технологии, медицины и
образования, содержащий рефераты и полные тексты более 14 миллионов
научных статей и публикаций. Здесь доступны электронные версии более 2500
российских научно-технических журналов, в том числе более 1300 журналов в
открытом доступе. Регистрация пользователя в Научной электронной библиотеке является необходимым условием для получения доступа к полным текстам
публикаций, размещенных на платформе eLIBRARY.RU, независимо от того,
находятся ли они в открытом доступе или распространяются по подписке.
http://www.gigatran.ru
Гигатран
Сайт компании «Гигатран». Здесь также размещены словари и программы
для автоматизации перевода.
http://1000perevodov.ru/
1000 переводов
Сайт бюро переводов «1000 переводов». Помимо информации о деятельности самого бюро, сайт содержит полезные сведения в разделах «Теория перевода» и «Справочная информация».
http://proz.com
Проз.ком
ProZ.com – это наибольшее сообщество переводчиков в мире. ProZ.com
предоставляет своим членам широкий выбор полезных услуг, ресурсов и возможностей для совершенствования. Это наилучший сайт, где переводчики могут найти новых заказчиков. Объявления о работе для устных и письменных
переводчиков размещаются в разделе заказов, где заинтересованные переводчики могут предложить свои услуги. Кроме раздела для размещения заказов, на
сайте также существует каталог устных и письменных переводчиковфрилансеров, который можно использовать для поиска нужных специалистов.
http://www.rvb.ru/soft/catalogue/index.html
Каталог лингвистических программ и ресурсов сети
Данный каталог включает в себя описание программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих ресурсов, доступных сегодня в глобальной сети Интернет. Упор при составлении каталога делался на бесплатные программы, доступные для загрузки или исполь22
зования в режиме on-line. Также описаны коммерческие версии некоторых
наиболее интересных программ. К сожалению, каталог с 2006 года не обновлялся, однако он будет полезен тем, кто серьёзно занимается лингвистическим
программированием; с помощью данного каталога можно будет проследить историю развития программ перевода.
http://www.tra-service.ru
Т-Сервис
Единственный авторизованный реселлер SDL в странах СНГ. Ведущие
специалисты компании «Т-Сервис» имеют многолетний опыт работы в области
продаж, поддержки, обучения и внедрения решений SDL Trados.
23
ПРИЛОЖЕНИЕ В
Действующий в WWW личный сайт (гиперссылка) и printScreen
главной страницы
http://m-a-1990sokal.narod2.ru/
Рисунок В1 – Print Screen главной страницы сайта
24
ПРИЛОЖЕНИЕ Г
Граф научных интересов
Смежные
специальности
10.02.19 – теория
языка
Основная
специальность
Сопутствующие
специальности
10.02.04 – Германские языки
Добавлено автором:
1. Онтологическая
природа языка.
2. Разные виды язы-
1. Развитие науки о
германских языках
и история их изу-
ковых образований.
3. Психолингвистические закономер-
чения.
2. Основные этапы и
направления становления и разви-
рия права и государства; история учений о
праве и государстве
ности порождения
и восприятия речи
(текста) в норме, в
условиях билингвизма и при речевых расстройствах.
тия германских
языков.
3. Проблемы диалектологии и лингвогеографии германских языков.
сылки возникновения
теории права и государства как науки.
2.
Система права.
Правовые отношения.
3.
Правовое государ-
4. История теоретического языкознания, структурной
лингвистики, социальной лингвистики, теории речевой
деятельности и
психолингвистики,
коммуникативной
лингвистики, а
4. Фонетические системы германских
языков.
5. Лексикология. Семасиология. Фразеология. Парадигматические и синтагматические связи в лексикосемантических и
ство и гражданское общество.
также история
лингвистической
методологии.
фразеологических
системах германских языков. Этимологические исследования.
6. Грамматика. Описательная и функциональная морфология. Формаль-
10.02.20 – сравнительно-историческое, типологическое и сопоставительное языкознание
1. Звуковой строй, лексика
25
12.00.01 – теория и исто-
1.
История и предпо-
12.00.03 – гражданское право; предпринимательское право; семейное право; международное частное право
1. Гражданскоправовое регулирование отношений в
правовых системах
континентального и
общего права (законодательство, практика, доктрина),
особенности регламентации соответствующих отноше-
и грамматика генетиче-
ный, коммуника-
ний применительно
ски связанных языков,
соотношение между
этими языками на различных языковых уровнях, процессы становления и развития родственных языков во времени и пространстве,
предпосылки, типы и
темпы языковых изме-
тивный и семантический синтаксис.
Синтаксис текста.
7. Социальные и
функциональные
варианты речи.
8. Проблемы норм
германских литературных языков в
историческом раз-
к отдельным государствам.
2. Правовое регулирование экономической несостоятельности (банкротства).
3. Договор в хозяйственных отношениях.
4. Правовое регулиро-
нений.
2. Языковые контакты, ход
процессов контактирования языков, взаимодействие и взаимовлияние языков, интерференция, модели смешения
языков в прошлом и
настоящем. Языковая
политика в многоязыко-
витии и на современном этапе.
Культура письменной и устной речи.
Динамика современной литературной нормы.
9. Когнитивная лингвистика, лингвопрагматика, этно-
вание хозяйственной (предпринимательской) деятельности в зарубежных
странах.
5. Договор международной куплипродажи.
12.00.14 – администра-
вом обществе.
3. Соотношение между
языками без учета их генетических связей; фонетко-фонологические и
просодические свойства
языков; типологические
закономерности в морфологии и синтаксисе;
лексические типологи-
лингвистика и
лингвокультурология.
тивное право, финансовое право, информационное право
1. Административное законодательство.
2. Правовой режим государственных ценных
бумаг. Правовой режим государственного
долга. Правовые осно-
ческие особенности; типология литературных
языков и языковых ситуаций; вспомогательные
международные языки.
Лингвистические универсалии.
4. Звуковые, грамматические, синтаксические и
вы денежного обращения. Правовые основы
валютного регулирования.
26
лексические сходства и
различия между двумя
или несколькими сопоставляемыми языками в
синхронии и диахронии.
10.02.21 – прикладная и
математическая лингвистика
(филологические науки)
1. Статические, статистико-комбинаторные и вероятностные модели
языка и речи
2. Моделирование процессов восприятия, хранения, преобразования и
передачи информации на
естественных языках
3. Моделирование искусственного интеллекта
4. Компьютерная лексикография и терминография
27
ПРИЛОЖЕНИЕ Д
XML-формат тестовых вопросов по Основам информационных
технологий
<question type="close" id="183">
<text> При указании в html кода цвета в шестнадцатиричном формате перед самим кодом необходимо ставить знак:
</text>
<answers type="request">
<answer id="313759" right="1">#</answer>
<answer id="313760" right="0">$</answer>
<answer id="313761" right="0">*</answer>
<answer id="313762" right="0">^</answer>
</answers>
</question>
<question type="close" id="183">
<text> Общепринятым форматом в среде переводчиков, который лучше
всего подходит для импорта и экспорта памяти переводов, является формат:
</text>
<answers type="request">
<answer id="313759" right="0">tbx</answer>
<answer id="313760" right="0">srx</answer>
<answer id="313761" right="1">tmx</answer>
<answer id="313762" right="0">srx</answer>
</answers>
</question>
28
ПРИЛОЖЕНИЕ E
Презентация магистерской (кандидатской) диссертации
29
30
Download