Адекватный компьютерный перевод научно-популярного текста
Теперь поговорим о задаче добавления нового сегмента в память переводов. Очевидным условием корректности процедуры добавления является обеспечение успешного поиска. Стало быть, добавляемый сегмент должен иметь в числе своих предков (не обязательно прямых) все составляющие его слова. Следуя целям оптимальности, можно заключить, что среди предков должны присутствовать также узлы графа, содержащие… Читать ещё >
Адекватный компьютерный перевод научно-популярного текста (реферат, курсовая, диплом, контрольная)
ГЛАВА 1. Понятие адекватности в переводе
1.1 Адекватность и эквивалентность как базисные понятия теории перевода
1.2 Функционально-стилистические особенности научно-популярных текстов в аспекте переводоведения
1.3 История и векторы развития компьютерного перевода
1.3.1 Первичные импульсы в создании компьютерных переводчиков
1.3.2 Статус компьютерной лингвистики
1.3.3 Современные программы компьютерного перевода
1.4 Стратегия компьютерного перевода научно-публицистических текстов
1.4.1 Терминологический аппарат
1.4.2 Автоматический поиск терминологии
1.4.3 Проверка целостности сегментов, формата и грамматики
1.4.4 Сфера применимости
1.5 Принцип работы электронных переводчиков
ГЛАВА 2. Систематизация ошибок в компьютерном переводе
текстов научно-популярного характера
2.1 Типология ошибок в переводоведении
2.2 Анализ переводческих ошибок в компьютерной версии
ЗАКЛЮЧЕНИЕ
БИБЛИОГРАФИЯ
Компьютерный (автоматический, машинный) перевод, имеет свою историю и ведёт летоисчисление, начиная с проекта цифровой аналитической машины Г. Беббиджа с середины 19 В. Следующими историческими моментами явились: Джорджстаунский эксперимент (1954); программы для БЭСМ в России (50-е годы 20-го века); программы, созданные в Отделении прикладной математики института АН СССР (ныне ИПМ им. М. В. Келдыша РАН), были реализованы на машине «Стрела». В 70-х годах разработку основ технологии машинного перевода продолжила группа специалистов ВИНИТИ под руководством профессора Г. Г. Белоногова. В результате в 1993 году была создана промышленная версия системы RETRANS. Первые коммерческие проекты появились в середине 80-х годов. Они были реализованы на персональных компьютерах и являлись системами прямого перевода. На данный момент в нашем распоряжении есть большое количество компьютерных программ-переводчиков. Мы остановимся более подробно на программе PROMT GIANT 7.
В процессе работы над этими проектами выяснилось, что традиционная лингвистика не располагает ни фактическим материалом, ни идеями и представлениями, нужными для построения систем машинного перевода, которые использовали бы смысл переводимого текста.
Потребность в создании теоретических основ машинного перевода привела к формированию нового направления в лингвистике, называемого структурной, прикладной, математической лингвистикой. Формирование этого направления в СССР относится ко второй половине 50-х годов. Ведущую роль в нем сыграли математики А. А. Ляпунов, В. А. Успенский, (ученик А. Н. Колмогорова), О. С. Кулагина, лингвисты В. Ю. Розенцвейг, П. С. Кузнецов, А. А. Реформатский, И. А. Мельчук, В. В. Иванов.
Под математической (компьютерной) лингвистикой понималось изучение языка как абстрактной знаковой системы с целью построения теоретической основы машинного перевода и создания конкретных алгоритмов перевода. В таком понимании математическая лингвистика составляла часть семиотики — общей теории знаковых систем.
Данная работа обращена к подробному изучению указанных проблем, а также к анализу возможности перевода текстов научнопопулярного и научнотехнического жанра.
Актуальность темы работы сопряжена, прежде всего, с тем, что в настоящее время математическая (компьютерная) лингвистика является одной из динамично развивающихся отраслей теоретического знания. Кроме того, здесь следует упомянуть, что её прикладная сферакомпьютерный (математический) перевод позволяет оптимизировать и ускорить процесс перевода, что играет большую роль в условиях современного общества.
Научная новизна обусловлена тем, что здесь при оценке качества перевода компьютерного перевода используется стратегия, наиболее оптимальная для анализируемого жанранаучно-популярного. Речь идет о пошаговой процедуре анализа, в фокусе который находиться терминологический аппарат, целостность сегмента, формата и грамматики и т. п.
Теоретическая значимость данной работы заключается в том, что общая проблематика адекватности в переводоведении дополнятся данными о проблемах и идеях компьютерной лингвистики.
Практическая значимость работы обусловлена возможностями использования полученных данных в курсах лекций в ВУЗе по теории и практике перевода, а также в практической деятельности переводчиков.
Проблема исследовании заключается в следующем: может ли компьютер осуществить адекватный перевод научно-технического текста?
Объектом исследования являются: тексты научно-публицистического жанра — немецкий оригинал и перевод компьютерной программы PROMT GIANT 7. В качестве эталона используется перевод исходного текста профессиональным переводчиком.
Цель данной работы- определение искажений на лексическом уровне в процессе компьютерного перевода.
Задачами исследования являются:
· изучение проблем адекватности перевода в историческом аспекте
· выявление основных проблем машинного перевода в контексте компьютерной лингвистики
· освещение типологии ошибок в аспекте теории переводоведения (искажения, неточности, неясности)
· сравнение текста перевода, сделанного в программе PROMT GIANT 7 c переводным текстом, сделанным профессиональным переводчиком
· выявление и систематизация типичных ошибок перевода
Материалы исследования— 66 страниц из журнала «Deutschland» на немецком языке и соответственно 66 страниц на русском языке, а также компьютерная версия перевода.
Методы исследования— сравнительно-сопоставительный (оригиналкомпьютерный переводперевод профессионального переводчика), структурно-семантический анализ текста компьютерного перевода, лингвосмысловая интерпретация текста.
Работа состоит из Введения, где в кратком виде излагается компилятивный материал, посвященный адекватности и эквивалентности в переводоведении; 1-ая глава посвящена стратегии КП научно популярных текстов; во 2-ой главе внимание фокусируется на выявлении ошибок на лексическом уровне в компьютерном переводе научно-публицистического текста.
Библиография содержит… наименований на русском языке и … наименований на немецком языке.
ГЛАВА 1. Понятие адекватности в переводе
1.1. Адекватность и эквивалентность как базисные понятия теории перевода
Перевод неизменно рассматривается как способ обеспечить общение между разноязычными коммуникантами путем воспроизведения на другом языке сообщения, содержащегося в исходном тексте. В наиболее общем плане языковеды обычно определяли перевод как замену текста на одном языке текстом на другом языке и лишь, потом приступали к изучению требований, которым должен удовлетворять создаваемый текст, чтобы служить полноценной заменой оригинала, и отношений, возникающих между текстами оригинала и перевода в целом и между отдельными частями и единицами этих тестов. Итак, лингвистическая теория перевода изучает соотношение единиц двух языков не изолированно, а в текстах определенного типа (оригиналах и их переводах), и все данные, которыми эта теория располагает, получены из сопоставительного изучения таких текстов. [Латышев 2005, с.26]
Сопоставительное изучение текстов оригинала и перевода может охватывать различные стороны их формальной и содержательной структуры таких текстов. Однако центральным вопросом теории перевода остается всестороннее описание содержательных отношений между этими текстами, раскрытие понятий эквивалентности и адекватности перевода. В первую очередь задача переводчика, несомненно, заключается в воспроизведении содержания оригинала. Но что это значит? Что представляет собой воспроизводимое содержание? Каковы критерии правильности выбора языковых средств для достижения адекватности перевода? Эти вопросы уже многие годы активно поднимаются в лингвистике (Рецкер, 1974; Сидоров, 1981; Пинягин, 1981; Швейцер, 1988; Комиссаров, 1988 и др.).
Так, В. Н. Комиссаров рассматривает «эквивалентный перевод» и «адекватный перевод» как понятия неидентичные, хотя и тесно соприкасающиеся друг с другом. Эквивалентность понимается им как смысловая общность приравниваемых друг к другу единиц языка и речи. Термин «адекватный перевод», по его мнению, имеет более широкий смысл и используется как синоним «хорошего» перевода, т. е. перевода, который обеспечивает необходимую полноту межъязыковой коммуникации в конкретных условиях [Комиссаров
А. Д. Швейцер также разграничивает понятия эквивалентности и адекватности: «Если эквивалентность отвечает на вопрос о том, соответствует ли текст перевода исходному, то адекватность отвечает на вопрос о том, соответствует ли перевод как процесс данным коммуникативным условиям. Полная эквивалентность подразумевает исчерпывающую передачу коммуникативно-функционального инварианта, т. е. речь идет о максимальном приближении текста перевода к оригиналу, о максимальных требованиях, предъявляемых переводу. Требование адекватности же носит оптимальный характер: перевод должен оптимально соответствовать определенным коммуникативным целям и задачам» [Швейцер.1988, с. 95]
Понятие адекватности остается одним из центральных в теории и практике перевода. В работах 50-х — начала 60-х годов, заложивших основы современной теории перевода (Федоров, 1953; 1958; Jakobson, 1959) понятие адекватности базировалось на концепции перевода как полного смыслового аналога оригинала. В рамках данной концепции адекватность перевода сводилась к категориям семантической (смысловой) полноты и точности, дополняемым стилистической эквивалентностью, включающей, в частности, принцип подчинения текста перевода функционально-стилистическим нормам языка перевода. Такая адекватность получила название семантико-стилистической [Ванников, 1988, с. 37]
В 50−60-е годы переводческая деятельность получила новый импульс в сфере информационной практики и теории коммуникации, что способствовало формированию концепции функционально-прагматической адекватности перевода (Бархударов, 1975; Комиссаров, 1973; Швейцер, 1973; Каде, 1978). От функционально-адекватного перевода требуется не полная и точная передача всего смыслового содержания и стилистических особенностей оригинала, согласованных с функционально-стилистическими нормами языка перевода, но лишь правильная передача основной коммуникативной функции оригинала, его функциональной «доминанты». Другие свойства перевода для данного типа адекватности в принципе нерелевантны.
В целом, в настоящее время намечается к разграничению понятий «адекватность» и «эквивалентность» в переводоведении по принципу общего и частного.
1.2. Функционально-стилистические особенности научно-популярных текстов
В предложенной работе, как упоминалось во Введении, анализируются тексты научно-популярного характера из журнала «Deutschland» за 2007 г. Обратимся к описанию их особенностей. Основной стилистической чертой научно-популярного текста является точное и четкое изложение материала при почти полном отсутствии тех выразительных элементов, которые придают речи эмоциональную насыщенность, главный упор делается на логической, а не на эмоционально-чувственной стороне излагаемого. [Брандес, 1983, с. 175] Поскольку, как известно, стратегия перевода в выявлении смысловой доминанты (опорно-смысловых вех, по Л.С. Бархударову) в первую очередь зависит от жанра переводимого текста. В теории перевода А. В. Фёдоров выделяет три жанра: художественный, популярный, научно-официальный. Каждый из них в практике перевода может быть конкретизирован. Кроме того, достаточно часто встречается комбинация жанров, что имеет место в данной работе.
Автор научно-технической статьи стремится к тому, чтобы исключить возможность произвольного толкования существа трактуемого предмета, вследствие чего в научной литературе почти не встречаются такие выразительные средства, как метафоры, метонимии и другие стилистические фигуры, которые широко используются в художественных произведениях для придания речи живого, образного характера. [Брандес, 1983, с. 114]
Авторы научных произведений избегают применения этих выразительных средств, чтобы не нарушить основного принципа научно-технического языка — точности и ясности изложения мысли. Это приводит к тому, что научно-популярный текст кажется несколько суховатым, лишенным элементов эмоциональной окраски. С точки зрения словарного состава основная особенность текста заключается в предельной насыщенности специальной терминологией, характерной для данной отрасли знания. Брандес, 1983, с. 83]
Термином мы называем эмоционально-нейтральное слово (словосочетание), передающее название точно определенного понятия, относящегося к той или иной области науки или техники. Терминологическая лексика дает возможность наиболее точно, четко и экономно излагать содержание данного предмета и обеспечивает правильное понимание существа трактуемого вопроса. В специальной литературе термины несут основную семантическую нагрузку, занимая главное место среди прочих общелитературных и служебных слов. [Комиссаров
Говоря о научно-технической терминологии, отметим следующее: в обычной речи слова, как правило, полисемантичны, т. е. они передают целый ряд значений, которые могут расходиться порой довольно широко.
Например: der Satz — набор, комплект; агрегат; осадок; тарифная ставка; пятка (чулка); фраза, предложение; магазин или der Tonтон, звук; глина. Нем.-рус.словарь, 2004, с. 720].
Такая многозначность слов в общелитературном языке является фактором, свидетельствующим о богатстве языковых изобразительных средств. Лексическая многозначность придает речи гибкость и живость и позволяет выражать тончайшие оттенки мысли.
Иначе обстоит дело в научно-публицистическом стиле, в нем главным требованием оказывается предельная точность выражения мысли, не допускающая возможности различных толкований.
Поэтому основным требованием, предъявляемым к термину, становится однозначность, т. е. наличие только одного раз навсегда установленного значения.
Основная масса научно-популярной терминологии продолжает оставаться за пределами общелитературного языка и понятна лишь специалисту данной отрасли знания. Ерошенко 2003: 18]
Вторая по величине группа терминов представляет собой общелитературные немецкие слова, употребляемые в специальном значении. К таким словам относятся, например:
При переводе терминов мы можем встретиться со следующими моментами:
а) Часть терминов, имеющих международный характер, передается путем транслитерации и не нуждается в переводе:
б) Некоторые термины имеют прямые соответствия в русском языке и передаются соответствующими эквивалентами:
в) Известная часть терминов при переводе калькируется, т. е. передается с помощью русских слов и выражений, дословно воспроизводящих слова и выражения немецкого языка:
г) Нередко случается, что словарь не дает прямого соответствия немецкому термину. В этом случае необходимо прибегнуть к описательному переводу, точно передающему смысл иноязычного слова в данном контексте:
При переводе терминов следует по возможности избегать употребления иноязычных слов, отдавая предпочтение словам русского происхождения. [Лакофф, Джонсон 1987: 47]
Поскольку характерной чертой термина является четкость семантических границ, он обладает значительно большей самостоятельностью по отношению к контексту, чем обычные слова. Комиссаров
В отношении синтаксической структуры немецкие тексты научно-публицистического содержания отличаются своей конструктивной сложностью. Они богаты причастными и инфинитивными оборотами. В качестве примера приведём текст инструкции к утюгу:
Benutzen Sie bitte das Bugeleisen ca. 2 Minuten ohne TextilProtektor, bevor Sie den TextilProtektor zum ersten Mal anbringen. Der Braun Textil-Protektor schutzt empfindliche Gewebe von Hitzeschaden. Somit konnen die meisten dunklen Stoffe ohne Zwischentuch gebugelt werden . Um vor dem Bugeln die Reaktion ihres Gewebes zu prufen, empfehlen wir einen kleinen Bereich auf links zu bugeln.
В то время как основная трудность перевода художественной прозы заключается в необходимости интерпретации намерений автора, т. е. в передаче не только внешних фактов, но и в сохранении психологических и эмоциональных элементов, заложенных в тексте, задача, стоящая перед переводчиком научно-технического текста, лишенного эмоциональной окраски, оказывается более простой — точно передать мысль автора, лишь по возможности сохранив особенности его стиля. Иначе говоря, адекватный перевод достигается, прежде всего, через сохранение предметно-логического значения исходного текста [Алексеева 2004, с.28]
1.3 История компьютерного перевода
Впервые мысль о возможности машинного перевода высказал Чарльз Бэббидж (1791−1871), разработавший в 1836—1848 гг. проект цифровой аналитической машины — механического прототипа электронных цифровых вычислительных машин, появившихся через 100 лет. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Ч. Бэббидж привел эту идею в качестве обоснования для запроса у английского правительства средств, необходимых для физического воплощения аналитической машины, которую ему так и не удалось построить (см. Апокин и др. Чарльз Бэббидж. М., 1981).
1.3.1 Первичные импульсы в создании компьютерного переводчика
Фактически же история машинного перевода начинается с «Джорджтаунского эксперимента». В январе 1954 г. состоялась первая публичная демонстрация машинного перевода с русского языка на английский, осуществленного на машине ИБМ-701. Сообщение об этом событии было опубликовано в журнале Computers and Automation, 1954, № 2. А реферат этого сообщения, сделанный Д. Ю. Пановым, появился в РЖ ВИНИТИ «Математика», 1954, № 10: «Перевод с одного языка на другой при помощи машины: отчет о первом успешном испытании» .
Это сообщение явилось толчком для начала работ по машинному переводу в СССР. Д. Ю. Панов, бывший тогда директором ВИНИТИ (в то время Института научной информации — ИНИ) привлек к работам по машинному переводу И. К. Бельскую, которая затем возглавила группу машинного перевода в ИТМ и ВТ АН СССР. Первый опыт перевода с английского языка на русский с помощью машины БЭСМ был получен уже к концу 1955 г. Программы для БЭСМ составляли Н. П. Трифонов и Л. Н. Королев, кандидатская диссертация которого была посвящена методам построения словарей для машинного перевода.
Другое направление работ возникло в Отделении прикладной математики Математического института АН СССР (ныне ИПМ им. М. В. Келдыша РАН) по инициативе А. А. Ляпунова. К работам по машинному переводу математических текстов с французского языка на русский он привлек О. С. Кулагину, аспирантку МИАН, своих учениц Т. Д. Вентцель и Н. Н. Рикко. С конца 1955 г. в этих работах принимала участие Т. Н. Молошная, которая затем приступила к самостоятельной работе над алгоритмом англо-русского перевода. А. А. Ляпунов и О. С. Кулагина свои представления об использовании вычислительных машин для перевода с одного языка на другой опубликовали в журнале «Природа», 1955, № 8. Первые программы машинного перевода, разработанные этим коллективом, были реализованы на машине «Стрела» .
Первое поколение систем машинного перевода базировалось на алгоритмах последовательного перевода «слово за словом», «фраза за фразой». Возможности таких систем определялись доступными размерами словарей, прямо зависящими от объема памяти компьютера. Перевод текста осуществлялся отдельными предложениями, смысловые связи между ними никак не учитывались. Такие системы называют системами прямого перевода. На смену им со временем пришли системы последующих поколений, в которых перевод от языка к языку осуществлялся на уровне синтаксических структур. В алгоритмах перевода использовался набор операций, позволяющий путем анализа переводимого предложения построить его синтаксическую структуру по правилам грамматики языка входного предложения (так же, как учат детей языку в средней школе), а затем преобразовать ее в синтаксическую структуру выходного предложения и синтезировать выходное предложение, подставляя нужные слова из словаря. Такие системы называются Т-системами (Т — от английского слова «transfer — преобразование»).
Наиболее совершенным считается подход к построению систем машинного перевода на основе получения некоторого, независимого от языков, смыслового представления входного предложения путем его семантического анализа. Затем производится синтез выходного предложения по полученному смысловому представлению. Такие системы называют И-системами (И — от слова «интерлингва»). Считается, что следующие поколения систем машинного перевода будут относиться к классу И-систем.
А. А. Ляпунов с самого начала работ по машинному переводу говорил о переводе путем извлечения смысла переводимого текста и его представления на другом языке. Однако такая постановка проблемы перевода оказалась в то время преждевременной. Более того, она не решена в общем виде мировой информатикой и в настоящее время, несмотря на усилия, предпринимавшиеся Международной федерацией IFIP — мировым сообществом ученых в области обработки информации. Однако многие частные результаты, связанные с семантическим анализом текстов, были получены и опубликованы в трудах IFIP.
1.3.2 Статус компьютерной лингвистики
Первый опыт создания программ машинного перевода показал, что необходимо решать эти задачи постепенно и по частям. Слишком много трудностей и неясностей было в том, как нужно формализовать и строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические закономерности следует использовать при машинном переводе и каковы вообще эти закономерности.
Выяснилось, что традиционная лингвистика не располагает ни фактическим материалом, ни идеями и представлениями, нужными для построения систем машинного перевода, которые использовали бы смысл переводимого текста.
Традиционная лингвистика не могла дать исходные представления не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких. В сущности ни на один вопрос, поставленный в связи с построением систем машинного перевода, традиционная лингвистика в 50-х годах не могла дать ответа.
Потребность в создании теоретических основ машинного перевода привела к формированию нового направления в лингвистике, называемого структурной, прикладной, математической лингвистикой. Формирование этого направления в СССР относится ко второй половине 50-х годов. Ведущую роль в нем сыграли математики А. А. Ляпунов, В. А. Успенский, (ученик А. Н. Колмогорова), О. С. Кулагина, лингвисты В. Ю. Розенцвейг, П. С. Кузнецов, А. А. Реформатский, И. А. Мельчук, В. В. Иванов.
6 мая 1960 г. было принято Постановление Президиума АН СССР «О развитии структурных и математических методов исследования языка», во исполнение которого были созданы подразделения по структурной лингвистике в Институте языкознания, Институте русского языка АН СССР. В Постановлении Президиума АН СССР отмечалось, что «недостаточное развитие теоретических исследований в области структурных и математических методов в лингвистических учреждениях тормозит практически важные работы по теории и практике машинного перевода, построению информационных языков и информационных машин, логической семантике и другим приложениям языкознания, разрабатываемым в настоящее время в ряде технических и математических научно-исследовательских институтов». С 1960 г. началась подготовка кадров в области автоматической переработки текстов на филологическом факультете МГУ, в Ленинградском и Новосибирском университетах, МГПИИЯ. Под математической лингвистикой понималось изучение языка как абстрактной знаковой системы с целью построения теоретической основы машинного перевода и создания конкретных алгоритмов перевода. В таком понимании математическая лингвистика составляла часть семиотики — общей теории знаковых систем.
Задача аксиоматизации лингвистики была выдвинута одним из виднейших лингвистов московской школы П. С. Кузнецовым как задача формализации грамматики, восходящая к идеям выдающегося русского языковеда Ф. Ф. Фортунатова (1848−1914). Исследованию формальной теории грамматик, была посвящена диссертация О. С. Кулагиной, выполненная под руководством А. А. Ляпунова.
Заметим, что в те же годы формальная теория грамматик развивалась в США в трудах Н. Хомского, ставших классическими для области искусственных языков, в частности языков программирования. Двадцатилетие (1956;1976) один из основателей направления математик В. А. Успенский в своих воспоминаниях назвал «серебряным веком» структурной, прикладной и математической лингвистики в СССР (видимо, по аналогии с «серебряным веком» русской поэзии). В 70-х годах разработку основ технологии машинного перевода продолжила группа специалистов в ВИНИТИ под руководством профессора Г. Г. Белоногова. В результате в 1993 г. была создана промышленная версия системы RETRANS фразеологического машинного перевода с русского языка на английский и обратно, которая применялась в министерствах обороны, путей сообщения, науки и технологий, а также во ВНТИЦ.
Практическое применение принципов смыслового анализа текстов потребовалось при создании систем машинного перевода с иероглифических языков (китайского, японского и др.). Вопросы создания таких систем были разработаны в диссертации В. М. Зелко в 80-х годах.
1.3.3 Современные программы компьютерного перевода
Первые коммерческие продукты машинного перевода, нашедшие практическое использование, появились в середине 80-х годов. Они были реализованы на персональных компьютерах и являлись системами прямого перевода, возможности которых базировались на огромных (по сравнению с первыми системами) словарях, а не на умении анализировать и синтезировать тексты.
Однопользовательская «коробочная» версия продукта Retrans Vista фирмы «Виста текнолоджиз» предназначена для автоматизированного перевода текстов с русского языка на английский и обратно. В ней использованы оригинальные алгоритмы сжатия словарных баз и поиска переводных эквивалентов, позволяющих транслировать «на лету» не только фрагменты текста, импортируемые из текстового редактора MS Word, но и Web-страницы.
В словарях Retrans Vista хранятся миллионы понятий, к которым относятся не только традиционные устойчивые фразеологические обороты, но, прежде всего, словосочетания, используемые в повседневной речи. Кроме того, есть программа концептуального анализа, автоматически выделяющая из текста новые словосочетания и включающая их в словарь. Основные словари системы Retrans Vista содержат термины и фразеологические единицы по естественным и техническим наукам, экономике, бизнесу и политике. Объем политематического машинного словаря — около 3,4 млн. слов (1,8 млн. в русско-английской части, 1,6 млн. — в англо-русской), причем 20% из них являются словами, а 80% - устойчивыми словосочетаниями со средней «длиной» в 2,2 слова.
Фирма ПРОМТ (http://www.promt.ru/rus1/news/news.htm) разработала и поставляет Интернет-переводчик PROMT Internet Translation Server, обеспечивающий перевод «на лету» Web-страниц, запросов к поисковым системам или к базам данных, представленным в Интернете.
Модуль перевода PROMT Internet встраивается в браузер Microsoft Internet Explorer, образуя средство для синхронного перевода Web-страниц Web View. При этом можно устанавливать для перевода различные языковые пары: английский — русский; английский — немецкий; английский — испанский; французский — английский; французский — немецкий.
С практической точки зрения, имея в виду качество результирующего текста и его соответствие исходному, программы машинного перевода подразделяют на три категории:
· полностью автоматический перевод;
· автоматизированный машинный перевод при участии человека;
· перевод, осуществляемый человеком с использованием компьютера.
Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов.
Программы второй категории разработчики называют МТ-программы (от Machine translation — машинный перевод). Реально автоматизированный (с участием человека) машинный перевод возможен только в условиях искусственно ограниченного, как по словарному запасу, так и по грамматике, языка.
В качестве реального успешного проекта МТ-программы часто называют немецкую систему Meteo, выполняющую перевод метеопрогнозов с французского языка на английский и обратно.
К МТ-программам относятся и продукты машинного перевода фирмы ПРОМТ, упомянутые выше, в том числе программы для просмотра содержимого Web-страниц в сети Интернет с целью поиска нужного документа.
Программы третьей категории разработчики называют ТМ-программы (от translation memory — память перевода). Эту категорию программ применяют профессиональные переводчики, осознавшие выигрыш от автоматизации их работы с помощью компьютеров. Основу ТМ-программ составляют специализированные словари, соответствующие тематике переводимого текста. При переводе используются конструкции и значения слов и устойчивых словосочетаний, выбранные профессиональным переводчиком и занесенные в словари системы, а полученный текст подвергается интенсивному редактированию. Словари и уже переведенные фрагменты текстов, запоминаемые в ТМ-системе, могут быть повторно использованы в больших коллективных проектах, ими можно обмениваться. Поэтому ТМ-системы представляют собой важное средство автоматизации труда профессиональных переводчиков.
Часто ТМ-программы используют в сочетании с МТ-программами. Наиболее популярным в мире ТМ-инструментарием является Translation’s Workbench фирмы Trados (для краткости часто также называемый Trados).
История машинного перевода насчитывает немногим более 50 лет. За это время сменилось несколько поколений систем машинного перевода — от первых программ, использовавших ограниченные ресурсы универсальных компьютеров первого поколения до современных коммерческих продуктов, использующих мощные ресурсы серверов и персональных компьютеров, включая ПК, в которых можно размещать карманные словари, а также компьютерные сети.
По мере снятия технических ограничений, налагаемых возможностями компьютеров по производительности и памяти, становилось ясно, что проблема перевода текста с одного естественного языка на другой принципиально не сводится только к перекодировке слов. Для преодоления основных трудностей проблемы машинного перевода должны быть решены задачи автоматизированного представления контекста, смыслового содержания переводимого текста, знаний о понятиях предметной области, к которой относится переводимый текст.
Вместе с тем современные достижения в области вычислительной техники, информационных технологий и технологий телекоммуникаций позволяют выдвигать на перспективу практические задачи поиска и выбора требуемой информации, представленной на разных языках, из разнородных источников, находящихся в корпоративных и глобальных информационно-телекоммуникационных сетях.
В качестве примера такой перспективной задачи можно привести системы запросов к информационным ресурсам сетей, например к базам данных, с возможностью формирования ответов по телефону в виде устной речи. Для этого требуется сочетание систем машинного перевода с системами распознавания и синтеза речи.
1.4. Стратегии компьютерного перевода научно-технических текстов
Традиционно принято выделять 8 типов технологии перевода. В современных профессиональных средах перевода возможности вычислительной техники используются на различных этапах и уровнях. Всего можно выделить восемь способов применения компьютера при переводе (таблица 1).
Таблица 1
Уровень терминов | Уровень сегментов | ||
До перевода | · Выделение терминов · Анализ терминологии | · Сегментация текста | |
Во время перевода | · Автоматический поиск терминологии | · Поиск языковых пар в памяти переводов · Машинный перевод | |
После перевода | · Проверка соответствия терминологии | · Проверка целостности сегментов, формата и грамматики | |
1.4.1. Выделение терминов и анализ терминологии
На этом этапе производится исследование текста с целью выяснения, какие слова или словосочетания могут быть взяты в качестве терминов. После того, как определен термин на исходном языке, осуществляется анализ терминологии на предмет того, какой термин на целевом языке следует выбрать для обозначения нужного концепта. Например, если в исходном тексте встретилось словосочетание «операционная система» то программа должна проанализировать его в качестве возможного термина, даже если в системе уже определены термины «операционный» и «система» .
1.4.2. Автоматический поиск терминологии
Данный процесс может быть сравнен с машинным переводом на уровне отдельных терминов. Суть его заключается в том, что в процессе работы над текстом переводчик имеет возможность видеть варианты перевода для каждого термина, и быстро вставлять нужный перевод в текст на целевом языке, не рискуя допустить опечатку. Затем идет сегментация текста. Разбиение текста на сегменты является важным подготовительным этапом для полной или частичной автоматизации перевода. Сегменты должны по возможности содержать фрагменты текста, грамматически независимые друг от друга. Иными словами, должна быть обеспечена возможность корректного перевода каждого сегмента независимо от других. Обычно разбиение на сегменты выполняется по знакам пунктуации.
Поиск языковых пар в памяти переводов
Автоматическая память переводов, или просто память переводов (Translation Memory), подразумевает, в первую очередь, просмотр ранее переведенных текстов. Она сравнивает переводимый в текущий момент текст с тем, что хранится в базе, «вспоминает» сегменты, которые изменились незначительно, и предлагает использовать их перевод повторно. Разумеется, критерии сходства сегментов могут быть различны, и они играют очень важную роль в расширении возможностей памяти переводов.
Машинный перевод
Данный способ перевода заключается в алгоритмической обработке исходного текста, в ходе которой происходит разбор сегментов, выделяются отдельные термины и отношения между ними, после чего осуществляется замена всех терминов на соответствующие термины целевого языка в нужной форме и взаиморасположении. Машинный перевод (Machine Translation) применим только в очень узком контексте и требует значительного постредактирования переведенного текста.
1.4.3 Проверка целостности сегментов, формата и грамматики
Данные действия выполняются по окончании перевода и имеют своей целью проверить, все ли сегменты остались на своих местах, сохранилась ли форматирующая информация, и корректен ли результирующий текст с точки зрения грамматики целевого языка.
Среди перечисленных технологий наибольший интерес представляют терминологические словари и память переводов, поскольку именно от их эффективности зависит скорость и качество перевода. Технология построения терминологических словарей достаточно хорошо проработана и основана на принципах, аналогичных тем, что применяются в обычных двуязычных словарях. Разбиение текста на термины обычно осуществляется по пробелам с дополнительным привлечением некоторого морфологического анализа.
Сложнее обстоит дело с организацией памяти переводов. Наряду с тривиальной задачей поиска языковой пары, включающей сегмент, идентичный заданному, память переводов должна обеспечивать возможность поиска сегментов, похожих на данный по некоторому критерию. Таким образом, центральной проблемой классической памяти переводов является построение анализатора таких «нечетких совпадений» (fuzzymatches), характеристики которого и определяют преимущества и недостатки каждой конкретной системы профессионального перевода.
1.4.4 Сфера применимости
Как следует из вышеизложенного, основой функционирования любой системы памяти переводов являются ранее переведенные тексты. Множество этих текстов постоянно пополняется новыми переводами, вследствие чего, процент автоматически переводимых сегментов, постепенно растет. Это означает, что для наиболее эффективного использования памяти переводов, все тексты должны содержать достаточное количество похожих фраз. Такое положение вещей имеет место в документации на различного рода продукты. Это обусловлено двумя факторами. Во-первых, документацию принято составлять максимально простым языком, лаконично и в строгих терминах. Во-вторых, с появлением новых версий и модификаций поставляемого потребителям продукта содержание документации меняется лишь в незначительной степени. Память переводов, в подобных случаях, избавляет переводчика от необходимости по несколько раз переводить идентичные фрагменты текста, входящие в разные документы.
В то же время, использование памяти переводов требует от переводчика специальной подготовки, а также наличия соответствующего аппаратного и программного обеспечения. Другим негативным фактором является то, что для обеспечения ожидаемого эффекта все переводы должны быть сделаны в одной и той же среде, либо в средах, совместимых по формату представления данных. Наконец, полезный эффект памяти переводов проявляется с заметной отсрочкой во времени, требуя поначалу дополнительных капиталовложений.
Резюмируя вышесказанное, можно выделить три условия применимости рассматриваемой технологии:
1. большой объем перевода;
2. однотипность переводимых текстов;
3. готовность к отсроченному возврату капиталовложений
1.5 Принцип работы электронных переводчиков
Память переводов представляет собой базу данных, хранящую языковые пары, и определенный механизм поиска. Несмотря на то, что различные профессиональные среды перевода, такие как «Translator's Workbench» фирмы Trados, «Transit» фирмы Star, «DejaVu» фирмы Atril, имеют, по-видимому, различную реализацию этого механизма («по-видимому», поскольку алгоритмы не придаются огласке), общая идея становится ясной после изучения примеров. Поэтому с примеров и начнем.
Пусть в исходном тексте встречаются следующие фразы: " Температура регулируется поворотом ручки."
" Температура регулируется поворотом ручки по часовой стрелке."
" Напор воды регулируется поворотом ручки по часовой стрелке."
Если сегментация выполняется по предложениям, то каждая из приведенных фраз попадет в отдельный сегмент. Пусть первый сегмент был переведен человеком следующим образом:
" Die Temperature wird mit Knopfdrehung reguliert."
Языковая пара, состоящая из исходного и переведенного сегментов, заносится в память переводов. Когда переводчик доходит до второй фразы примера, система определяет сходство и выводит на экран следующую информацию: таблица 2.
Таблица 2
Текущий сегмент | Температура регулируется поворотом ручки по часовой стрелке | |
Найденный сегмент | Температура регулируется поворотом ручки | |
Перевод | Die Temperatur wird mit Knopfdrehung reguliert | |
Степень сходства | ~70% | |
После того, как сегмент, соответствующий второй фразе примера помечается как переведенный, в памяти переводов появляется еще одна языковая пара. Тем самым, когда дело доходит по третьей фразы, система уже имеет возможность показать переводчику два похожих варианта: таблица 3.
Таблица 3
Текущий сегмент | Напор воды регулируется поворотом ручки по часовой стрелке | |
Найденная языковая пара 1 | Температура регулируется поворотом ручки по часовой стрелке | |
Die Temperatur wird mit Knopfdrehung in Uhrzeigesinn reguliert | ||
Степень сходства | ~65% | |
Текущий сегмент | Напор воды регулируется поворотом ручки по часовой стрелке | |
Найденная языковая пара 2 | Температура регулируется поворотом ручки | |
Die Temperatur wird mit Knopfdrehung reguliert | ||
Степень сходства | ~40% | |
Воспользовавшись, к примеру, первым из предложенных вариантов, переводчик быстро расправляется с оставшейся частью фразы. Эффективность работы памяти переводов во многом определяется тем, насколько удачно решены следующие задачи:
1. сегментация;
2. обработка специальных символов и форматирующей информации.
Очевидно, что с увеличением размера сегментов будет уменьшаться число полных совпадений (и увеличиваться число частичных), что сильно повысит ресурсоемкость процедур поиска и потребует от переводчика значительных усилий в изучение предоставленных ему в качестве вариантов перевода языковых пар. С другой стороны, уменьшение размера сегментов сделает их малопригодными для повторного использования, поскольку сильно возрастет влияние контекста на перевод. Оптимальной единицей сегментации чаще всего оказывается фрагмент предложения, ограниченный знаками препинания. Во избежание ошибочной сегментации по точкам внутри аббревиатур и других подобных случаев используют регулярные выражения и списки исключений.
Вторая проблема обусловлена тем, что в тексте кроме букв зачастую присутствуют иные символы, как то: маркеры внедренных в документ объектов, закладки, перекрестные ссылки, переключатели свойств шрифта. Все эти инородные элементы в ряде случаев могут повлиять на перевод. Например, выделенное курсивом слово может при переводе быть взято в кавычки и попасть в результирующий текст в неизменном виде. Для управления поведением анализатора в таких ситуациях во многих программных продуктах предусмотрены специальные настройки, в том числе, основанные на применении регулярных выражений.
Поиск и добавление
До тех пор, пока память переводов была линейной, сегменты неделимыми, а сравнение строгим, решение задачи поиска сводилось к введению отношения строгого лексикографического порядка над множеством сегментов на исходном языке. Иными словами, определялся оператор «меньше», на основе которого можно было осуществить обыкновенный двоичный поиск, и проверку на равенство. С введением оператора «нечеткого совпадения», который позволял оценить степень сходства для любых двух сегментов, решение проблемы поиска резко усложнилось и, без дополнительных ухищрений с различного рода индексацией, стало эквивалентно задаче полного перебора. Предложенная многоуровневая модель памяти переводов, собственно, и предоставляет некоторый механизм неявной индексации: каждое входящее в сегмент слово, по сути, идентифицирует некоторое подмножество ориентированного графа памяти переводов, состоящее из узлов, которые можно достичь, начав обход от узла, соответствующего выбранному слову.
Используя особенности выбранной структуры памяти переводов, задачу поиска сегментов, похожих на заданный, можно решить путем выполнения следующих действий (рис. 4):
1. разбить заданный сегмент на слова;
2. найти в памяти переводов все узлы, соответствующие этим словам;
3. спускаясь по графу отношений наследования, помещать в список найденных сегментов все встречаемые узлы.
Рис. 4
Резонным представляется вопрос о том, в каком порядке следует предоставлять найденные сегменты переводчику: ведь приведенная процедура поиска выберет из памяти все сегменты, пересекающиеся с заданным по крайней мере по одному слову. Каковы правила фильтрации и сортировки найденных сегментов?
Ответ на этот вопрос лежит за пределами выбранного формализма, однако в этом нет ничего страшного. Дело в том, что результат поиска представляет собой классический вариант одноуровневой памяти переводов, анализ которого может быть произведена методами, формализованными в рамках существующих сред перевода. Для обеспечения эффективности поиска целесообразно осуществлять оценку «пригодности» сегментов по мере их нахождения. Например, если некоторый сегмент полностью совпадает с эталоном, то все его потомки в графе могут быть автоматически исключены из поиска.
Теперь поговорим о задаче добавления нового сегмента в память переводов. Очевидным условием корректности процедуры добавления является обеспечение успешного поиска. Стало быть, добавляемый сегмент должен иметь в числе своих предков (не обязательно прямых) все составляющие его слова. Следуя целям оптимальности, можно заключить, что среди предков должны присутствовать также узлы графа, содержащие фрагменты данного сегмента. Иными словами, если в памяти переводов присутствуют сегменты «AB» и «CD», то сегмент «ABCD» должен стать наследником этих двух сегментов. Аналогично, если в памяти присутствует сегмент «ABCD», то добавляемый сегмент «AB» должен стать его предком. В общем случае при добавлении сегмента в граф памяти переводов могут существовать альтернативные варианты наследования. В такой ситуации схема добавления заметно усложнится. В любом случае, проблема построения оптимальной иерархии классов решается в рамках объектно-ориентированного подхода, поэтому мы не будем заострять здесь на ней внимание.
Долгое время системы машинного перевода и памяти переводов представляли два конкурирующих направления и никогда не рассматривались вместе кроме как в противопоставлении. На сегодняшний день взгляды меняются, и хотя фирмы не придают своим ноу-хау широкой огласки, заметна тенденция к совместному использованию в некоторых системах обеих технологий. Предлагаемая модель демонстрирует один из возможных вариантов такой интеграции. Более того, она представляет собой попытку показать, что под машинный перевод и память переводов можно подвести общую основу, и создать такую систему профессионального перевода, в которой оба механизма действуют как единое целое.
ГЛАВА 2. Ошибки, возникающие в процессе компьютерного перевода текстов научно-технического характера. Искажения, неточности, неясности
При компьютерном возникает ряд типичных ошибок. Интересен тот факт, что текст получаемый при помощи разных электронных переводчиков так же различается.
2.1 Типология ошибок
Классификация ошибок, появляющихся как результат некорректного компьютерного перевода и передачи исходного текста, весьма простаспецифика и степень воздействия ошибки на адресата перевода.
Искажение существенно дезинформирует адресата относительно предметно-логического и прагматического значения в исходном тексте.
Неточности так же как и искажения, дезинформируют адресата перевода относительно предмета высказывания. Однако степень дезинформации менее существенна, чем в случае искажения.
При оценке ущерба для двуязычной коммуникации в результате неверной передачи исходного содержания следует, разумеется, иметь ввиду и жанр переводимого текста, и прежде всего подразделение текстов на те, в которых изложены факты, и те что построены на артефактах (художественном вымысле). Порой то, что в первом случае было искажением, во втором можно отнести к неточности.
Неясность отличается от искажения и неточности тем, что оказывает на адресата не столько дезинформирующее, сколько дезориентирующее воздействие: если в первых двух случаях мысль адресата, можно условно сказать, направляется не в ту сторону, то в случае неясности она порой просто как ты топчется на месте, не зная, какое направление избрать, поскольку содержание изложено переводчиком таким образом, что непонятно «куда мысли идти».
Как показывает практика, причиной недочетов в части передачи исходного содержания может быть не только непонимание или недостаточное понимание этого текста программой, но и просто неудачный подбор переводческого соответствия.
2.2 Сравнительный анализ
В качестве примера хотелось бы привести перевод статьи из журнала «Deutschland» сделанной при помощи переводчика PROMT 7 Giant.
Исходный текст:
Peking
Zentrale des chinesischen Staatsvernsehens und TV-Kulturzentrum.
Es ist der Werk, das an die Grenzen der Architektur geht und die naturlichen Gesetze der Schwerkraft offensichtlich ignoriert: das neue Gebaude des chinesischen Staatsvernsehens CCTV. In Pekings Geschaftsviertel ragen die beiden L-formigen Turme schrag in die Hoheeine unglaubliche Statik. Die Turme scheinen fast umzufallen, am Ende werden sie uber 200 Meter hoch sein. Verantwortlich fur dieses aufregende Bauprojekt, eines der gro? ten weltweit, ist der deutsche Architekt Ole Scheeren. Der 36-Jarige ist Partner im Office for Metropolitan Architekture (OMA) des niederlandischen Stararchitekten Rem Koolhaas Ole Scheeren kummert sich um das Asiengeschaft des Architektenburos und leitet in Peking seit funf Jahren ein Team von 60 Architekten und 120 Ingenieuren. Im CCTV-Neubau aus Glas und Stahl werden spater einmal 10 000 Menschen arbeiten, seine Nutzflache betragt gigantische 540 000 Quadratmeter. Im Jahr 2009 soll die neue Fernsehzentrale fertig sein. Im angrenzenden TV-Kulturzentrum (TVCC) werden bereits wahrend der olympischen Spiele 2008 Fernsehsender aus aller Welt untergebracht. Fur Ole Scheeren gibt es derzeit kein vergleichbares Bauobjekt: «Das statische System des CCTV ware wahrscheinlich vor funf bis zehn Jahren nicht zu realisieren gewesen, weil die Computer-Software nicht weit genug entwickelt waren.
Компьютерный вариант перевода:
Центр китайского Staatsvernsehens и телевизионный культурный центр.
Это произведение{завод}, которое идет у границ архитектуры и игнорирует естественные законы силы тяжести, очевидно: новое здание китайского Staatsvernsehens CCTV. В торговом квартале Пекина обе башни в форме л возвышаются косо на высоту невероятную статику. Башни почти, кажется, падают, в конце они будут высотой 200 м. Ответственно для этого волнующего строительного проекта, одного самый большой во всем мире, является немецкий архитектор Оле Шерен. 36-Jдrige — это партнер в Office Metropolitan (БАБУШКА) нидерландского звездного архитектора Rem Koolhaas Ole Scheeren заботится о деле Азии офиса архитектора и руководит{провожает} в Пекине уже 5 лет группа{команда} 60 архитекторов и 120 инженеров. В новостройке CCTV из стакана{стекла} и стали 10 000 людей будут работать позже однажды, его{ее} полезная площадь составляет гигантские 540 000 кв.м. В 2009 году должен быть готов новый телевизионный центр. В смежном телевизионном культурном центре (TVCC) 2008 телекомпаний размещаются уже во время олимпийских игр{геймов} со всего света. Для Ole Scheeren не имеется теперь{тогда} никакого сравнимого строительного объекта: «Статическую систему CCTV не нужно было бы реализовать, наверное, от 5 до 10 лет назад, так как компьютерное программное обеспечение не были достаточно недалеко разработаны.