Введение.
Исследование параметров сегментации при статистическом машинном переводе с арабского на русский язык

РефератПомощь в написанииУзнать стоимостьмоей работы

Введение. Исследование параметров сегментации при статистическом машинном переводе с арабского на русский язык (реферат, курсовая, диплом, контрольная)

Машинный перевод является динамично развивающейся областью обработки естественного языка, широко представленной на современном рынке информационных технологий. Технологии машинного перевода позволяют получать моментальные переводы значительных объемов текста, тем самым позволяя переводчикам экономить время, а компаниям — сокращать затраты на перевод нужных им текстов.

С помощью машинного перевода в наше время решаются многие задачи, которые раньше требовали значительно большего времени и ресурсов. В качестве примера таких ситуаций можно привести локализации веб-сайтов и программного обеспечения, перевод техической документации, анализ медиапространства интересующих компании регионов, ускорение деловой переписки. Помимо корпоративного сегмента, машинный перевод также широко применяется для личных целей — общения между людьми, перевода интересующих пользователя текстов и изучения иностранных языков.

Кроме непосредственного перевода текстов, машинный перевод применяется также и в ряде смежных областей, связанных с обработкой естественного языка. Например, в последнее время все более пристальное внимание обращает на себя идея сочетать машинный перевод с автоматическим распознаванием и синтезом речи, что в перспективе позволяет решить многие коммуникативные проблемы. Кроме того, важным направлением для занимающихся машинным переводом компаний является его интеграция с автоматическим распознованием текста, предоставляющая возможность перевода текста, размещенного на неэлектронных носителях. В-третьих, машинный перевод можно применять вместе с семантико-синтаксическими парсерами либо инструментами для извлечения мнений для того, чтобы анализировать интересующие компанию документы.

Статистический машинный перевод — один из наиболее популярных видов машинного перевода, наряду с переводом, основанным на правилах и гибридном переводом (сочетающим в себе элементы статистического перевода и перевода, основанного на правилах). Основной идеей статистического машинного перевода является обучение модели с помощью параллельного корпуса на целевом и исходном языке. При этом, такие лингвистические задачи, как установления соответствий между словами двух языков, определение правильно порядка слов в генерируемом тексте и обеспечение его «естественности» с точки зрения носителя решаются алгоритмически.

Важным преимуществом статистического машинного перевода является возможность быстрой разработки решений для пары языков. В самом деле, для обучения модели достаточно иметь параллельный корпус достаточного размера и вычислительные мощности для запуска программного обеспечения. При этом, для разработки систем перевода, основанных на правилах, необходимо потратить достаточно большое количество средств на специалистов, владеющих языками рассматриваемой пары. Кроме того, создание системы, способной генерировать сколько-либо приемлемые тексты на целевом языке, займет большое количество времени из-за сложности и многообразия естественного языка. Вдобавок к этому, сама задача поиска лингвистов, специализирующихся в изучении некоторых языков (либо просто их носителей) часто бывает достаточно затруднительной, если ареал распространения языка далек от физического местоположения занимающейся машинным переводом компании. Статистический машинный перевод избавлен от данных недостатков: благодаря высокой степени автоматизации процесса, разрабатывать системы перевода и, в определенной степени, оценивать получившиеся результаты могут даже специалисты, не владеющие языками выбранной пары. Таким образом, использование статистического машинного перевода позволяет компаниям значительно сокращать издержки на разработку моделей перевода требуемых языковых пар и делает возможным такую разработку в крайне сжатые сроки.

Несмотря на то, что лингвистические задачи в статистическом машинном переводе решаются алгоритмически, у разработчика системы перевода все равно остаютя возможности улучшить качество продукта для выбранной пары языков. Одним из способов добиться этого является предобработка текста на исходном языке. Практическая реализация этой идеи выбирается на основе особенностей рассматриваемых языков. В частности, если в исходном языке существует тенденция включать ряд морфем в состав других слов, а в целевом — записывать их отдельно, то проведение морфологической сегментации способно улучшить поиск соответствий между словами и снизить недостаточность данных, что, в свою очередь, может благоприятно сказаться на переводе. Кроме того, в некоторых языках текст в принципе не делится на слова каким-либо явным образом. Арабскому языку свойственна запись некоторых частей речи слитно с другими словами в качестве клитиков, поэтому при переводе арабских текстов на языки, в которых не наблюдается такой особенности — к примеру, на русский — логичной кажется идея использовать морфологическую сегментацию арабской части треиноровочного корпуса.

Арабский язык является одним из наиболее распространенных в мире. Согласно некоторым оценкам, на нем разговаривает около 295 миллионов человек, что делает его пятым языком мира по численности носителей. Важности этому языку добавляет тот факт, что арабский является государственным языком ряда экономически развитых государств — экспортеров углеводородов и международным экономических центров. Кроме того, многие арабские страны традиционно предоставляют большое количество информационных поводов из-за напряженной внутренней обстановки. При этом, было опубликовано достаточно малое количество исследований о машинном переводе с арабского на русский язык, что обуславливает актуальность данной работы. В частности, работы по изучению различных вариантов предобработки арабского текста для статистического машинного перевода на русский язык практически отсутствуют.

Практическая значимость исследования заключается в том, что его результаты могут помочь улучшить качество статистического машинного перевода с арабского на русский язык. Также, рассмотренные идеи могут применяться в гибридных системах перевода. Кроме того, они могут использоваться в дальнейших исследованиях по арабско-русскому машинному переводу.

Основой целью данной работы является изучение того, как морфологическая сегментация арабского текста влияет на его перевод на русский язык.

В задачи работы входило:

· рассмотреть следующие этапы, необходимые для построения модели статистического машинного перевода:
- § выравнивание по словам параллельного корпуса на исходном и целевом языке,
- § построение фразовой таблицы,
- § создание модели перестановок,
- § обучение языковой модели,
- § работа декодера,
- § тюнинг,
· сформулировать основные варианты сегментации,
· изучить инструменты для осуществления требуемой обработки,
· подготовить систему перевода, в том числе:
- § удалить диакритические знаки в арабском тексте,
- § сегментировать тесксты согласно выбранным схемам,
- § обучить модели перевода с помощью системы Moses,
- § провести тюнинг получившихся моделей,
- § получить оценки переводов по метрике BLEUScore,
· проанализировать результаты.

Материалом для исследований стал корпус лекций платформы TED, доступный и на арабском, и на русском языке. Объем корпуса составлял 117 987 строк. Из данного корпуса были выделены тренировочный, тюнинговый и тестовый корпуса.

Показать весь текст

Заполнить форму текущей работой