Инструменты.
Исследование параметров сегментации при статистическом машинном переводе с арабского на русский язык

РефератПомощь в написанииУзнать стоимостьмоей работы

Переводы оценивались по автоматической метрике BLEUScore с максимальным размером n-грамм, равным четырем. При оценке текста он был токенизирован. При этом стоит отметить, что при построении модели не проводилось рекейсинга, поэтому полученный машинный перевод сравнивался с референтным корпусом без учета регистра. Для построения и тюнинга моделей перевода использовалась описанная ранее система… Читать ещё >

Инструменты. Исследование параметров сегментации при статистическом машинном переводе с арабского на русский язык (реферат, курсовая, диплом, контрольная)

Для первичного разбиения арабской части параллельного корпуса использовался такой инструмент, как Stanford Word Segmenter — обучаемый сегментатор, модель которого была обучена на основе стандарта Penn Arabic Treebank 3. Одной из наиболее полезных особенностей данного инструмента является то, что он позволяет отмечать префиксы и суффиксы. Stanford Word Segmenter работает на основе принципа условных случайных полей. В предлагаемой версии, он позволяет отделить большинство клитиков. Исключение состовляет определенный артикль Зб — модель обучена таким образом, что данная морфема не отделяется от слова, к которому она относится.

Предположение о том, что удаление определенного артикля может также улучшить перевод выглядело досаточно обоснованным, поэтому было решено постараться реализовать удаление артиклей. Очевидной причиной к этому являлось отсутствие артиклей или каких-либо иных показателей определенности в русском языке. Для выполнения данной задачи был разработан скрипт на языке Perl, удаляющий Зб в начале слов. Для того, чтобы постараться минимизировать возможные удаления Зб в начале слов в тех случаях, когда это сочетание букв не является артиклем, был сформиован список начинающихся таким образом арабских слов. Естественно, такая методология имеет очевидные недостатки. Список слов ни в коем случае не можеть считаться исчерпывающим, так как арабский язык является в высшей степени синтетическим и обладает исключительно богатой морфологией.

Кроме того, предполагалось проверить влияние отделения приставки У, являющейся одним из вариантов образования будущего времени, на результаты арабско-русского статистического перевода. Сомнения по поводу того, необходимо ли ее отделять от остальной части глагола, возникли из-за того, что в русском языке будущее время части передается одним словом. Для того, чтобы рещить эту задачу, приставка будущего времени прикреплялась обратно к следующему за ней слову после работы Stanford Word Segmenter в текстовом редакторе Akelpad.

Для построения и тюнинга моделей перевода использовалась описанная ранее система Moses.

Показать весь текст

Заполнить форму текущей работой

Другие работы

«My uncle Silas» H.E. Bates

The text is full of stylistic devices and figures of speech, especially we can see it in Silas’s speech. There are unfinished sentences or aposiopesis («never mattered to me since that day when…», «you want me…»), metaphors («as bitter and stinging as ice», «lathered thinly, like snow», «like an ostrich»), repetition «You want to finish me? Who want to finish me! You want me…» in some variants…

Анализ книги

Подробнее...

Время в романе Ф. М. Достоевского «Преступление и наказание»

Символика чисел в романе «Преступление и наказание» восходит к библейской и фольклорной числовой символике: четыре стороны света — слова Сони: «стань на перекрёстке, поклонись, поцелуй сначала землю… поклонись всему свету на все четыре стороны; четыре евангелия. Символично и число 3, которое также вплетается в художественное пространство и время романа «Преступление и наказание…

Курсовая

Подробнее...

Антиутопия начала и конца 20 века: С. Замятин «Мы» в сравнении с А. Петрушевской «Гигиена», Войнович «Мы лучше всех»

Установленный режим получил название «лучшизм», идеология государства выражается в лозунге «Мы лучше всех». Граждане государства берут на себя обязательства быть лучше всех: «Тут надо несколько слов сказать о наших обязательствах. Мы, конечно, и так уже были лучше всех, но, собираясь между собой, брали на себя обязательство быть еще лучше. Один, скажем, говорит: «Беру на себя обязательство стать…

Курсовая

Подробнее...

Вишневый сад. История русской литературы XIX века

Между тем спасти имение, вишневый сад, которым Раневская и Гаев так дорожат, и самих себя вместе с ним сестре и брагу ничего не стоит, нужно только последовать совету Лопахина: разбить землю на дачные участки и выставить их на продажу. Однако они на протяжении всего действия и пальцем не пошевельнут, чтобы хоть что-то сделать, их поступки выливаются в бесконечные разговоры и в бессмысленные…

Реферат

Подробнее...

«Ум резким, сильным и насмешливый»: марк алданов (ландау) (1886-1957)

Алданов задолго до Оруэлла (1903—1950) и Кестлера (1905—1983) обнаружил связь между тоталитарной идеологией и распадом морали. Он первым не только задал вопросы: «Что же мы сделали? Для чего опоганили жизнь и себя? Для чего отправили на тот свет миллионы людей? Для чего научили весь мир невиданному по беззастенчивости злу?», но и первыми словами одного из героев романа — профессионального…

Реферат

Подробнее...

Языковая специфика русских и английских народных сказок

Следующим распространенным тропом в сказках являются эпитеты. Энциклопедический словарь дает следующее определение эпитета: «Эпитет (от греч. Epitheton) один из тропов, образное определение предмета (явления), выраженное преимущественно прилагательным, но также наречием, именем существительным, числительным, глаголом. В отличии от обычного логического определения, которое выделяет данный предмет…

Реферат

Подробнее...

Общепедагогические и дидактические взгляды Толстого 90--900-х годов

Толстой высказал много ценных мыслей о методике обучения. При выборе методов он советовал исходить из отношения учеников к тому или другому методу. «Только тот способ преподавания верен, которым довольны ученики», — писал Толстой. Он указывал, что не следует придерживаться какого-либо одного метода, так как нет такого метода, который бы обладал универсальными свойствами. Надо применять…

Реферат

Подробнее...

Наташа прозорова — персонифицированный образ «мирового зла»

Следует отметить метафизичность чеховской драмы. Автор фиксирует, что во время первого действия светит солнце, воспоминания об отце также пропитаны дневной (солнечной) символикой: «Отец получил бригаду и выехал с нами из Москвы одиннадцать лет назад, и, я отлично помню, в начале мая, вот в эту пору, в Москве уже все в цвету, тепло, все залито солнцем». День смерти отца, совпавший с отъездом…

Реферат

Подробнее...

Паремии профессиональной сферы: лингво-культурологический аспект

Не все становятся мастерами своего дела: Всяк спляшет, да не как скоморох; Из него мастер, как из пивной бочки кадило; Дело мастера боится, а иной мастер дела боится; Коли не коваль, так и рук не погань; Кто шьет, а кто и порет; Мастер, мастер: подавал глину на стену; Мастер один, а подносчиков десять; Не тот стрелок, кто стреляет, а тот, кто попадает; Шить горазд и подшивать горазд, а щетинку…

Реферат

Подробнее...

ЛСГ наносить / нанести негромкий глухой удар

Данный ономатоп отличается от остальных звукоподражательных глаголов тем, что обозначает действие, объектом удара при котором является что-либо жидкое — вода, грязь, соответственно используется иное звуковое оформление для передачи признаков денотата. В качестве инициали выступают непрерванный глухой и высокий сонорный диезный. Гласный бемольный продвинут вперёд в начале своей артикуляции…

Реферат

Подробнее...

Анализ учебно-методических комплексов по английскому языку с точки зрения способов снятия коммуникативного барьера

В данном упражнении автор использует работу в парах. Учащимся необходимо в парах поделиться своей точкой зрения. При формировании своего мнения учащимся следует использовать данные слова и словосочетания. Конечно, предложенная тема животрепещуща для старшеклассников, но из-за отсутствия конкретной ситуации к диалогу данное упражнение не снимает коммуникативный барьер. Анализ данного УМК показал…

Реферат

Подробнее...

Классификация обращений в произведениях В.Н. Войновича

Лукинишной назвала Авдотью баба с ребенком, когда ее дочь стала Владычицей: «Лукинишна, — сказала она, сунув ей кусок сала, завернутый в тряпку, — замолви словечко перед Владычицей, дите мается, криком кричит…». Подобное обращение с редуцированием суффиксов (ср. Афанасьевич и Афанасич, Егорович и Егорыч) считается фамильярным и свидетельствует о близких отношениях между адресатом и адресантом…

Реферат

Подробнее...

Американские фразео-неологизмы и их характеристика

Сфера спорта также не стоит на месте и в ней появляется большое количество фразео-неологизмов. Как известно, американцы отличаются особо трепетным отношением к вопросам честности и чести. Собственно, они и заложили высокие этические стандарты современного спорта, нашедшие выражение в терминах fair play и sportsmanship. Много новых идиом появляется в сфере бизнеса. Американские офисы просто…

Реферат

Подробнее...

Red в семантической структуре лексемы blood: этимологический и структурно-семантический анализ

В английском языке также есть ЛЕ, которые этимологически восходят к разным представлениям о крови и в смысловом отношении являются номинациями цвета крови. Такими ЛЕ являются gory (алый, кроваво-красный), ensanguined (кроваво-красный), sanguine (кроваво-красный). ЛЕ gory является производной от gore, которая, в свою очередь, определяется как запекшаяся, свернувшаяся кровь или кровь, пролитая…

Реферат

Подробнее...