Для первичного разбиения арабской части параллельного корпуса использовался такой инструмент, как Stanford Word Segmenter — обучаемый сегментатор, модель которого была обучена на основе стандарта Penn Arabic Treebank 3. Одной из наиболее полезных особенностей данного инструмента является то, что он позволяет отмечать префиксы и суффиксы. Stanford Word Segmenter работает на основе принципа условных случайных полей. В предлагаемой версии, он позволяет отделить большинство клитиков. Исключение состовляет определенный артикль Зб — модель обучена таким образом, что данная морфема не отделяется от слова, к которому она относится.
Предположение о том, что удаление определенного артикля может также улучшить перевод выглядело досаточно обоснованным, поэтому было решено постараться реализовать удаление артиклей. Очевидной причиной к этому являлось отсутствие артиклей или каких-либо иных показателей определенности в русском языке. Для выполнения данной задачи был разработан скрипт на языке Perl, удаляющий Зб в начале слов. Для того, чтобы постараться минимизировать возможные удаления Зб в начале слов в тех случаях, когда это сочетание букв не является артиклем, был сформиован список начинающихся таким образом арабских слов. Естественно, такая методология имеет очевидные недостатки. Список слов ни в коем случае не можеть считаться исчерпывающим, так как арабский язык является в высшей степени синтетическим и обладает исключительно богатой морфологией.
Кроме того, предполагалось проверить влияние отделения приставки У, являющейся одним из вариантов образования будущего времени, на результаты арабско-русского статистического перевода. Сомнения по поводу того, необходимо ли ее отделять от остальной части глагола, возникли из-за того, что в русском языке будущее время части передается одним словом. Для того, чтобы рещить эту задачу, приставка будущего времени прикреплялась обратно к следующему за ней слову после работы Stanford Word Segmenter в текстовом редакторе Akelpad.
Для построения и тюнинга моделей перевода использовалась описанная ранее система Moses.
Переводы оценивались по автоматической метрике BLEUScore с максимальным размером n-грамм, равным четырем. При оценке текста он был токенизирован. При этом стоит отметить, что при построении модели не проводилось рекейсинга, поэтому полученный машинный перевод сравнивался с референтным корпусом без учета регистра.