Помощь в написании студенческих работ
Антистрессовый сервис

Порождение первичных правил

РефератПомощь в написанииУзнать стоимостьмоей работы

Первичные правила порождаются на основе слогов вида CV > CV: i-му символу слога ставится в соответствие i-й символ его перевода, при условии, что оба символа обозначают звуки одного и того же типа (гласные или согласные). При таком подходе вероятность порождения некорректного правила очень мала. Временными правилами мы называем правила, используемые при обучении системы правил. Временное правило… Читать ещё >

Порождение первичных правил (реферат, курсовая, диплом, контрольная)

Первый этап порождения правил — порождение первичных правил. Первичными правилами мы называем правила транслитерации, то есть правила, для которых |p2| = |c| = 1.

Первичные правила порождаются на основе слогов вида CV > CV: i-му символу слога ставится в соответствие i-й символ его перевода, при условии, что оба символа обозначают звуки одного и того же типа (гласные или согласные). При таком подходе вероятность порождения некорректного правила очень мала.

В порожденном множестве первичных правил могут содержаться неоднозначности, то есть пары правил r1 = и r2 = такие, что r1(p2) = r2(p2) и r1©? r2©. Такие ситуации в принципе возможны в языке, но на данном этапе неоднозначность, скорее всего, обозначает влияние на букву окружающих ее букв. Для избавления от неоднозначностей вводится новый тип правил — временные правила.

Временными правилами мы называем правила, используемые при обучении системы правил. Временное правило представляет собой тройку r=, где p и c описаны выше (см. п. 1.2); s — множество слогов, удовлетворяющих правилу.

При генерации правила в его множество s добавляется слог, на основе которого оно было сгенерировано. При обучении системы правил слог, к которому удалось применить правило, добавляется в множество s. Хранение всех слогов позволяет при обнаружении неоднозначностей в правилах составлять более полные контексты, а также выявлять частотность употребления правила (например, если правилу удовлетворяет только один слог, можно с большой вероятностью утверждать, что это исключение).

Избавление от неоднозначностей производится следующим образом.

Для каждого правила ri, для которого существует rj, такое что ri (p2) = rj (p2), ri©? rj©, для каждого sk из ri (s) составляется новое правило rik =, такое, что: rik (p2) = ri (p2), rik© = ri©, rik (p1) =, где v1-VI — символ, предшествующий p2 в слоге sk, rik (p3) =, где v2-VI — символ, следующий за p2 в слоге sk. В случае если p2 — начальная или заключительная подстрока в слоге, v1 и v2 берутся из предыдущего или следующего слога соответственно.

После порождения системы первичных правил производится расширение их контекстов на основе слогов вида CnV > CnV, где n > 1. Каждый слог si, который не может быть целиком разобран с помощью существующей системы правил, можно представить как >, где px > cx — подстрока, не удовлетворяющая ни одному из существующих правил. Можно выделить три случая несоответствия px правилам:

существует ri такое, что px = ri (p2), cx = ri©, но pik? {v11} или pik+1 {v31} (т.к. ri (p1) =, ri (p3) =). В этом случае контекст правила ri расширяется: ri (p1) =, ri (p3) = ;

не существует ri такого, что px = ri (p2) и cx = ri©. В этом случае составляется новое правило rj такое, что rj (p1) =, rj (p2) = px, rj (p3) =, rj© = cx, rj (s) = {si};

существует ri такое, что px = ri (p2), pik — {v11} и pik+1 — {v31} (т.к. ri (p1) =, ri (p3) =), cx? ri©. Это может объясняться одной из следующих причин:

контекст правила ri недостаточен для правильной интерпретации подстроки, и надо рассматривать не один, а несколько символов, предшествующих ей или следующих за ней. Например, для имени Marin > Марен (франц.) было порождено правило i > е, которое при избавлении от неоднозначностей приобрело вид i{n}> е. Но имя Marine > Марин не удовлетворяет этому правилу, потому что i переходит в е (э) только если после него стоит n и слог является закрытым (заканчивается на согласную). В этом случае нужно проверять не один, а два следующих за i символа.

Подстрока может читаться двумя различными способами в силу причин, не зависящих от контекста. В шведском языке е читается как «о», однако в машиночитаемых текстах без диакритик е заменяется на аа. Между тем сочетание двух шведских букв, а будет передаваться на русский язык как «аа». В тестовой выборке для шведского языка можно встретить примеры неоднозначностей Baad > Баад, Baang > Бонг, Haapanen > Хаапанен Haafman > Хофман, которые нельзя предугадать, имея в качестве обучающей выборки машиночитаемый файл. Значит, для каждого шведского имени, содержащего подстроку «aa», будет сгенерировано два варианта перевода.

В настоящее время нет алгоритма выбора одной из двух описанных причин и избавления от подобных неоднозначностей.

Показать весь текст
Заполнить форму текущей работой