Исследование и разработка методов автоматизации процессов практической транскрипции имен собственных

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Исследование и разработка методов автоматизации процессов практической транскрипции имен собственных (реферат, курсовая, диплом, контрольная)

Содержание

Глава 1. Анализ существующих систем практической транскрипции
- 1. 1. Общая характеристика систем транскрипции
- 1. 2. Ручное составление правил
- 1. 3. Обучение модели транскрипции
  - 1. 3. 1. Выравнивание
  - 1. 3. 2. Порождающие методы
  - 1. 3. 3. Дифференциальные методы
- 1. 4. Соревнование систем транскрипции
- 1. 5. Методы транскрипции
- 1. 6. Смежные задачи
- 1. 7. Выводы к главе 1
Глава 2. Метод порождения правил транскрипции
- 2. 1. Формат правил
- 2. 2. Предпосылки создания метода
- 2. 3. Метод порождения правил
  - 2. 3. 1. Первичные правила
  - 2. 3. 2. Сложные правила
  - 2. 3. 3. Дальнейшее усовершенствование правил
- 2. 4. Выводы к главе 2
Глава 3. Метод транскрипции с помощью конечного автомата
- 3. 1. Преобразование строки с использованием правил
- 3. 2. Структура конечного автомата
- 3. 3. Построение конечного автомата
- 3. 4. Детерминированный конечный автомат
  - 3. 4. 1. Процедура преобразования НКА в ДКА
  - 3. 4. 2. Унификация системы правил
  - 3. 4. 3. Эквивалентность НКА и ДКА
  - 3. 4. 4. Преобразование системы правил в ДКА
- 3. 5. Эквивалентность автомата системе правил
- 3. 6. Усовершенствование конечного автомата
- 3. 7. Скорость работы конечного автомата
- 3. 8. Выводы к главе 3
Глава 4. Практическая реализация и оценка качества разработанных методов
- 4. 1. Описание программной системы
- 4. 2. Методы оценки качества систем транскрипции
- 4. 3. Обучающие данные
- 4. 4. Оценка метода порождения правил
  - 4. 4. 1. Анализ правил транскрипции
  - 4. 4. 2. Численные оценки результатов
- 4. 5. Оценка метода транскрипции
- 4. 6. Выводы к главе 4

Необходимость правильной организации процессов хранения информации, связанная как с быстрым ростом объемов информации, так и с увеличением количества вовлекаемых предметных областей, привела к появлению в программировании и вычислительной технике целого ряда новых направлений. Это, например, электронный документооборот, а также технологии, сконцентрированные на организационных (CALS-системы1) или технических (ILM2, PDM3 и т. д.) аспектах хранения информации. Применение и развитие электронного документооборота позволило перейти к практической реализации серии крупных проектов (как государственных, так и коммерческих), существенно упрощающих жизнь и работу граждан.

Однако помимо хранения информации остро встает вопрос создания методов и алгоритмов ее обработки. Большинство хранимой документации представлено в текстовом виде, в связи с чем стоит задача разработки специализированных методов и алгоритмов: анализа и синтеза текстов на естественном языкепроверки полноты, корректности документовпроверки отсутствия грамматических ошибокперевода и др. Так, например, международная торговля предполагает оформление документов, соответствующих международным стандартам, тогда как по российскому законодательству документы должны быть оформлены на русском языке, а значит, возникает необходимость их перевода с/на иностранный. Территориальное распределение технологических процессов требует ведения документации на нескольких языках, что в условиях огромных объемов информации также влечет за собой необходимость использования машинного перевода.

При переводе текста с одного языка на другой имена собственные, встретившиеся в этом тексте, также должны быть каким-то образом переведены, особенно если перевод осуществляется между языками, использующими различные системы письма. Иногда возможен перевод, если у имени есть лексическое значение. Например, мыс Доброй Надежды: африкаанс — Каар die Goeie Ноор, нидерландский.

1 CALS-система (англ. Continuous Acquisition and Life cycle Support — непрерывная информационная поддержка поставок и жизненного цикла) — система хранения информации о жизненном цикле продукта.

2 ILM-система (англ. Information Lifecycle Management — управление жизненным циклом информации) -система управления электронными хранилищами данных.

3 PDM-cucme.ua (англ. Product Data Management — система управления данными об изделии) — система для хранения документации о продукте.

— Kaap de Goede Hoop, португальский — Cabo da Boa Esperanca, английский — Cape of Good Норе, французский — cap de Bonne-Esperance. Такие случаи относительно редки, поэтому обычно используются другие методы.

Если перевод осуществляется между языками, пользующимися одним и тем же алфавитом, то имя может быть оставлено без перевода. Спорным случаем является использование в имени символов, отсутствующих в алфавите целевого языка. Например, многие языки пользуются различными вариантами расширенного латинского алфавита. При переводе с французского языка имя Francois, скорее всего, будет оставлено без перевода, хотя символ «c» используется в алфавитах всего нескольких языков кроме французского (например, турецком и португальском).

Более актуальна проблема передачи иноязычных имен собственных из языков, использующих другую систему письма. На протяжении долгого времени их преобразование осуществлялось с помощью строгой транслитерации, то есть, сопоставлению каждой букве алфавита языка оригинала буквы алфавита целевого языка. У этого подхода есть серьезный недостаток — переведенные таким образом имена часто не сохраняют оригинального звучания в языке перевода. Однако почти до середины двадцатого века это не имело значения по нескольким причинам. Во-первых, не были развиты средства связи, передающие звуковую информацию (телефон, телевизор). Информация, получаемая из-за рубежа, была в основном текстовой, что требовало прежде всего графического, а не звукового сходства перевода имени с оригиналом. Во-вторых, звучание стало иметь значение, только когда помимо передачи иностранных имен на родной язык возникла необходимость передачи имен родного языка на иностранный (например, для оформления международных документов). В этом случае переводчик заинтересован именно в сохранении звучания (особенно, нам кажется, это касается фамильно-именных групп, так как во время пребывания за границей человек вынужден неоднократно называть свое имя, и лучше, если его графическая запись будет соответствовать звучанию).

Все это привело к тому, что к середине двадцатого века во всех сферах распространился новый подход — передача имен собственных с сохранением их звучания. Такой подход в российской лингвистике получил название практической транскрипции. Этот термин впервые применён в 1935 году А. М. Сухотиным [1] и введён во всеобщее употребление А. А. Реформатским [2]. Практическую транскрипцию следует отличать от:

• фонетической транскрипции, основанной на точной передаче звучания с использованием специального фонетического алфавита;

• транслитерации, определяемой только исходным написанием;

• перевода.

В отличие от фонетической транскрипции, практическая транскрипция использует только символы алфавита языка-приёмника, а возможность введения дополнительных знаков отсутствует.

В зарубежной науке термин «transcription» является не столько лингвистическим, сколько биологическим. Процесс передачи слов некоторого языка средствами другого алфавита (не важно, сохраняется ли при этом оригинальное произношение слова) в англоязычном лингвистическом сообществе принято обозначать термином «transliteration».

Задача практической транскрипции первоначально решалась вручную путем составления систем правил транскрипции для различных пар языков. Такие наборы правил использовались в качестве методических указаний для переводчиков.

Как это отмечалось выше, распространение ЭВМ вызвало появление комплексных систем, решающих различные задачи обработки и хранения информации в автоматическом или полуавтоматическом режиме. В числе прочего перед такими системами ставится задача проведения автоматической транскрипции, например, больших списков имен, ручная обработка которых занимает много времени. Даже при небольших объемах применение средств автоматизации является полезным, так как в этом случае исключается влияние человеческого фактора: устраняется возможность совершения ошибок, допущенных по невнимательности, расхождения в правилах транскрипции, используемых разными пользователями и так далее.

Для этого необходимо разработать программную систему или подсистему, проводящую автоматическую транскрипцию. В связи с этим встает вопрос о принципах построения подобных систем. Первые исследования в этой области использовали уже имевшиеся наработки — составленные исследователями правила практической транскрипции (см., например, [3]). Таким образом, первые системы машинной транскрипции просто применяли правила транскрипции, написанные вручную. Такие системы широко используются и сейчас, так как справляются со стоящей перед ними задачей и отвечают поставленным перед ними требованиям: транскрибируют имена быстрее и аккуратнее, чем человек. Редактируемые правила транскрипции имеют то важное достоинство, что они позволяют исследователю свободно расширять их список при обнаружении новых правил. Более того, каждое вновь введенное правило расширяет научное знание и может использоваться другими исследователями в дальнейшем.

Однако такая автоматизация процесса транскрипции часто недостаточна. Существующие на сегодняшний день руководства по практической транскрипции содержат правила транскрипции для сравнительно небольшого числа языков (справочник под ред. Гиляревского [4] - транскрипция между русским и 18-ю языками, справочник под ред. Ермоловича [5] - 23 языка, справочник под ред. Клышинского [6] - 33 языка). Ручное составление правил — однократный процесс, но он довольно долог и трудоемок. В условиях постоянно расширяющихся международных контактов, требующих составления правил между все новыми и новыми парами языков, требуется решение задачи автоматического создания правил транскрипции. В целях повышения качества обучения, иностранные исследователи отказываются от правил, записанных в явном виде, в пользу статистических моделей транскрипции. Автор данной работы придерживается противоположного принципа: автоматически порожденные правила должны быть представлены в явном виде, чтобы сделать возможным их ручное редактирование (плюсы которого кратко описаны выше). Но оба подхода едины в понимании того, что автоматическое извлечение правил транскрипции (в явном или в неявном виде) является обязательной частью системы машинной транскрипции. Таким образом, на современном этапе развития программных систем стоит задача разработки комплексных автоматизированных систем транскрипции, позволяющих не только транскрибировать имена собственные по правилам транскрипции, но и проводить автоматическое извлечение таких правил в ходе обучения.

Задача машинной транскрипции и автоматического извлечения правил транскрипции из множества прецедентов особенно актуальна в областях, где требуется перевод имен собственных с большого количества языков. К таким областям относятся:

• составление электронных каталогов. В крупные библиотеки поступает много материалов на иностранных языках. Для внесения их в единый каталог часто бывает необходимо записать имя автора на русском языке.

• межъязыковой информационный поиск. В поисковом запросе может встретиться имя собственное, чье происхождение не совпадает с языком запроса (то есть, транслитерированное с иностранного языка), или имя, записанное средствами другого алфавита. Оба эти случая требуют применения практической транскрипции, так как иностранное имя должно быть транслитерировано на язык своего происхождения для возможности его поиска в документах на этом языке (если требуется информация о зарубежном ученом, велика вероятность того, что на его родном языке больше информации), а имя, записанное на другом языке, должно быть транслитерировано на язык запроса для попытки поиска информации на языке запроса.

• документооборот. Согласно российским законам, все организации, ведущие торговлю на территории России, должны иметь название, записанное символами русского алфавита.

• машинный перевод. Имена собственные, встречающиеся в тексте, при машинном переводе должны быть транслитерированы. Если система машинного перевода является расширяемой (то есть, предполагает добавление новых языков и направлений перевода), внедрение в нее подсистемы машинной транскрипции имен собственных будет гораздо более эффективным, чем ручное задание правил транслитерации для каждой новой пары языков.

• оформление паспортно-визовых документов. При оформлении визы для въезда в Россию имя въезжающего должно быть записано символами русского алфавита, причем с сохранением фонетического сходства.

В настоящей работе из задачи машинной транскрипции имен собственных намеренно исключена задача перевода географических названий. Дело в том, что передача имен этой категории по-прежнему основывается на традициях, 8 появлявшихся в разное время и потому с трудом поддающихся формализации. Одной из трудностей можно назвать неоднородное происхождение топонимов: например, на севере Англии очень много топонимов шотландского происхождения, которые записаны в соответствии с правилами шотландской орфографии и, соответственно, должны быть прочитаны и транслитерированы в соответствии с теми же правилами, несмотря на то, что официальный язык Великобританиианглийский. Автоматизация же определения происхождения названия — отдельная задача, требующая довольно большого количества обучающих данных и далеко не всегда решаемая с приемлемым качеством. Другой проблемой географических названий является их долгая история. Названия многих современных городов появились несколько сотен лет назад и были записаны согласно действовавшим тогда правилам орфографии. За это время правила могли поменяться, а названиеостаться в традиционном написании, которое не соответствует современному звучанию названия. Географические названия часто непригодны и при обучении системы практической транскрипции по некоторому множеству прецедентов (то есть, уже переведенных имен). Если название страны или города часто употребляется в иностранном языке (как, например, название Москва в новостных текстах на эстонском), оно «адаптируется» для удобства произнесения носителями этого языка и может отклониться от корректной транслитерации. Можно привести еще один пример из эстонского языка: столица Латвии Рига (лат. в эстонском обозначается как Яна. Такая метаморфоза была бы объяснима, если бы в эстонском языке отсутствовал звук [§], но это не так.

По этим причинам рассматривается только практическая транскрипция фамильно-именных групп, причем только современных, так как имена исторических деятелей или литературных героев часто передавались (и передаются сейчас) на иностранный язык не по правилам практической транскрипции.

Таким образом, существует большое количество областей, в которых часто требуется транскрипция имен собственных с/на большое количество языков, причем имена поступают в большом количестве. Причем часто это фамильно-именные группы, которые, как уже было показано выше, обладают большим, чем географические названия, единообразием. Это единообразие делает возможным извлечение общих закономерностей транскрипции из множества прецедентов, то есть дает возможность автоматизировать не только применение существующих правил, но и порождение новых. Автоматическое обучение транскрипции часто является необходимостью в случаях, когда невозможно ручное: например, при необходимости транслитерации с редкого языка или при невозможности содержать штат экспертов-лингвистов.

Целью диссертационной работы является повышение эффективности обработки документов за счет автоматизации и ускорения процессов практической транскрипции (генерации правил и преобразования имен собственных по этим правилам).

В данной работе рассматриваются различные методы машинной транскрипции, их достоинства и недостатки, с целью показать актуальность создания метода автоматической генерации правил транскрипции в явном виде, а также создания нового метода автоматической транскрипции имен за линейное время с помощью автоматически сгенерированных правил.

Для достижения поставленной цели необходимо решить следующие задачи:

• Проанализировать существующие методы машинного обучения практической транскрипции с цельювыявления возможности их практического применения;

• Проанализировать существующие методы машинной транскрипции с целью выявления технологий, обеспечивающих наиболее быстрое преобразование строк;

• Разработать метод автоматической генерации правил транскрипции на основе параллельного обучающего корпуса;

• Разработать метод транскрипции имен собственных по набору правил транскрипции за линейное время с помощью конечного автомата.

Основные проблемы, ограничивающие качество автоматической практической транскрипции, следуют из специфики методов обучения транскрипции. Алгоритмы, дающие на сегодняшний день лучший результат, являются статистическими. Эта особенность порождает сразу две проблемы: с одной стороны, необходимость использования больших массивов обучающих данных для обеспечения высокого качества, с другой стороны, неочевидность результата.

10 транскрипции для пользователя. Статистические методы порождают модель транскрипции, недоступную для ручного редактирования, что делает ее негибкой. Модель, имеющая лишь незначительные недостатки, которые могли быть исправлены экспертом, должна быть признана неудовлетворительной, так как возможность коррекции отсутствует. В некоторых системах применяется альтернативный подход: ручное составление правил, — но он, не в пример методам машинного обучения, сложен и трудоемок. Методы автоматической генерации правил транскрипции в явном виде отсутствуют. К тому же, отсутствуют методы применения таких правил.

Для преодоления этих трудностей автором была разработана методика создания системы транскрипции с неизвестного языка по прецедентам. С использованием данной методики становится возможной автоматическая генерация правил транскрипции на основе сравнительно небольшого обучающего множества имен и их переводов для двух произвольных языков, причем правила генерируются в явном виде и в случае необходимости могут редактироваться вручную, а также применение этих правил для транскрипции строк с исходного языка на целевой, скорость транскрипции при этом не зависит от объема системы правил и линейна относительно длины преобразуемой строки. Программная реализация методики позволяет быстро получить относительно корректную модель транскрипции для пары произвольных языков даже при небольшом количестве обучающих данных и применить ее для передачи строк с высокой скоростью.

Содержание работы. Первая глава диссертации посвящена исследованию существующих на сегодняшний день работ в выбранной области: систем машинной транскрипции, методов автоматического обучения транскрипции, методов преобразования строк. Во второй главе изложен предлагаемый автором метод порождения правил транскрипции. Третья глава посвящена новому методу преобразования строк с помощью системы правил. Доказаны утверждения о корректности метода и о линейной скорости преобразования строк с помощью метода. В четвертой главе описана программная система, в которой реализованы предложенные методы. В главе представлены результаты экспериментов, подтверждающих эффективность предложенных методов.

3.8 Выводы к главе 3.

В главе описан предлагаемый автором метод транскрипции с помощью конечного автомата. Конечный автомат строится на основе системы правил транскрипции и осуществляет преобразование строк с исходного языка на целевой по этим правилам. Конечный автомат является детерминированным, но может выдавать несколько вариантов транскрипции. Все варианты равнозначны, потому что переходам автомата, как и правилам преобразования, не приписаны вероятности.

В главе изложены алгоритмы построения автомата, преобразования его к детерминированному виду и преобразования (унификации) системы правил, позволяющие корректно построить детерминированный конечный автомат из недетерминированного и избежать неоднозначностей. Помимо этого, представлен алгоритм построения на основе предварительно подготовленной системы правил детерминированного конечного автомата, без промежуточного недетерминированного варианта. Доказана эквивалентность процедуры преобразования строк с помощью расширенного конечного автомата описанной во 2-й главе эталонной процедуре преобразования строк с помощью системы правил. Кроме того, доказана правомерность всех промежуточных процедур: эквивалентность унифицированной системы правил первоначальной системе, эквивалентность детерминированного расширенного КА недетерминированному.

Главная цель создания метода транскрипции — разработка линейной, не зависящей от количества правил процедуры преобразования строки — также достигнута. В главе доказано утверждение о том, что предложенный конечный автомат позволяет преобразовывать строки за линейное время.

Глава 4. Практическая реализация и оценка качества разработанных методов.

В главе описана программная реализация изложенных в предыдущих главах методов. Приведено описание программной системы, осуществляющей генерацию правил транскрипции и машинную транскрипцию строк.

Основным содержанием главы является описание экспериментов, проведенных с целью проверки эффективности предложенной в предыдущих главах методики транскрипции. Вводятся некоторые новые меры оценки качества транскрипции, выбранные с учетом особенностей системы. Приведены оценка качества обучения — качества транскрипции на обучающем множестве данныхдвух экспериментов с различными настройками, а также оценка качества транскрипции — то есть качества передачи тестового множества данных. Экспериментально доказано и значительное превосходство в скорости предложенного в главе 3 метода транскрипции над аналогичными методами.

Кроме того, оценено качество порождаемых системой правил и зависимость качества и количества правил от объема обучающей выборки.

4.1 Описание программной системы.

Изложенные в главах 2 и 3 методы и алгоритмы были реализованы в виде программной системы. Программа была написана на языке С++ в среде Borland С++ [130]. Объем программы составляет около 5000 строк кода.

В соответствии со спецификой задачи машинной транскрипции, распадающейся на две подзадачи — обучение и собственно транскрипциярассматриваемая система имеет двухчастную структуру. Она состоит из двух подсистем: подсистемы обучения и подсистемы транскрипции. Две подсистемы могут использоваться как независимо друг от друга, так и в составе комплекса.

В подсистеме обучения реализован метод порождения множества правил транскрипции по обучающему множеству, описанный в главе 2. Подсистема принимает на вход обучающее множество имен на исходном языке и их транскрипций на целевой язык. Имена записаны в текстовом файле в формате исходноегшя разделитель целевоеимя, где исходноенмя — строка, состоящая из символов исходного алфавита, разделитель — знаки «,» или «-», целевое гшя.

92 строка, состоящая из символов целевого алфавита. Исходным алфавитом по умолчанию считается стандартный латинский алфавит, целевым алфавитомстандартный кириллический алфавит, дополнительные символы, которые должны быть включены в алфавиты, могут быть заданы списком. Помимо обучающих данных, для корректной работы системе требуется список гласных букв исходного и целевого алфавита.

Подсистема включает в себя модуль порождения первичных правил, реализующий алгоритм порождения первичных правил (этап 1 порождения правил), а также модуль порождения сложных правил, реализующий алгоритм пополнения множества правил (этап 2 порождения правил).

Результатом работы подсистемы обучения транскрипции является система правил транскрипции, записанная в текстовом файле, каждая строка которого представляет собой правило транскрипции, записанное в формате {yi, ., ym} a {8i, ., 5n} —> (3, где yi, ., ym, a, 5i, ., 5n e Vi, (3 e Vo. Заметим, что оба модуля подсистемы возвращают корректный по форме результат — множество правил транскрипции. Таким образом, по желанию пользователя процесс обучения может быть ограничен порождением только первичных правил.

Подсистема транскрипции, осуществляющая преобразование строк, принимает на вход систему правил, записанную в текстовом файле в формате, описанном выше. Таким образом, система правил может быть как сгенерирована подсистемой обучения, так и написана вручную в соответствующем формате. Допускается также ручное редактирование правил, сгенерированных системой.

В состав подсистемы транскрипции входят три модуля. Модуль конверсии правил в конечный автомат осуществляет построение конечного автомата на основе поданной на вход системы правил. Модуль транскрипции осуществляет преобразование строки на исходном языке в строку на целевом языке с помощью конечного автомата. Автомат реализован в виде матрицы переходов, поэтому поиск перехода из данного состояния по данному символу реализуется как доступ к ячейке матрицы с номером столбца, соответствующего номеру текущего состояния и номеру строки, соответствующему номеру текущего символа. В стандартном контейнере vector библиотеки STL, с использованием которого построена матрица, такой доступ осуществляется за время 0(1).

Входная строка подается в модуль транскрипции из интерфейсного модуля, который осуществляет взаимодействие подсистемы с пользователем: установку используемой системы правил, запрос входной строки, возврат выходной строки, вычисленной модулем транскрипции.

Общая структура программного комплекса изображена на рисунке 17.

ОЬучающие данные подсистема обучениях.

Модуль получения первичных правил.

Модуль получения сложных правил.

J V подсистема транскрипции.

Система правил f Г Л.

Модуль Модуль конверсии транскрипции правил в с помощью.

КА КА.

V у V У.

Интерфейсный модуль t входное слово выходное слово.

Рис 17. Структура программного комплекса.

В ходе реализации была разработана следующая структура классов, представленная на рисунке 18. Для хранения данных был создан базовый класс Item, содержащий в себе строку на исходном языке и соответствующую ей строку на целевом языке. От этого класса наследуются три класса, ядром которых является пара строк: класс Word (слово), класс Syllable (слог) и класс Rule (правило). В объектах класса Word хранятся имена из обучающего множества, а также определены операции — разделения слова на группы гласных и согласных и на слоги. Получаемые слоги хранятся в объектах класса Syllable. Класс Rule создан для хранения правил, которые также представляют собой пару строк: строка исходного языка и соответствующая ей строка целевого языка. Помимо свойств самого правила (левой и правой части, контекстов) в классе хранится массив указателей на слова, в которых было использовано данное правило. В классе также определена операция редактирования контекста правила. Сама же пара строк, составляющая правило, после создания не может быть изменена. Для хранения обучающего множества используется класс WordSet, порождаемая система правил транскрипции хранится в экземпляре класса RuleSet, который также обладает функциональностью нормализации системы правил (выравнивания контекстов, вычеркивания слишком редких или длинных правил и т. д.). Обучение осуществляется с помощью объекта класса Convertor, предоставляющий метод извлечения множества первичных правил из множества слов, а также метод пробного разбора слов и слогов с использованием системы правил.

Вся функциональность подсистемы транскрипции реализуется в классе Automaton. Его конструктор представляет собой процедуру конверсии системы правил в конечный автомат. Преобразование строк осуществляется с помощью метода этого класса.

Item.

TT.

Word «uses* Syllable Rule.

Input text.

Automaton.

Output text.

Рис. 18. Структура классов системы транскрипции.

Рассмотрим порядок применения программной системы для решения задачи транскрипции. Общая схема технологического процесса представлена на рисунке 19. Первым этапом работы является формирование обучающего корпусамножества имен исходного языка с корректной записью этих имен на целевом языке. В настоящей реализации использовались обучающие корпуса, составленные вручную, однако они могут быть созданы и автоматически и поданы на вход системе из стороннего приложения, при условии, что соблюден требуемый формат записи. формирование корпуса выходные имена.

Рис 19. Последовательность применения разработанных компонентов для решения задач обучения системы транскрипции и преобразования имен.

Следующим этапом является обучение системы машинной транскрипции, все этапы которого подробно описаны в главе 2. В системе, помимо обычного хода алгоритма, доступен пошаговый запуск обучения, который в случае возникновения ошибок при обучении помогает определить, на каком этапе они возникают. Результатом обучения является множество правил транскрипции. Они могут быть переданы в подсистему транскрипции для проведения автоматической транскрипции вводимых пользователем строк или записаны в файл. Однако подсистема обучения предоставляет, помимо самого обучения, возможность оценки результатов — проверки сгенерированного множества правил на всем обучающем множестве или на тестовом множестве — десятой части обучающего множества, которая скрывается и не используется при обучении. Пользователю доступны результаты тестовой транскрипции — все варианты транскрипции для каждого имени и статистическая информация (о мерах, используемых для оценки данных, подробнее рассказано в разделе 2 настоящей главы). Интерфейс подсистемы обучения изображен на рисунке 20. f Обучение транскрипции егаЬе1-жезабель, А jila: жила.

Ис1ага-жильдаза иг1ееп-жюрлен justaжюста justeenj"K)CTeH ЯЩ1 и-Ьп-жгагтен и5(:1па-жюстина и5Ьпе-жюстин и51:"" иа-жюстинья justinienneжюстиньенн ustinna-*racTeHHa justyne^iocTHH lacailleлакай laceлас laceaлас еа lacee-ласе laceigh-nacer.

1асепе-ласен.

1асеу-ласей.

1аа-ласи.

1ас1ат-ласьянн lavrissaлаврисс а.

1а (чгапсе-лавранс V.

GD.

Загрузить файл.

0 выделить тестовое множество.

Сохранить изменения, а е i о }-rt{a ilnoruy}=>pT ¦{а е о u >rt{>? > => р rth => рт aeimnoprstuy }s{a bcehikmoprstyz}-=> с a e i I o }-s-{i У=> зь {cb.

•{a e i I o u y Ma e i о и y}=> з {aeinosuy } => sl=>n srn => м e i p >St{> } => {r J-t-fi} = > PC abcehilmopstuxyz H{a eijlmnorstuy}-=>т.

•{< a e K{i } => ть t=>Cb, а с e i o t и }(:¦{>} => th => т }u{m} -> э cbcdfghijklmnprstvz J-u-f >abcdeklnprs у}=>ю.

•{f g) m r }u{i n У => e ¦igM?y>=> л.

Проверить.

О обучающее множество О тестовое множество.

Проверить.

Выгрузить правила.

Транскрибировать.

Рис. 20. Интерфейс подсистемы обучения.

В левом редактируемом поле отображается файл с обучающим множеством имен, по которому проводится обучение. Файл загружается по нажатию на кнопку «Загрузить файл». По кнопке «Сохранить изменения» обучающее множество с изменениями, внесенными пользователями, сохраняется на локальном диске. Если выделен флажок «выделить тестовое множество», одна десятая часть обучающего множества выделяется и не используется при обучении. В правом редактируемом поле отображаются правша, порождаемые системой. По нажатию на кнопку ««» осуществляется процесс обучения. По нажатию на кнопку «>» обучение осуществляется пошагово: выполняется только один этап, его результаты отображаются в правом редактируемом поле, следующий этап осуществляется при повторном нажатии на кнопку «>». С помощью кнопки «Проверить» запускается тестовая транскрипция: осуществляется транскрипция всех имен из указанного множества (обучающего или тестового), результат транскрипции и меры оценки качества для полученного результата выводятся в правом редактируемом поле. По нажатию на кнопку «Выгрузить правила» порожденные правила сохраняются в текстовом файле на локальном диске. Нажатые на кнопку «Транскрибировать» открывает подсистему транскрипции, которой передаются порожденные подсистемой обучения правила.

Транскрипция.

I т1геМ! е мирен.

Загрузить систему правил.

•.

Сохранить изменения.

Рис. 21. Интерфейс подсистемы транскрипции.

В левой редактируемой строке пользователь вводит имя на исходном языке. По нажатию на кнопку ««» осуществляется его транскрипция, результат которой отображается в правой редактируемой строке. По нажатию на кнопку «Загрузить систему правил» открывается диалог выбора файла с множеством правил транскрипции, после выбора файла на основе содержащегося в нем множества строится конечный автомат. После этого транскрипция осуществляется по правилам из выбранного файла. Сами правила отображаются в нижнем редактируемом поле. Правила могут быть отредактированы. По нажатию на кнопку «Сохранить изменения» измененное множество правил сохраняется на локальном диске.

Доступ к подсистеме транскрипции может быть осуществлен из подсистемы обучения, но она может быть запущена и как независимое приложение. В этом случае перед началом транскрипции потребуется указать имя файла с множеством правил, по которым должна производиться транскрипция. Множество правил отображается в подсистеме в поле с возможностью редактирования, поэтому загруженные в систему правила могут быть изменены и транскрипция будет проведена с учетом изменений. Интерфейс подсистемы транскрипции изображен на рисунке 21.

4.2 Методы оценки качества систем транскрипции.

Наиболее естественным и простым способом проверки качества преобразования строк системой транскрипции представляется сравнение результата ее работы с некоторым эталоном. Распространенной практикой при решении различных задач машинного обучения является вычисление ошибки при применении модели к тестовому множеству примеров. Из обучающих данных выделяется некоторое подмножество (тестовая выборка), обучение на котором не проводится, оно используется только для проверки точности полученной в результате обучения модели. Для задачи транскрипции тестовая выборка — это множество имен на исходном языке, перевод которых на целевой язык известен.

Простейшая мера оценки соответствия результата применения модели транскрипции к каждому из имен тестовой выборки — бинарная: правильно переведенным считается имя, если его перевод, предоставленный системой, полностью совпадает с эталонным переводом, все остальные случаи не учитываются. Точность перевода тестовой выборки имен определяется следующим соотношением:

1 N.

WA = —^{1,если 3Ti j-.Ti j = cik- 0 иначе}, i=i где N — количество слов в тестовой выборке, п — множество эталонных переводов для i-ro слова тестовой выборки, Cj — множество переводов i-ro слова тестовой выборки, предложенное системой транскрипции.

Эта мера в зарубежной литературе по машинной транскрипции обозначается как Word Accuracy (WA) и является одной из самых распространенных мер оценки. В данной работе эта мера в чистом виде не используется, но является основой других используемых мер. К сожалению, часто количество правильно переведенных слов не дает адекватного представления о качестве транскрипции: имя, в котором допущена одна ошибка, считается неправильно переданным, тогда как оно не перестает быть узнаваемым — а для многих задач этого достаточно. К тому же, наличие одного-двух неправильно переданных символов в имени свидетельствует о незначительных недостатках модели транскрипции, которые легче исправить, чем недостатки, вызывающие полностью неправильную передачу строки.

Для более точного учета ошибки системы транскрипции в зарубежной литературе используется мера Character Accuracy (СА) — посимвольная точность. Для имени тестовой выборки она вычисляется как нормированное расстояние редактирования, то есть количество операций удаления, добавления или замены символа, которые нужно применить к переводу, выданному системой, для получения эталонного перевода: где (р — эталонный перевод, <р' - перевод, полученный системой транскрипции, функция 1еп () возвращает длину строки, а функция ¿-¿-ТЭгя/^ г) — расстояние редактирования между строками С и ЦСуществуют различные разновидности расстояния редактирования. Чаще всего используется расстояние Левенштейна [46], при вычислении которого операции удаления, вставки и замены символа имеют равный вес.

Для множества строк мера СА определяется как где wi — слово тестовой выборки, N — количество слов в выборке.

Большая часть существующих в настоящее время систем машинной транскрипции пользуется статистическими методами обучения, результатом работы которых является вероятностная модель. Для некоторой строки на языке оригинала эта модель возвращает ее наиболее вероятный перевод на целевой язык. Однако, согласно этой модели, существует несколько допустимых переводов некоторой строки, и в некоторых практических приложениях машинной транскрипции полезно видеть несколько наиболее вероятных выходных строк. Для оценки такого формата результата транскрипции используются различные модификации меры WA, в общем случае называемые Top-N accuracy, где N — количество наиболее вероятных рассматриваемых результатов. Эта мера определяется как количество слов тестовой выборки, для которых правильный результат транскрипции был выдан среди первых N выданных результатов. Мера Тор-1 эквивалентна мере WA, если считать единственным результатом транскрипции наиболее вероятный результат. Наиболее распространена мера Тор-3.

СА (<�р) = len{(p) — EDist ((p, </>') len (cp) n i = О.

Поскольку при использовании вероятностных правил выходные строки выдаются в виде списка, отсортированного по убыванию вероятности появления строки при заданных входных данных, имеет смысл оценка положения правильного перевода в списке предложенных вариантов. Многие исследователи оценивают результат машинной транскрипции с помощью меры, используемой в работах по информационному поиску для оценки ранжированного списка документов, выдаваемых поисковой машиной. Это мера MRR (Mean reciprocal rank), являющаяся средним обратным значением номера правильного перевода в списке предложенных, формально определяется как где N — количество слов в тестовой выборке, Ri — номер правильного перевода в списке предложенных вариантов для i-ro слова тестовой выборки.

Правила транскрипции, порождаемые предложенным в главе 2 методом, являются детерминированными, то есть в случае, когда правило может быть применено, оно применяется со стопроцентной вероятностью. Напомним, что система правил транскрипции почти всегда остается неоднозначной из-за неоднозначностей правил чтения языка оригинала, поэтому оправданно предложение нескольких возможных вариантов перевода для части слов. И система правил, и конечный автомат, который используется для преобразования строк с помощью этой системы, допускают выдачу более одного варианта транскрипции, но эти варианты не могут быть отсортированы ни по какому критерию, поэтому меры MRR и Top-N не могут использоваться как критерий качества транскрипции.

Для оценки качества транскрипции с помощью системы правил были предложены следующие меры:

• процент строк, для которых хотя бы один из предложенных вариантов перевода оказался корректным, то есть совпал с данным экспертом переводомэта мера обозначена как Correct Transliteration (СТ). Эта мера по сути является мерой Top-N с неопределенным N;

• процент строк, для которых был предложен единственный вариант перевода, оказавшийся корректныммера обозначена как Unique Correct Transliteration n.

• мера неоднозначности перевода — среднее количество выдаваемых системой вариантов транскрипции строкимера обозначена как Average Transtiteration Variant (ATV).

Мера неоднозначности перевода по сути не является мерой качества транскрипции — это оценка степени неоднозначности языка, или, по крайней мере, степени неоднозначности, которая не может быть разрешена при порождении правил машинной транскрипции с помощью предложенного метода. Однако эта мера в комбинации с мерой СТ дает возможность сравнить качество транскрипции с помощью системы правил с качеством транскрипции статистических систем. Меру СТ для данной языковой пары можно считать равносильной мере Top-N, где Nзначение меры ATV для данной языковой пары. Как будет показано в разделе «Численная оценка результатов», ATV ни для какого языка не превосходит 3, поэтому мера СТ в проведенных экспериментах равносильна мере Тор-3.

Для оценки результатов транскрипции был также использован аналог меры СА, называемая в данной работе средним нормированным расстоянием Левенштейна и обозначенная как Average Normalized Levenstein Distance (ANL). Для каждого имени тестовой выборки определяется нормированное расстояние Левенштейна: расстояние Левенштейна, деленное на длину имени. Таким образом, если перевод, предложенный системой, полностью совпадает с фактическим переводом, мера для данного слова будет равна нулю. Заметим также, что мера рассчитывается для каждого варианта перевода, предложенного системой, а затем делится на общее количество вариантов (а не на общее количество строк в тестовой выборке). Кроме того, считается средняя ошибка: среднее расстояние Левенштейна для неправильно переданных слов. Эта мера обозначена как Average Error (АЕ).

4.3 Обучающие данные.

Метод порождения правил транскрипции для обучения требует параллельного корпуса имен на исходном и целевом языках. Во всех базах, использованных для экспериментов, целевым языком был русский. Базы были составлены вручную экспертами-лингвистами. Использованные базы перечислены в таблице 5.

Заключение

Имена собственные не могут быть переведены так же, как обычные слова, поэтому для их передачи на другой язык используется практическая транскрипцияпередача с сохранением звучания имени. Развитие электронного документооборота, а также систем машинного перевода, информационного поиска потребовало автоматизировать процесс практической транскрипции. Компьютер может осуществлять транскрипцию между парой языков с помощью системы написанных вручную правил. Однако во многих приложениях требуется практическая транскрипция имен с большого количества языков. Составление правил для каждой пары — долгий и трудоемкий процесс. Поэтому очень многих исследователей привлекает задача автоматического обучения систем практической транскрипции.

Как показал анализ, существующие на сегодняшний день системы машинной транскрипции обладают некоторыми недостатками, которые часто делают невозможным их применение. Во-первых, большая часть систем использует для обучения статистические методы, что влечет за собой сразу несколько проблем: необходимость использования больших корпусов обучающих данных, которые недоступны для многих языков, невозможность ручного редактирования полученной модели, непредсказуемость получаемых при ее использовании ошибок. Во-вторых, несмотря на заявленную универсальность методов обучения, редкие из них способны работать более чем с двумя языками, для обучения на новых языках требуется введение дополнительной информации и настройка параметров.

По этим причинам требуется создание нового метода машинной транскрипции, свободной от недостатков существующих методов. Метод должен порождать правила, записанные в явном виде и поддающиеся последующему ручному редактированию, чтобы в случае недостатков была возможность улучшить систему без повторного обучения. Кроме того, метод должен применять полученные правила за линейное время, что недоступно существующим на сегодняшний день системам.

В данной работе описана методика автоматизации практической транскрипции имен собственных, включающая в себя два метода: метод автоматического порождения правил транскрипции и метод транскрипции имен собственных с помощью системы правил транскрипции.

Метод порождения правил независим от языка, он не требует дополнительной лингвистической или иной информации. Метод чувствителен к ошибкам в обучающем множестве, но для обучения ему достаточно небольшого множества прецедентов (имен и их переводов). Метод является алгоритмическим, а не стохастическим. Он состоит из двух основных этапов: порождение первичных правил и порождение сложных правил. Первичные правила порождаются на основе выравнивания обучающего корпуса. Выравнивание производится на основе информации о типе составляющих имя букв (гласные и согласные), буквы сопоставляются друг другу, только если они принадлежат к одному типу, поэтому процент некорректных соответствий на этом этапе очень низок. На этапе порождения сложных правил производится анализ имен обучающего множества с помощью существующих правил, в результате которого, во-первых, выделяются новые правила, а во-вторых, редактируются существующие.

Преобразование строк осуществляется с помощью расширенного конечного автомата. За счет возможности передвижения по строке как вперед, так и назад на произвольное количество символов автомат имеет возможность учитывать контексты правила, однако сохраняет линейную относительно длины строки скорость разбора. При этом скорость работы автомата не зависит от объема системы правил, что очень важно для языков со сложными соответствиями фонетики и графики (например, французский, немецкий). Автомат является детерминированным, но может выдавать несколько вариантов разбора, что также очень важно при существовании в языке нескольких норм произношения или при наличии в обучающем множестве имен исключений.

Показать весь текст

Список литературы

Сухотин A.M. О передаче иностранных географических названий // Вопр. географии и картографии. -М., 1935.-Сб. 1.-С. 144−145.
Реформатский A.A. Введение в языкознание. M., 1947.
Гиляревский P.C. Иностранные имена и названия в русском тексте. Справочник / P.C. Гиляревский, Б. А. Старостин, 3 изд. М., 1985.
Ермолович Д.И. Имена собственные: теория и практика межъязыковой передачи. М.: Р. Валент, 2005.
Лингвистический транслятор/транскриптор Электронный ресурс. // 2007. -Режим доступа: http://www.lingvoconverter.com/.
Система транскрипции «Transcriptor.ru» Электронный ресурс. // 2008. -Режим доступа: http://transcriptor.ru/.
Транскриптор студии Артемия Лебедева Электронный ресурс. // 2012. -Режим доступа: http://www.artlebedcv.ru/tools/transcriptor/.
Arbabi M. Algorithms for Arabic name transliteration / M. Arbabi, S.M. Fischthal, V.C. Cheng, E. Bart, // IBM Journal of research and Development. 1994. — Vol.38, Issue 2.-P. 183−194.
Divay M. Algorithms for grapheme-phoneme translation for English and French: applications for database searches and speech synthesis / M. Divay, A.J. Vitale // Computational Linguistics. -1997. Vol. 23, issue 4. — P. 495−523.
Ю.Логачева B.K. Современные методы практической транскрипции. Электронный ресурс. / В. К. Логачева, Э. С. Клышинский, В. А. Галактионов // Препринты ИПМ им. М. В. Келдыша. 2012. — № 13. 18 с. Режим доступа: http://library.keldysh.ru/prcprint.asp?id=2012−13.
Практическая транскрипция личных имен в языках народов мира, под ред. Клышинского. М.: Наука, 2010. — 679 с.
Бондаренко A.B. Формальный метод транскрипции иностранных имен собственных на русский язык / A.B. Бондаренко, Ю. В. Визильтер, В. И. Горемычкин, Э. С. Клышинский // Программные продукты и системы. -2010.-№ 1.
Бондаренко A.B. Автоматическая транскрипция именных групп в процессахобработки машиносчитываемых проездных документов / A.B. Бондаренко, 118
А.А. Герасименко // Вестник компьютерных и информационных технологий. -2008.
Malik M.G.A. Punjabi machine transliteration. // Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the ACL. Sydney, Australia, 2006. — P. 1137−1144.
Brown P.F. The mathematics of statistical machine translation: Parameter estimation / P.F. Brown, V.J.D. Pietra, S.A.D. Pietra, R.L. Mercer // Computional Linguistics. 1993. — Vol. 19, issue 2. — P. 263−31 1.
Dempster A. Maximum likelihood from incomplete data via the EM algorithm / A. Dempster, N. Laird, D. Rubin // Journal of the Royal Statistical Society. 1977. -Vol.39, issue l.-P. 1−38.
Vogel S. HMM-based word alignment in statistical translation / S. Vogel, H. Ney, C. Tillmann // Proceedings of the 16th Conference on Computational linguistics. -Copenhagen, Denmark, 1996. P. 836−841.
Toutanova K. Extensions to HMMbased statistical word alignment models / K. Toutanova, H.T. Ilhan, C.D. Manning // Proceedings of the Conference on Empirical methods in Natural Language Processing. Pennsylvania, Philadelphia, 2002.-P. 87−94.
Al-Onaizan Y. Statistical machine translation / Y. Al-Onaizan, J. Curin, M. Jahr, K. Knight, J. Lafferty, D. Melamed, F. J. Och, D. Purdy, N. Smith, D. Yarowsky, // Tech. rep., Johns Hopkins University. 1999.
Och F.J., Ney H. A systematic comparison of various statistical alignment models / F.J. Och, H.A. Ney // Computational Linguistics. 2003. — Vol.29, issue 1. — P. 1951.
Covington M.A. An algorithm to align words for historical comparison // Computational Linguistics. 1996. — Vol.22, issue 4. — P. 481 -496.
Kang B.-J. Automatic transliteration and backtransliteration by decision tree learning / B.-J. Kang, K.-S. Choi // Conference on Language Resources and Evaluation. Athens, Greece, 2000. — P. 1135−1411.
Oh J.-H. An English-Korean transliteration model using pronunciation and contextual rules / J.-H. Oh, K.-S. Choi // Proceedings of the 19th International Conference on Computational linguistics. -Taipei, Taiwan, 2002.
Kondrak G. A new algorithm for the alignment of phonetic sequences // Proceedings of 1st Conference of the North American Chapter of the Association for Computational Linguistics (NAACL). Seattle, Washington. — 2000. — P. 288−295.
Knight K. Machine transliteration / K. Knight, J. Graehl // Computational Linguistics. 1998.-Vol.24, issue 4.-P. 599−612.
Sundberg R. Maximum likelihood theory and applications for distributions generated when observing a function of an exponential family variable. // Dissertation. Institute for Mathematical Statistics, Stockholm University. — 1971.
Sundberg R. Maximum likelihood theory for incomplete data from an exponential family. // Scandinavian Journal of Statistics. 1974. — Vol.1, issue 2. P. 49−58.
Sundberg R. An iterative method for solution of the likelihood equations for incomplete data from exponential families. // Communications in Statistics -Simulation and Computation. 1976. — Vol.5, issue 1. — P. 55−64.
The Carnegie Mellon University Pronouncing Dictionary. Электронный ресурс. // 2012. Режим доступа: http://www.specch.cs.cmu.edu/cgi-bin/cmudict.
Stalls B. Translating names and technical terms in Arabic text / B. Stalls, K. Knight // Proceedings of the Conference on Computational Linguistics (COLING) Workshop on Computational Approaches to Semitic Languages. Montreal, Canada, 1998.-P. 34−41.
Jeong K. Automatic identification and back-transliteration of foreign words for information retrieval / K. Jeong, S. Myaeng, J. Lee, K. Choi // Information Processing and Management. 1999. — Vol.35, issue 4. — P. 523−540.
Jung S. Y. An English to Korean transliteration model of extended Markov window / S.Y. Jung, S.L. Hong, E. Paek // Proceedings of the 18th Conference on Computational linguistics. Saarbrucken, Germany, 2000. — P. 383−389.
Lin W.-H. Backward machine transliteration by learning phonetic similarity / W.-H. Lin, H.-H. Chen // Proceeding of the 6th Conference on Natural Language Learning. Taipei, Taiwan, 2002. — P. 1−7.
Virga P. Transliteration of proper names in cross-lingual information retrieval / P. Virga, S. Khudanpur // Proceedings of the ACL Workshop on Multilingual and Mixed-Language Named Entity Recognition. Sapporo, Japan, 2003. — P. 57−64.
Kang I.-H. English-to-Korean transliteration using multiple unbounded overlapping phoneme chunks / I.-H. Kang, G. Kim // Proceedings of the 18th Conference on Computational Linguistics. Saarbrucken, Germany, 2000. — P. 418−424.
AbdulJaleel N. Statistical transliteration for English-Arabic cross language information retrieval / N. AbdulJaleel, L.S. Larkey // Proceedings of Conference on Information and Knowledge Management. New Orleans, Louisiana, 2003. — P. 139−146.
Al-Onaizan Y. Translating named entities using monolingual and bilingual resources. / Y. Al-Onaizan, K. Knight // Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, PA, 2002. — P. 400 408.
Quinlan J. R. Induction of Decision Trees. // Machine Learning. -1986. Vol.1, issue l.-P. 81−106.
Linden K. Multilingual modeling of cross-lingual spelling variants. // Information Retrieval. 2005. — Vol.9, issue 3. — P. 295−310.
Левенштейн. В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов. // Доклады Академий Наук СССР. 1965.
Oh J.-H. Recognizing transliteration equivalents for enriching domain-specific thesauri / J.-H. Oh, K.-S. Choi // Proceedings of the 3rd International WordNet Conference. 2006. — P. 231−237.
Karimi S. English to Persian transliteration. / S. Karimi, A. Turpin, F. Scholer // String Processing and Information Retrieval. Lecture Notes in Computer Science -Glasgow, UK, 2006. vol. 4209. — P. 255−266.
Karimi S. Machine transliteration of proper names between English and Persian. // Ph.D. thesis. RMIT University, Melbourne, Australia. 2008.
Sherif Т., Kondrak G. Substring-based transliteration / T. Sherif, G. Kondrak // Proceedings of Conference of Association for Computational Linguistics (ACL) -Prague, Czech Republic, 2007. P. 944−951.
Viterbi A. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm. // Institute of Electrical and Electronics Engineers (IEEE) Transactions on Information Theory. 1967. — Vol.13, issue 2. — P. 260−269.
Li H. Semantic transliteration of personal names / H. Li, K. Sim, J.-S. Kuo, M. Dong // Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. Prague, Czech Republic, 2007. — P. 120−127.
Collins M. Discriminative training methods for hidden Markov models: theory and experiments with perceptron algorithms // Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP) Philadelphia, PA, USA, 2002.
Standard Arabic Technical Transliteration System Электронный ресурс. // 2012. Режим доступа: http://en.wikipedia.org/wiki/SATTS.
Crammer K., Online Passive-Aggressive Algorithms / O. Dekel, J. Keshet, S. Shalev-Shwartz, Y. Singer // Journal of Machine Learning Research. 2006. -Vol.7-P. 551−585.
Crammer K., Singer Y. Ultraconservative Online Algorithms for Multiclass Problems / K. Crammer, Y. Singer// Journal of Machine Learning Research. 2003. -Vol.3. P. 951−991.
McDonald R. Online Large-Margin Training of Dependency Parsers / R. McDonald, K. Crammer, F. Pereira // Proceedings of the 43rd Annual Meeting of the ACL. Ann Arbor, 2005. — P. 91−98.
Cherry C. Discriminative Substring Decoding for Transliteration / C. Cherry, H. Suzuki // Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Singapore, 2009. — P. 1066−1075.
Zelenko D. Discriminative methods for transliteration / D. Zelenko, C. Aone // In Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. Sydney, Australia, 2006. — P. 612−617.
US Census Электронный ресурс. // 2012. Режим доступа: http://www.census.gov/.
Gale W. Good-Turing frequency estimation without tears / W. Gale, G. Sampson // Journal of Quantitative Linguistics. 1995. — Vol.2. — P. 217−235.
Freund Y. Large margin classification using the perceptron algorithm / Y. Freund, R. Shapire // Machine Learning. 1999. — Vol.37. — P. 277−296.
Association for Computational Linguistics Электронный ресурс. // 2012. -Режим доступа: http://www.acl-ijcnlp-2009.org/.
Chen S.F. SRI toolkit: An empirical study of smoothing techniques for language modeling / S.F. Chen, J. Goodman // Technical Report TR-10−98. Harvard University, 1998.
Grunwald P. The Minimum Description Length principle // MIT Press. 2007.
Conference on Natural Language Processing of the Asian Federation of Natural Language Processing (ACL-IJCNLP). Suntec, Singapore, 2009. — P. 28−31.
Das A. English to Hindi Machine Transliteration System at NEWS 2009 / A. Das, A. Ekbal, T. Mandal, S. Bandyopadhyay // Proceedings of the 2009 Named Entities Workshop, ACL-IJCNLP. Suntec, Singapore, 2009. — P. 80−83.
Kwong O.Y. Phonological Context Approximation and Homophone Treatment for NEWS 2009 English-Chinese Transliteration Shared Task // Proceedings of the 2009 Named Entities Workshop, Joint conference of the 47th Annual Meeting of the
Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing (ACL-IJCNLP). Suntec, Singapore, 2009. — P. 76−79.
Oh J.-H. A comparison of different machine transliteration models / J.-H. Oh, K.-S. Choi, H. Isahara // Journal of Artificial Intelligence Research (J AIR). 2006. -Vol.27.-P. 119−151.
Wallach H.M. Conditional Random Fields: An Introduction // Technical Report MS-CIS-04−21. University of Pennsylvania CIS, 2004.
Klinger R. Classical Probabilistic Models and Conditional Random Fields / R. Klinger, K. Tomanek // Algorithm Engineering Report TR07−2-013. 2007.
Sutton C. An Introduction to Conditional Random Fields for Relational Learning / C. Sutton, A. McCallum // Introduction to Statistical Relational Learning. MIT Press. — 2006.
Транскриптор Электронный ресурс. // 2011. Режим доступа: h ttp ://nano. yandex. ru/proi ect/an thropon у m/.
Sproat R., Named entity transliteration with comparable corpora / R. Sproat, T. Tao, C. Zhai // Proceedings of the 44th Annual Meeting of the Association for Computational Linguistics (ACL). Sydney, Australia — 2006.
Goldberg Y. Identification of transliterated foreign words in Hebrew script / Y. Goldberg, M. Elhadad // Proceedings, of 9th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing). Haifa, Israel. — 2008.
Pervouchine V. Improving Name Origin Recognition with Context Features and Unlabelled Data / V. Pervouchine, M. Zhang, V. Liu, H. Li // Proceedings of COLING. Beijing, 2010. — P. 972−978.
Клышинский Э.С. Методика определения языка происхождения имени собственного // Сб. трудов 14 научно-практического семинара «Новые информационные технологии». М., 2011. — С. 107−112.
Brill E. An improved error model for noisy channel spelling correction / E. Brill, R.C. Moore // Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL). Morristown, NJ. 2000. -P.286−293.
Bilac S. Extracting transliteration pairs from comparable corpora / S. Bilac, H. Tanaka // Proceedings of the Annual Meeting of the Natural Language Processing Society. Japan, 2005.
Google n-gram viewer Электронный ресурс. // 2012. Режим доступа: http://books.google.com/ngrams/.
Кодзасов С. В. Общая фонетика, учебник / С. В. Кодзасов, О. Ф. Кривнова. -М.:РГГУ. 2001.
Логачева В.К. Автоматическое порождение правил транскрипции фамильно-именных групп // Сб. трудов 13 научно-практического семинара «Новые информационные технологии», М., 2010, С. 117−121.
Логачева В.К. Метод порождения правил межъязыковой транскрипции // НТИ, серия 2, № 9. М.: 2011. С. 26−33.
Yu S. Applications of Finite-State Transducers in Natural Language Processing. In Implementation and Application of Automata, (eds.) / S. Yu, A. Paun // Lecture Notes in Computer Science. Springer Verlag, Heidelberg, 2001. Vol.2088. — P.
Karttunen L. Finite-State Lexicon Compiler. Электронный ресурс. / L. Karttunen // Technical Report. ISTL-NLTT-1993−04−02. Xerox Palo Alto Research Center. Palo Alto, California, 1993. Режим доступа: http://www.cis.upenn.edu/~cis639/docs/lcxc.html
Axelson E. Helsinki Finite-State Transducer Technology (HFST) Электронный ресурс. / E. Axelson // 2003. Режим доступа: https://kitwiki.csc.fi/twiki/bin/view/KitWiki/HfstHome.
Ахо А., Ульман Д., Теория синтаксического анализа, перевода и компиляции. -М.: «Мир». -1978.
Логачева В.К. Метод генерации конечного автомата для задач машинной транскрипции / В. К. Логачева, Э. С. Клышинский // НТИ, серия 2, № 1. М.: 2012.-С. 22−29.
Карпов Ю.Г. Теория автоматов. СПб.: Питер. — 2003.
С++ Builder ХЕ2 Электронный ресурс. 2011. — Режим доступа: http://www.embarcadero.com/products/cbuilder.34.46.

Заполнить форму текущей работой