Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях (реферат, курсовая, диплом, контрольная)

Содержание

Принятые обозначения и сокращения
1. Математические модели, методы и алгоритмы поиска ключевых слов, основанные на скрытых Марковских моделях
- 1. 1. Байесовский критерий минимума средних потерь
- 1. 2. Предобработка акустического сигнала
- 1. 3. Моделирование акустического сигнала при помощи скрытых Марковских моделей
  - 1. 3. 1. Определение скрытой Марковской модели
  - 1. 3. 2. Моделирование акустического сигнала при помощи СММ
  - 1. 3. 3. Учет контекстной зависимости при моделировании акустического сигнала с помощью СММ
  - 1. 3. 4. Расчет акустической вероятности Р (0Ш)
- 1. 4. Оценка параметров скрытых Марковских моделей
  - 1. 4. 1. Метод максимального правдоподобия
  - 1. 4. 2. Дискриминативные методы оценки параметров акустических моделей
- 1. 5. Моделирование языка
- 1. 6. Декодирование
  - 1. 6. 1. Витерби-декодирование
  - 1. 6. 2. Алгоритм перемещающегося маркера
  - 1. 6. 3. Компенсация ошибок языковой и акустической моделей при помощи штрафа добавления слова и языкового множителя
- 1. 7. Системы поиска ключевых слов, основанные на скрытых Марковских моделях .48 1.7.1 Величины, характеризующие качество работы системы поиска ключевых слов
- 1. 8. Недостатки и направление их разрешения
- 1. 9. Постановка задачи исследования
Выводы
2. Длинноконтекстные акустические модели фонем для уточненного моделирования ключевых слов
- 2. 1. Длинноконтекстные акустические модели фонем
- 2. 2. Критерий близости скрытых Марковских моделей
  - 2. 2. 1. Расчет интеграла I
  - 2. 2. 2. Итеративный алгоритм расчета критерия близости для скрытых Макровких моделей
  - 2. 2. 3. Аппроксимация акустической близости
- 2. 3. Показатель влияния контекста на параметры акустических моделей фонем
- 2. 4. Аппроксимация длинноконтекстных акустических моделей фонем, оптимальная с точки зрения влияния контекста на параметры моделей
- 2. 5. Программная реализация и экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем
  - 2. 5. 1. Программная реализация системы поиска ключевых слов, использующей длинноконтекстные модели фонем
  - 2. 5. 2. Экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем
Выводы
3. Словарь системы поиска ключевых слов, оптимальный с точки зрения минимума средней ошибки распознавания
- 3. 1. Задача формирования словаря заполнения как задача разбиения слов языка на непересекающиеся подмножества
- 3. 2. Целевая функция разбиения слов языка на непересекающиеся подмножества
- 3. 3. Расчет перекрестной энтропии пары скрытых Марковских моделей
  - 3. 3. 1. Расчет интеграла l (x (y), xmm)
  - 3. 3. 2. Итеративный алгоритм расчета перекрестной энтропии для скрытых Марковских моделей
- 3. 4. Метод кластеризации слов языка на непересекающиеся подмножества
3.5 Программная реализация и экспериментальные исследования системы поиска ключевых слов, использующей метод формирования словаря заполнения, оптимальный с точки зрения минимума средней ошибки распознавания.
3.5.1 Программная реализация системы поиска ключевых слов, использующей оптимальный метод формирования словаря заполнения.
3.5.2 Экспериментальные исследования системы поиска ключевых слов, использующей оптимальный метод формирования словаря заполнения.
Выводы.

Актуальность темы

В начале 90-х годов XX века в мире возобновился интерес к автоматическим системам распознавания речи после весьма скромных успехов в 70-х годах XX века. Этот интерес был связан прежде всего с техническим прогрессом в области информационных технологий и телекоммуникационных систем, а в частности:

• с развитием компьютерной техники и появлением более дешевых и более быстродействующих процессоров;

• с расширением сферы использования персональных компьютеров, и соответствующим ростом количества неквалифицированных пользователей ПК, для которых голосовой интерфейс взаимодействия с компьютером был бы наиболее предпочтительным;

• с развитием Интернета, мультимедиа, а также голосовых телекоммуникационных систем.

В связи с техническим прогрессом на первый план выдвинулись следующие практические задачи, связанные с распознаванием речи:

• автоматические телефонные сервисы;

• диалоговые системы «человек-компьютер», использующие естественный язык;

• голосовые системы управления проборами, роботами, технологическими процессами и т. д.;

• автоматическая обработка медиа-информации (видео, звук) с целью ее классификации и цензурирования;

• автоматические системы перевода с одного языка на другой.

Необходимо отметить, что значительные усилия исследователей к настоящему времени привели к серьезным успехам при создании систем распознавания речи [35, 40, 48, 93]. В таблице 1 приводятся характеристики некоторых из них. Из таблицы видно, что очень хорошие результаты достигнуты при создании систем распознавания речи с малыми словарями, в частности систем распознавания последовательностей цифр (0.3 — 5.0%). Немного отстают от них системы транскрибирования новостных программ и распознавания читаемой речи (2.0 — 17.0%). Однако весьма далеки от совершенства системы распознавания речи с большими словарями в случае, когда они применяются к спонтанной телефонной речи (25−29%) и особенно к речи, записанной из сотовых каналов связи (40%).

В связи с этим, несмотря на достигнутые успехи, весьма актуальными в настоящее время остаются работы, направленные на повышение точности систем распознавания речи вообще и для этих условий работы в частности.

Таблица 1 — Современный уровень точности, достигнутый при решении различных задач распознавания речи.

Речевая база Тип речи Размер словаря Ошибка распознавания слов.

Распознавание цифр Спонтанная 11 0.3%.

— TI Database.

Распознавание цифр Спонтанная 11 2.0%.

— Mall Recordings ШЯШШЯШШЯШЯЁ.

Распознавание цифр Разговорная 11 5.0%.

— HMIHY.

RM (Resouce Читаемая речь 1000 2.0%.

Management).

ATIS (Airline travel Спонтанная 2500 2.5% information system).

NAB (North Читаемая речь 64 000 6.6%.

American Business).

Broadcast News Новостные программы 210 000 13−17%.

Switchboard Телефонный разговор 45 000 25−29%.

Call Home Телефонный разговор 28 000 40%.

В данной диссертационной работе рассматривается одна из задач распознавания речи — задача поиска ключевых слов в аудио-сообщениях [96, 97]. В отличие от распознавания речи, под которым обычно понимается преобразование речевого сигнала в текстовое сообщение, при поиске ключевых слов необходимо обнаружить наличие в речевом сигнале слов из некоторого набора ключевых слов.

Объект исследований. Объектом исследования является система распознавания ключевых слов, основанная на скрытых Марковских моделях.

Цель и задачи работы. Целью диссертационной работы является разработка математических моделей и алгоритмов, позволяющих повысить точность поиска ключевых слов за счет: 1) создания более точных по сравнению с существующими на данный момент 7 акустических моделей ключевых слов- 2) создания словаря заполнения, оптимального с точки зрения средней ошибки распознавания. Для достижения этой цели в работе решаются следующие задачи:

1. Предложить понятие длинноконтекстных акустических моделей фонем, предназначенных для создания более точных по сравнению с существующими акустических моделей ключевых слов;

2. Разработать метод обучения длинноконтекстных акустических моделей фонем, позволяющий качественно оценивать параметры длинноконтекстных моделей фонем;

3. Разработать программную реализацию и выполнить экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем;

4. Поставить задачу формирования словаря заполнения как оптимизационную задачу, в которой в качестве критерия используется критерий Байеса;

5. Получить выражение для целевой функции, соответствующей критерию Байеса, и разработать алгоритм процедуры формирования словаря заполнения, использующий полученную целевую функцию;

6. Разработать программную реализацию и выполнить экспериментальные исследования системы поиска ключевых слов, использующей разработанный метод формирования словаря заполнения.

Методы исследования. Для решения поставленных задач используются методы теории случайных процессов (цепи Маркова), Байесовская теория принятия решений, теория информации, методы статистической обработки сигналов.

Научная новизна. В процессе исследований предложен новый подход к созданию акустических моделей ключевых слов с использованием длинноконтекстных акустических моделей фонем, отличающихся от известных контекстнозависимых моделей переменной длиной учитываемого контекста. Впервые поставлена и решена задача формирования словаря заполнения, оптимального с точки зрения средней ошибки распознавания. Выполнен ряд экспериментов, подтверждающих эффективность предлагаемых методов. Основные научные результаты заключаются в следующем:

1. Введено понятие длинноконтекстных акустических моделей фонем, предназначенных для создания акустических моделей ключевых слов;

2. Введено понятие показателя влияния контекста на параметры акустических моделей фонем, основанное на близости акустических моделей фонем, разработан метод и алгоритм его расчета;

3. Разработан метод аппроксимации длинноконтекстных акустических моделей фонем, оптимальный с точки зрения показателя влияния контекста на параметры моделей;

4. Поставлена задача формирования словаря заполнения как задача разбиения слов языка на непересекающиеся подмножества, для которой в качестве критерия взят критерий минимума средней ошибки распознавания и записана соответствующая целевая функция;

5. Доказана лемма, на основании которой целевая функция процедуры разбиения слов языка на непересекающиеся подмножества может быть заменена функцией языковых вероятностей и перекрестной энтропии СММ-моделей;

6. Разработан метод и алгоритм расчета перекрестной энтропии СММ-моделей;

7. Предложен алгоритм кластеризации, который может быть использован для разбиения слов языка на непересекающиеся подмножества с использованием полученной целевой функции;

8. Разработана программная реализация и выполнены экспериментальные исследования системы поиска ключевых слов, использующей разработанный метод формирования словаря заполнения.

9. Создана программная реализация системы, предназначенной для оценки параметров длинноконтекстных акустических моделей фонем, а также проведены экспериментальные исследования предлагаемого метода аппроксимации длинноконтекстных акустических моделей фонем.

Практическую ценность работы представляют:

1. Метод и алгоритм обучения длинноконтекстных моделей фонем, позволяющие строить более точные по сравнению с существующими акустические модели ключевых слов.

2. Метод и алгоритм расчета критерия близости скрытых Марковских моделей, который позволяет рассчитать близость скрытых Марковских моделей в пространстве признаков.

3. Метод и алгоритм расчета показателя влияния контекста на параметры акустических моделей фонем.

4. Программная реализация системы поиска ключевых слов, использующей длинноконтекстные модели фонем.

5. Метод и алгоритм формирования словаря заполнения, оптимального с точки зрения минимума средней ошибки распознавания.

6. Метод и алгоритм расчета перекрестной энтропии для СММ-моделей.

7. Программная реализация системы поиска ключевых слов, использующей предложенный метод формирования словаря заполнения.

Использование результатов работы. Результаты диссертационной работы были применены при создании программных средств [78, 79] а также при выполнении следующих работ:

• НИР «Ключ», НИР «Живец-1 СВА», ОКР «Творение-2А», заказчик — ФГУП «18 ЦНИИ» МО РФ;

• НИР «Беседа», НИР «Хоровод», НИР «Хор-Р», заказчик — ФГУП «НИИ «КВАНТ» ;

• НИР «Речь-О», заказчик — ФГНУ НИИ «Спецвузавтоматика» .

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на седьмой международной научно-практической конференции «Интеллектуальные и многопроцессорные системы-2006» (Кацивели, Украина, 2006), на XVI сессии Российского акустического общества (Москва, 2005), на международной конференции Speech and Computer «Specom-2004» (Санкт-Петербург, 2004), на международной научной конференции Speech and Computer «Specom-2005» (Patras, Greece, 2005), на шестой международной научно-практической конференции «Интеллектуальные и многопроцессорные системы-2005» (поселок Дивноморское, Геленджикский район, г. Новороссийск, 2005).

Основные положения, выносимые на защиту. На защиту выносятся следующие положения:

• Метод и алгоритм обучения длинноконтекстных моделей фонем.

• Метод формирования словаря заполнения, основанный на разбиении слов языка на непересекающиеся подмножества, оптимальные с точки зрения критерия минимума средней ошибки распознавания.

• Доказательство леммы о целевой функции процедуры разбиения слов языка на непересекающиеся подмножества.

• Программная реализация и экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем.

• Программная реализация и экспериментальные исследования системы поиска слов, использующей оптимальный словарь заполнения.

Краткое описание работы. Работа состоит из введения, трех глав и заключения.

В первой главе проведен анализ методов и алгоритмов, используемых при создании систем распознавания речи, основанных на скрытых Марковских моделях. Основной акцент делается на методах, которые используются при создании систем поиска ключевых слов. Дается общая схема системы распознавания речи, использующей СММ-модели. Описываются методы обучения акустических моделей, среди которых можно выделить методы, основанные на максимизации величины правдоподобия. Также описываются так называемые дискриминативные методы, в которых в качестве критерия выступает не максимальное соответствие моделей обучающим данным, как в методах, основанных на величине правдоподобия, а дискриминативная способность моделей, то есть способность разделять различные гипотезы. Описываются методы декодирования, используемые при распознавании речи. В основе современных подходов к декодированию речи лежит декодер Витерби и его реализация, используемая в распознавании речи — метод перемещающегося маркера. Показаны особенности системы поиска ключевых слов, использующей описанные в первой главе методы. Основной особенностью является то, что словарь системы поиска ключевых слов состоит из двух частей — словаря ключевых слов и словаря элементов заполнения. Проведен анализ недостатков существующих методов и выявлены пути повышения качества системы поиска ключевых слов. На основе выявленных путей повышения качества системы поиска ключевых слов поставлены задачи исследования.

Во второй главе описывается метод создания акустических моделей ключевых слов, основанный на длинноконтекстных моделях фонем. Описывается метод обучения длинноконтекстных моделей, основанный на аппроксимации моделей, если для них не существует достаточного количества обучения. Описывается метод выбора аппроксимирующей модели, основанный на понятии показателя влияния контекста на параметры модели, и приводится метод и алгоритм для его расчета. На основе предложенного метода во второй главе создана программная реализация системы поиска ключевых слов, использующая длинноконтекстные модели, и проведены экспериментальные исследования, показывающие, что предлагаемый метод позволяет повысить точность поиска ключевых слов по сравнению с существующими системами на 3.8%.

В третьей главе предлагается метод формирования словаря заполнения, оптимальный с точки зрения минимума средней ошибки распознавания. Описывается постановка задачи формирования словаря заполнения, основанная на понятии модели распознавания. Модель распознавания проецирует множество слов языка во множество слов-заполнений, осуществляя разбиение множества слов языка на непересекающиеся подмножества. Таким образом задача формирования словаря заполнений сводится к разбиению множества слов языка на непересекающиеся подмножества. Предлагается метод разбиения, основанный на критерии Байеса, который в случае систем распознавания речи сводится к критерию минимума средней ошибки распознавания. Записывается соответствующая целевая функция процедуры разбиения слов на непересекающиеся подмножества в виде функции от последовательности векторов признаков, представляющей обучающую выборку. Доказывается лемма, которая позволяет представить целевую функцию в виде функции от перекрестной энтропии СММ-моделей и языковых вероятностей. Кроме того, показывается, что если в языковых вероятностях пренебречь зависимостью от предшествующих последовательностей слов, то для выполнения разбиения слов языка на непересекающиеся подмножества можно использовать модифицированный метод кластеризации К-средних. В третьей главе описана программная реализация системы поиска ключевых слов, использующая оптимальный словарь заполнений. На основе созданной программной реализации проведены экспериментальные исследования, которые показывают возрастание вероятности правильного распознавания на 1.27% по сравнению с существующими системами.

Выводы.

В третьей главе предлагается метод формирования словаря заполнения, оптимальный с точки зрения минимума средней ошибки распознавания.

Для постановки задачи формирования словаря заполнения вводится понятие модели распознавания и в частности понятие модели распознавания на уровне слов. Эта модель проецирует множество слов языка во множество слов-заполнений, таким образом осуществляя разбиение множества слов языка на непересекающиеся подмножества. Таким образом задача формирования словаря заполнений сводится к разбиению множества слов языка на непересекающиеся подмножества.

Существует множество способов, которыми можно выполнить это разбиение. В третьей главе это сделать предлагается используя критерий Байеса, который в случае систем распознавания речи сводится к критерию минимума средней ошибки распознавания. В третьей главе записывается соответствующая целевая функция процедуры разбиения слов на непересекающиеся подмножества в виде функции от последовательности векторов признаков, представляющей обучающую выборку.

В третьей главе доказывается лемма, которая позволяет представить целевую функцию в виде функции от перекрестной энтропии СММ-моделей и языковых вероятностей. Кроме того, показывается, что если в языковых вероятностях пренебречь зависимостью от предшествующих последовательностей слов, то для выполнения разбиения слов языка на непересекающиеся подмножества можно использовать модифицированный метод кластеризации К-средних. Модификация требуется из-за того, что полученные расстояния не являются евклидовыми.

В третьей главе описана программная реализация системы поиска ключевых слов, использующая оптимальный словарь заполнений. Программная реализация выполнена в виде двух стендов, которые представляют собой консольные приложения, написанные на языке программирования Perl, и выполняют последовательность вызовов утилит для работы с моделями, словарями и т. д. Утилиты реализованы на языке программирования С.

С использованием созданной программной реализации проведены экспериментальные исследования, которые показали преимущество разработанных методов по сравнению с существующими — достигнуто приращение вероятности правильного распознавания 1.27%.

Заключение

Диссертация посвящена исследованию возможности повышения точности поиска ключевых слов в аудио-сообщениях за счет создания более точных по сравнению со стандартными акустических моделей ключевых слов, а также разработки метода формирования словаря заполнений, оптимального с точки зрения критерия минимума средней ошибки распознавания.

Для решения общей задачи исследования в первой главе был поставлен ряд частных задач, которые в ходе исследования были полностью решены.

В ходе решения первой задачи дано определение понятия длинноконтекстных моделей фонем, а также определения понятия описателя длинноконтекстных моделей и отношения включенности между ними.

Для решения второй частной задачи введено понятие критерия близости между СММ-моделями, а также понятие показателя влияния контекста на параметры моделей. С использованием введенных понятий предложен метод аппроксимации длинноконтекстных моделей фонем в случае, если для их обучения не хватает обучающих данных. В качестве аппроксимации длинноконтекстной модели с описателем d, если для нее не существует достаточного количества обучения, предлагается использовать качественно обученную длинноконтекстную модель с описателем d', если он находится в отношении включенности с описателем d d' ;

Для решения третьей частной задачи были разработаны методы и алгоритмы расчета критерия акустической близости СММ-моделей, а также метод и алгоритм расчета показателя влияния контекста на параметры СММ-моделей.

В результате решения этой задачи создана программная реализация системы поиска ключевых слов, использующей длинноконтекстные модели фонем в виде двух стендов, представляющих собой консольные приложения, написанные на языке программирования Perl, которые осуществляют вызовы утилит, предназначенных для работы с СММ-моделями, словарями, транскрипциями и т. д.

Другим результатом решения третьей частной задачи были экспериментальные исследования системы поиска ключевых слов, использующей длинноконтекстные модели фонем. Результаты экспериментальных исследований показали преимущества разработанных моделей по сравнению с существующими — вероятность правильного распознавания ключевых слов возросла на 3.8%.

Для решения четвертой частной задачи введено понятие модели распознавания, а также ее частный вид, отображающий множество слов языка на множество слов словаря заполнения. Таким образом, модель распознавания разбивает слова языка на непересекающиеся подмножества.

Результатом решения четвертой частной задачи является постановка задачи формирования словаря заполнения как задачи разбиения слов языка на непересекающиеся подмножества, в качестве критерия которой используется критерий Байеса минимума средней ошибки распознавания.

При решении пятой частной задачи в качестве целевой функции записана сумма логарифмов апостериорных вероятностей для некоторой обучающей выборки. Доказана лемма, результатом которой является представление записанной целевой функции в виде функции перекрестной энтропии СММ-моделей и языковых вероятностей.

Далее для решения пятой частной задачи показывается, что если в языковых вероятностях пренебречь зависимостью от предшествующих последовательностей слов, то для формирования словаря заполнения можно использовать модифицированный метод кластеризации К-средних. Модификация требуется из-за того, что полученные расстояния не являются евклидовыми.

Результатом решения шестой частной задачи является программная реализация системы поиска ключевых слов, использующей разработанный метод формирования словаря заполнения. Программная реализация выполнена в виде двух стендов, которые представляют собой консольные приложения, написанные на языке программирования Perl, и выполняют последовательность вызовов утилит для работы с моделями, словарями и т. д. Утилиты реализованы на языке программирования С.

Другим результатом решения шестой частной задачи являются результаты экспериментальных исследований системы. Они показывают, что разработанный в диссертационной работе метод формирования словаря заполнения позволяет увеличить точность поиска ключевых слов на 1.27% по сравнению с существующими методами.

Показать весь текст

Список литературы

Горелик А.Л., Скриикин В. А. Методы распознавания. Учеб. Пособие для вузов. М.: Высшая школа, 1989.
Рабинер Л.Б. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи: Обзор //ТИИЭР, т.11, № 2, февраль 1989 с. 86−120.
Миллер Б.М., Панков А. Р. Теория случайных процессов в примерах и задачах. М.: ФИЗМАТЛИТ, 2002.
Хемминг Р.В. Цифровые фильтры. Москва, Советское радио, 1980.
Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов, М., Радио и связь, 1981.
Hermansky Н. Perceptual Linear Predictive (PLP) Analysis of Speech // J. Acoust. Soc. Am., v. 87, no 4., p. 1738−1751.
Good I.J. The Population Frequencies of Species and the Estimation of Population Parameters // Biometrika 1953, vol. 40 (3,4) pp. 237−264
Katz S.M. Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recogniser // IEEE Transactions on Acoustic, Speech and Signal Processing 1987, vol. 35 no. 3 pp. 400−401
Ney H., Essen U., Kneser R. On Structuring Probabilistic Dependences in Stochastic Language Modelling // Computer Speech and Language 1994, vol.8 no. l pp.1−38
Kapadia S. Discriminative training of Hidden Markov Models // Cambridge University, PhD dissertation, 1998
Черноусько, Ф. Л. Динамическое программирование // Соросовский образовательный журнал, № 2, 1998 г., с. 139−144.
Jelinek F. A. Fast Sequential Decoding Algoritm Using a Stack // IBM J Research and Dev, Vol 13, Nov 1969.
Leggetter P.C. Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density HMMs // Computer Speech & Language, Vol. 9, No. 2, pp. 171−186.
Gales M.J.F. Mean and Variance Adaptation Within the MLLR Framework // Computer Speech & Language, Vol. 10, pp. 249−264.
Woodland P. et al. CU-HTK STT Systems for RT03 // Rich Transcription Workshop, May 19,2003.
Povey D., Woodland P.C. Minimum Phone Error and I-Smoothing for Improved Discriminative Training // Proceedings of the IEEE, ICASSP02, Orlando.
Brown P. The Acoustic-Modelling Problem in Automatic Speech Recognition // Ph.D. thesis, Carnegie-Mellon University, 1987.
Povey, Woodland P.C., Gales M.J.F. Discriminative MAP for acoustic model adaptation //Proc. of ICASSP'03, Detroit, pp.312−315.
Valchev V., Odell J.J., Woodland P.C., Young S.J. MMIE training of large vocabulary recognition systems // Speech Communication, 22 (1997), pp. 303−314.
Stolcke A., Konig Y., Weintraub M. Explicit Word Error Minimization in N-Best List Rescoring // In Proc. Eurospeech'97, pp. 163−166.
Mangu L., Brill E., Stolcke A. Finding Consensus Among Words: Lattice-Based Word Error Minimization // In Proc. Eurospeech'99, pp. 495−498, Budapest.
Weintraub M. LVCSR Log-Likelihood Ratio Scoring for Keyword Spotting // In Proc. ICASSP'95, vol. 1, page 297, Detroit, USA.
Katagiri S, Juang B.-H., Lee C.-H. Pattern recognition using a family of design algorithms based upon the generalized probabilistic descent method // Proceedings of the IEEE, vol. 86, No 11, November 1998.
Зулкарнеев M. Ю. Использование автоматической фонетической разметки речевой базы для обучения системы распознавания непрерывной речи // Сборник трудов XVI сессии Российского акустического общества. T.III. М.: ГЕОС, 2005, 235 е., стр. 4044.
Засорина JI. Н. Частотный словарь русского языка. Москва, 1977.
Jelinek F. Continuous speech recognition by statistical methods // Proc. IEEE, vol. 64, pp. 532−556, Apr. 1976.
Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов.- Киев: Наукова думка, 1987.
Evermann G., Woodland P.C. Large Vocabulary Decoding and Confidence Estimation using Word Posterior Probabilities // Proc. ICASSP'2000, pp. 1655−1658, Istanbul.
Evermann G., Woodland P.C. Posterior Probability Decoding, Confidence Estimation and System Combination// Proc. Speech Transcription Workshop, College Park.
Bahl L.R., Brown P.F., de Souza P.V. Mercer R.L. Speech recognition with continuous parameters hidden Markov models // Computer Speech & Language, Vol. 2, No¾, pp. 219−234, 1987.
Chen S. F An Empirical Study of Smoothing Techniques for Language Modeling. // TR-10−98, Computer Science Group, Harvard University.
Gopalakrishnan D. An Inequality for Rational Functions with Applications to some Statistical Estimation Problems .// IEEE Trans. Information Theory, Vol. 37, 1991 pp. 107−113.
Hain T. Recent Experiments with the CU-HTK Hub5 System // Presented at Hub5 Workshop, June 1999.
Kneser R., Ney H Improved Clustering Techniques for Class-Based Statistical Language Modelling // Proc. Eurospeech'93, pp. 973−976, Berlin.
Kumar N. Investigation of Silicon-Auditory Models and Generalisation of Linear Discriminant Analysis for Improved Speech Recognition // PhD thesis, John Hopkins University, 1997
Kenny P., Lenning M., Mermelstein P. A linear predictive hmm for vector-valued observation with application to speech recognition // IEEE Trans. ASSP, Vol. 38, pp. 220 225.
Woodland P.C. Hidden markov models using vector linear prediction and discriminative output distributions // In Proc. ICASSP, Vol. I, pp. 509−512.
Matsoukas T. The BBN 2001 English Conversational Speech System // Presentation at 2001 NIST Large Vocabulary Conversational Speech Recognition Workshop.
Martin S., Ney H. Algorithms for Bigram and Trigram Clustering // Proc. Eurospeech'95, pp. 1253−1256, Madrid.
Niesler T.R., Whittaker E.W.D. Comparison of Part-Of-Speech and Automatically Derived Category-Based Language Models for Speech Recognition // Proc. ICASSP'98, pp. 177−180, Seattle.
Schlueter R., Mueller B. Interdependence of Language Models and Discriminative Training // Proc. IEEE ASRU Workshop, pp. 119−122, Keystone, Colorado.
Uebel L.F. Improvements in Linear Transform Based Speaker Adaptation // Proc. ICASSP'2001, Salt Lake City.
Valtchev V. MMIE Training of Large Vocabulary Speech Recognition Systems // Speech Communication, Vol. 22, pp 303−314.
Woodland P.C., Pye D., Gales M.J.F. Broadcast News Transcription Using НТК // Proc. ICASSP'97, pp. 719−722, Munich.
Woodland P.C., Pye D., Gales M.J.F. Large Scale Discriminative Training of Hidden Markov Models for Speech Recognition // Computer Speech and Language Vol. 16 No. 1, pp. 25−47.
Woodland P.C. Tree-Based State Tying for High Accuracy Acoustic Modelling // Proc. 1994 ARPA Human Language Technology Workshop, pp. 307−312, Morgan Kaufmann.
Kenny P. A* Admissible Heuristics for Rapid Lexical Access // Proc ICASSP, S10.1, Toronto, 1991
Горяинов В.Б., Павлов И. В., Цветкова Г. М. Математическая статистика, М.: Издательство МГТУ им. Н. Э. Баумана, 2001.
Андерсен Т. Введение в многомерный статистический анализ: Пер. с англ. М.: Физматгиз, 1963.
Блейхут Р. Быстрые алгоритмы цифровой обработки сигналов: Пер. с англ. М.: Мир, 1989.
Винцюк Т.К., Куляс Ф. И. Универсальная программа анализа речи в реальном масштабе времени // Автоматическое распознавание слуховых образов. Тбилиси: Мецниереба, 1978. — с.182−184.
Фланаган Д. Л Анализ, синтез и восприятие речи. М.:Связь, 1968.
Феллер В. Введение в теорию вероятностей и ее приложения. В 2-х томах. Т.2. Пер. с англ. Мир, 1984.
Aubert Xavier A brief overview of decoding techniques for large vocabulary continuous speech recognition, ASR-2000, 91−97.
Bahl L.R. et al. Language-model / acoustic channel balance mechanism // IBM Technical Disclosure Bull. 23 (7B), pp.3464−3465, Dec. 1980
Rose R.C., Paul D.B. A hidden Markov model based keyword recognition system // Proc. of ICASSP'90, pp. 129−132, 1990.
Lleida E., Marino J. В., Salavedra J., Bonafonte A. Syllabic Fillers for Spanish HMM Keyword Spotting // In Proc. Int. Conf. Spoken. Lang. Processing, pages 5−8, Banff, 1992.
Коршунов Ю.М. Математические основы кибернетики. Учебное пособие для втузов. М.: Изд-во «Энергия», 1972.
Juang B.H., Rabiner L.R. A probabilistic distance measure for hidden Markov models // AT&T Tech. J., vol.64, no.2, pp. 391−408, Feb.1985.
Theodoridis S., Koutroumbas K. Pattern recognition. Elsevier academic press, 2003.
Дуда P., Харт П. Распознавание образов и анализ сцен. М.: Изд-во «Мир», 1976.
Аграновский А.В., Леднов Д. А., Репалов С. А., Зулкарнеев М. Ю. Организация иерархической модели распознавания слитной речи // Научно-теоретический международный журнал «Искусственный интеллект», № 3, 2001, Донецк: Изд. НАН Украины, с. 17−22.
Аграновский A.B., Леднов Д. А., Зулкарнеев М. Ю. Поэлементный метод распознавания слов // Материалы второй всероссийской конференции «Теория и практика речевых исследований» (АРСО-2001), Москва, 2001, с. 39−41.
Аграновский A.B., Леднов Д. А., Зулкарнеев М. Ю. Применение скрытых Марковских моделей в распознавании отдельных слов // Акустика речи и прикладная лингвистика, Ежегодник Российского акустического общества, Выпуск3, Москва, 2002, с. 31−34.
Аграновский A.B., Можаев О. Г., Леднов Д. А., Зулкарнеев М. Ю. Автоматическая идентификация языка // Научно-теоретический журнал «Искусственный интеллект», № 4,2002, Донецк: Изд. HAH Украины, с. 142−150.
Agranovsky A.V., Lednov D.A., Zulkarneyev M.Y. Statistical Approach to Creating Phonetic Transcription // Proc of Int. Workshop «Speech&Computer», «Specom-2002», St. Petersburg, Russia, 2−5 September 2002, pp.99−101.
Аграновский A.B., Леднов Д. А., Зулкарнеев М. Ю. Двухслойная модель формирования состояний для скрытых цепей Маркова // Акустический журнал, т.48,4, с.560−562.
Аграновский A.B., Леднов Д. А., Телеснин Б. А., Зулкарнеев М. Ю. Экспериментальный стенд для тестирования системы поиска ключевых слов в непрерывном потоке русской речи // Свидетельство об официальной регистрации программы для ЭВМ № 2 003 611 308.
Аграновский A.B., Леднов Д. А., Телеснин Б. А., Зулкарнеев М. Ю. Классификатор аудио-файлов по языкам // Свидетельство об официальной регистрации программы для ЭВМ № 2 003 611 311.
Аграновский A.B., Леднов Д. А., Зулкарнеев М. Ю. Моделирование вариативности произношения для распознавания русской речи // Научно-теоретический международный журнал «Искусственный интеллект», № 3, 2003, Донецк: дон ГИИИ, с. 388−393.
Леднов Д. А., Куликов Л. С., Зулкарнеев М. Ю. Обзор патентов в области поиска ключевых слов, часть 1. Схемы, не использующие верификацию результатов распознавания //Телекоммуникации, № 4, 2004 г., с. 8−13.
Леднов Д. А., Куликов Л. С., Зулкарнеев М. Ю. Обзор патентов в области поиска ключевых слов, часть 2. Схемы, использующие верификацию результатов распознавания // Телекоммуникации, № 5, 2004 г., с. 16−23.
Zulkarneyev M.Y. An approach to compensation for language modeling errors in the key-spotting systems // Proceedings of 9th International Conference of SPEECH and COMPUTER «Specom2004″, pp. 348−350.
Сатуновский П.С., Зулкарнеев М. Ю. Метод построения фонетической транскрипции слов // Интеллектуальные и многопроцессорные системы-2006, Материалы седьмой международной научно-практической конференции, Т.2. Таганрог: Изд. ТРТУ, 2006, с.390−393.
Moore G.L. Adaptive Statistical Class-based Language Modelling // Ph. D thesis, Cambridge University, 2001.
Rabiner L. Challenges in speech recognition and natural language understanding // Proc. Of 11th international conference „Speech and computer“ (Specom-2006), 25−29 june 2006.
Juang В., Rabiner L. Hidden Markov Models for Speech Recognition // Technometrics, 33(3), August, 1991.
Young S., Woodland P. State clustering in hidden Markov model-based continuous speech recognition // Computer speech & language, 8(4), October 1994.
Rose R. Keyword detection in conversational speech utterances using hidden Markov model based continuous speech recognition // Computer speech & language, 9(4), October 1995.
Wilopon J., Rabiner L., Lee C. Automatic Recognition of Keywords in Unconstrained Speech Using Hidden Markov Models // IEEE transactions on acoustics, speech, and sign, 38(11), November 1990.
Huang X., Acero A., Hon H.W. Spoken language processing: a guide to theory, algorithm, and system development. Prentice-Hall Inc., 2001.
Jiang L., Hon H.W., Huang X.D. Improvements on a Trainable Letter-to-Sound Converter //Eurospeech'97, Rhodes, Greece, 1997.
Poritz A.B. Linear predictive hidden Markov models and the speech signal // in Proc. ICASSP'82, pp. 1291−1294.
Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях» при выполнении работ ФГУП «НИИ «Квант»
Использование этих результатов диссертационной работы позволило повысить точность поиска ключевых слов.1. Отв. исполнителя
Консультант ФГУП «НИИ «Квантм1. В.М. Агеев1. Экз. № i1. УТВК РЖЯЛЮ1. ВРИС О РФ1. ГА Савельев1. АКТо внедрении результатов диссертационной работы Зулкарнеева М.Ю.
Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях» на соискание ученой степени кандидата физико-математических наук
Метод и алгоритм расчета перекрестной. энтропии скрытых Марковских моделей.
Метод и алгоритм формирования словаря заполнения, оптимального с точки зрения минимума средней ошибки распознавания, позволяющий повысить точность поиска ключевых слов в аудио-сообщениях.
Данные теоретические и практические результаты были использованы при в НИР «Ключ», «Живец-1 СВА», ОКР «Творение-2», ОР «Проза», выполненных в ФГУП «18 ЦНИИ» МО РФ в период с 2000 г. по 2006 г.
Председатель комиссии Члены комиссии
Захарченко А. Н. Бублий A.B. Куцор. А.И.1. УТВЕРЖДАЮ
Директор ФГНУ НИИ «Спецвузавтоматика"кпрофессори5 «смеХс1. А. В/Аграновский2003 г1. АКТо внедрении результатов диссертационной работы Зулкарнеева М.Ю.
Разработка математических моделей и алгоритмов поиска ключевых слов ваудио-сообщениях»
Старший научный сотрудник, кандидат физико-математических наук1. А.Ю. Гуфан1. Доцент, кандидат технических наук1. О.Ю. Берг

Заполнить форму текущей работой