Разработка алгоритмов построения оценок достоверности для систем распознавания речи

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Апробация работы. Результаты диссертация докладывались на XII международной конференции «Речь и Компьютер» SPECOM'2007 (Москва, 2007 г.), на XIX сессии Российского Акустического Общества (Нижний Новгород, 2007 г.), на XIII всероссийской конференции «Математические методы распознавания образов» (Санкт-Петербург, 2007 г.), на VII Открытом немецко-российском семинаре «Распознавание образов… Читать ещё >

Разработка алгоритмов построения оценок достоверности для систем распознавания речи (реферат, курсовая, диплом, контрольная)

Содержание

Глава 1. Обзор современных методов распознавания речи и оценивания достоверности результатов распознавания
- 1. 1. Вероятностный подход к моделированию и распознаванию речи
  - 1. 1. 1. Извлечение признаков речевого сигнала
  - 1. 1. 2. Моделирование речевого сигнала на акустическом уровне
  - 1. 1. 3. Моделирование языковых ограничений
  - 1. 1. 4. Декодирование речевого сигнала
- 1. 2. Методы оценки достоверности результатов распознавания
  - 1. 2. 1. Элементарные оценки достоверности
  - 1. 2. 2. Оценки достоверности на основе вычисления апостериорных вероятностей
  - 1. 2. 3. Оценки достоверности на основе формирования отношения правдоподобия
- 1. 3. Выводы
Глава 2. Оценки достоверности на основе отношения правдоподобия
- 2. 1. Выбор моделей для построения отношения правдоподобия
- 2. 2. Методы формирования оценок достоверности
  - 2. 2. 1. Двухуровневый метод формирования оценок достоверности
  - 2. 2. 2. Задание весовых коэффициентов
- 2. 3. Обучение целевых и альтернативных моделей
  - 2. 3. 1. Критерий обучения моделей
  - 2. 3. 2. Обучение моделей методом градиентного спуска
  - 2. 3. 3. Улучшенный алгоритм обучения моделей
- 2. 4. Выводы
Глава 3. Экспериментальные применения
- 3. 1. Корпус речевых данных FaVoR
- 3. 2. Базовая система распознавания речи
  - 3. 2. 1. Извлечение векторов признаков речевого сигнала
  - 3. 2. 2. Акустические модели звуков речи
  - 3. 2. 3. Модель языка для корпуса данных FaVoR
  - 3. 2. 4. Эффективность распознавания для базовой системы
- 3. 3. Результаты экспериментов
  - 3. 3. 1. Оценка параметров целевых и альтернативных моделей
  - 3. 3. 2. Применения предлагаемых методов формирования оценок достоверности
  - 3. 3. 3. Сравнение эффективности предложенного метода с известными оценками достоверности
- 3. 4. Выводы

Прогресс современного общества в значительной мере обусловлен развитием автоматических и роботизированных систем. Компьютеры и микропроцессоры стали неотъемлемым атрибутом жизни людей в индустриально развитых странах. Научно-техническая проблема создания адекватных средств для взаимодействия человека с компьютерными системами приобрела в последние десятилетия важный социальный статус.

Одним из наиболее очевидных и перспективных путей организации взаимодействия человека с компьютером является использование человеческой речи, в частности, автоматическое распознавание речевых сообщений. Исследования по автоматическому распознаванию речи начались более пятидесяти лет назад, в середине прошлого века [19] и интенсивно продолжаются в настоящее время.

Первоначально основной целью автоматического распознавания речи была разработка методов точного преобразовании акустического речевого сигнала в текстовое сообщение для создания так называемой «фонетической пишущей машинки» [8].

С течением времени, с учетом опыта практической реализации систем распознавания речи, произошла переоценка целей и задач этой научной области, на передний план вышли вопросы распознавания и понимания естественной речи, а также создания диалоговых систем. В таких условиях наблюдаемый речевой сигнал может содержать, помимо известных системе слов, также различные акустические события, например, незнакомые слова, обрывки речи, кашель, смех и т. п.

Сейчас задача автоматического распознавания речи трактуется как преобразование речевых сообщений в адекватную речевому высказыванию последовательность действий, в том числе, орфографическую запись высказывания. Для диалоговых систем, например, систем резервирования билетов на транспорт, систем управления бортовой аппаратурой самолета или робототехнического устройства точная текстовая запись высказывания, вообще говоря, не требуется, здесь важно понять значения отдельных терминов. Например, для систем резервирования авиабилетов это могут быть имена пунктов вылета и прилета, дата и время полета.

Успехи в создании методов и технологий распознавания речи очевидны. С точки зрения известного японского специалиста С. Фуруи [28] наиболее значимыми научными и технологическими результатами, полученными за последние годы являются:

— переход от распознавания на основе шаблонов слов к статистическому моделированию речи с помощью Скрытых Марковских Моделей и п-грамм.

— переход от мер сходства на основе расстояний к мерам близости на основе правдоподобия.

— использование дискриминантных методов для распознавания речи.

— использование контекстно-зависимых акустических моделей звуков.

— переход от распознавания изолированно произносимых слов к распознаванию слитной речи.

— переход от систем распознавания с небольшими словарями к системам со словарями в десятки тысяч слов.

— распознавание речи в условиях телефонного канала.

— распознавание речи произвольного человека.

— распознавание естественной речи.

— распознавание речи в ситуациях полилогов.

— понимание речевых сообщений.

— развитие мультимодальных систем распознания речи.

— реализация сложных систем распознавания целиком на уровне программного кода.

— развитие специального программного обеспечения, его стандартизация.

— появление коммерчески успешных продуктов с использованием распознавания речи Успехи, достигнутые научными коллективами, можно количественно измерить результатами (например, в терминах основной характеристики эффективности систем распознавания речи — вероятности пословной ошибки распознавания), которые получены при решении специально выбранных тестовых заданий. В следующей таблице приведены вероятности пословной ошибки распознавания для лучших лабораторных систем распознавания речи, которые были получены при испытаниях на четырех индикативных проблемно-ориентированных задачах. Для сведения также приведены характеристики сложности задач — размер словаря и перплексия (коэффициент ветвления) языка [40].

Таблица 1.

Характеристики нескольких современных систем распознавания речи.

Задача Размер словаря Перплексия языка Вероятность ошибки.

Распознавание слитно произносимых цифр 11 11 0.5%.

Деловые новости (читаемая речь) 20 000 200 3%.

Новости (читаемая речь) 64 000 — 10%.

Телефонные разговоры 64 000 — 20%.

Из представленных данных следует, что распознавание естественной произвольной речи, тем более в ограниченном по полосе частот, канале передачи, каким является телефонный канал, далеко от удовлетворительного: каждое пятое слово распознается неправильно. В этом нет ничего необычного, поскольку распознавание речи у человека неразрывно связано с ее пониманием и мультимодальной обработкой, то есть анализом смысла высказывания, учетом контекстной информации, мимики и т. п.

Основная причина относительно невысокой эффективности систем речевой технологии заключается в вариативности речевого сигнала, которая обуславливается, например, индивидуальными особенностями дикторов, характеристиками каналов связи, а также влиянием окружающей обстановки.

На эффективность автоматического распознавания речи также оказывают существенное влияние условия прикладной области, в частности, размер словаря. Как правило, словарь системы распознавания является замкнутым, то есть содержит все слова, которые могут быть произнесены и должны быть распознаны. Увеличение размера словаря, вообще говоря, снижает вероятность правильного распознавания.

Потребность распознавания естественной, неограниченной, по словарному составу, речи, приводит к тому, что требование правильного распознавания всего высказывания вряд ли осуществимо и обычно не требуется. Поскольку в данном случае словарь системы является открытым, необходимо предусмотреть возможность отказа системы от распознавания каких-то частей речевого высказывания, которые содержат новые, не входящие в словарь системы, выражения и слова. Таким образом, появляется необходимость решения проблемы идентификации в речевом потоке новых, так называемых, несловарных (OOV, «out of vocabulary») слов или иных акустических событий. Естественным способом решения этой проблемы является синтез так называемых оценок достоверности для результатов распознавания, на основе значений которых можно, в частности, идентифицировать OOV.

Под оценкой достоверности (английский термин «confidence measure») для некоторого результата распознавания речи, под которым может подразумеваться отдельное слово, звук или предложение, здесь и далее будет пониматься число, в интервале от 0 до 1, которое характеризует степень доверия или уверенности в правильности этого результата.

Применение оценок достоверности также может повысить эффективность использования традиционных систем распознавания речи, оперирующих с замкнутыми словарями. Часто эти системы используются как составная часть более крупных автоматических систем, например, управления робототехническими комплексами, доступа к информационным ресурсам, диалоговых систем. В этом случае существует возможность коррекции ошибок автоматического распознавания речи на основе дополнительной информации, которой располагает система верхнего уровня. Такая коррекция будет более успешна, если система распознавания речи предоставит расширенную информацию о результате распознавания, включающую не только предполагаемые слова, но и оценку их достоверности.

Важность решения проблемы построения эффективных оценок достоверности для систем распознавания речи увеличивается по мере дальнейшего прогресса в области речевых технологий. Это обстоятельство определяет актуальность исследований в этом направлении.

Цель диссертационной работы заключается в исследовании и разработке эффективных алгоритмов построения оценок достоверности для систем автоматического распознавания речи.

Достижение указанной цели предполагает решение следующих основных задач:

1. Исследование существующих методов моделирования и автоматического распознавания речи, а также известных методов построения оценок достоверности для систем распознавания речи.

2. Разработка новых методов и алгоритмов построения оценок достоверности результатов работы систем распознавания речи.

3. Программная реализация предлагаемых алгоритмов и проведение экспериментальных исследований их эффективности.

В качестве методов исследования использовались методы математического анализа, методы цифровой обработки сигналов, теории распознавания образов, теории вероятностей, методы кластеризации, теории оптимизации, теории формальных языков.

Научная новизна заключается в том, что предложен новый метод построения оценок достоверности для систем распознавания речи, который основан на построении дополнительных моделей распределения признаков речевого сигнала. Разработаны алгоритмы оценивания значений параметров дополнительных моделей, а также выбора оптимального количества их параметров.

Практическая ценность диссертации. Предложенный метод формирования оценок достоверности показал высокую эффективность при верификации результатов распознавания речи. Исследования были выполнены в рамках работ по проектам «Разработка и тестирование системы распознавания речевых команд управления в акустико-фоновой обстановке кабины пилота» и «Разработка и исследование методов распознавания речи на основе комбинированных моделей звуков» (гранты РФФИ № 06−08−1534 и № 07−01−657).

Основные научные результаты диссертации, выносимые на защиту:

1. Метод формирования оценок достоверности для систем распознавания речи, основная идея которого заключается в построении специальных (дополнительных) моделей распределения векторов признаков речевого сигнала.

2. Алгоритм оценивания параметров дополнительных моделей распределения по обучающей выборке.

3. Алгоритм выбора оптимального количества параметров дополнительных моделей.

Публикации. По результатам диссертационной работы опубликовано 6 статей в научных изданиях [1−6].

Диссертационная работа состоит из введения, трех глав, заключения, двух приложений и библиографического списка использованных источников. Общий объем составляет 102 страницы, в том числе 13 рисунков и 20 таблиц. Библиографический список включает 85 наименований.

Основные результаты диссертационной работы заключаются в следующем:

1. Проведено исследование современных методов построения систем распознавания на основе вероятностного подхода.

2. Проведен анализ существующих подходов к формированию оценок достоверности для систем распознавания речи.

3. Введены определения целевых и альтернативных моделей распределения векторов признаков речевого сигнала и приведен способ построения элементарной функции достоверности для вектора признаков. Предложен новый метод построения оценок достоверности для систем распознавания речи, который основан на использовании значений элементарной функции от составляющих векторов признаков.

4. На основе предложенного метода построения элементарной функции достоверности для вектора признаков разработан алгоритм построения целевых и альтернативных моделей, который позволяет решить проблему выбора количества параметров этих моделей.

5. Выполнена практическая реализация и проведены численные измерения показателей эффективности предложенных методов и алгоритмов. Результаты экспериментов показали более высокую эффективность предложных в работе оценок достоверности по сравнению с известными оценками.

Заключение

В диссертационной работе представлены результаты исследований и разработки алгоритмов построения оценок достоверности для систем распознавания речи.

Показать весь текст

Список литературы

Нгуен М. Т. Оценка достоверности результатов автоматического распознавания речи // Труды Института системного анализа РАН. Динамика неоднородных систем, 2006, в. 10(2), с. 405−414
Нгуен М. Т. Обнаружение новых слов и невербальных событий при распознавании речи // Модели, методы, алгоритмы и архитектуры систем распознавания речи, 2006, с. 119−137
Нгуен М. Т. Построение оценок достоверности результатов распознавания речи с использованием альтернативных моделей // Сборник докладов 13-ой Всероссийской конференции «Математические методы распознавания образов», 2007, с. 370−371
Нгуен М. Т., Чучупал В. Я. Верификация результатов автоматического распознавания речи // Сборник трудов XIX сессии Российского Акустического Общества, 2007, Т. 3. с. 63−67
Nguyen М. Т., Chuchupal V. J. Word verification method for automatic speech recognition // Proceedings of the XII International Conference «Speech and Computer» Specom'2007, 2007, V. 1, p. 152−156
Nguyen M. Т., Chuchupal V. J. Word confidence measure based on frame likelihood score // Pattern recognition and image analysis. Advances in mathematical theory and application, 2008, N. 3, p. 431−433
Десятчиков А. А., Ковков Д. В., Лобанцов В. В., Маковкин К. А., Матвеев И. А., Мурынин А. Б., Чучупал В. Я. Комплекс Алгоритмов Для Устойчивого Распознавания Человека // Известия РАН, Теория и Системы Управления, 2006, с. 119−130
Обжелян Н. К., Трунин-Донской В.Н Машины, которые говорят и слушают // Кишинев, Штиница, 1987
Aho A. V., Ullman J. D. The Theory of Parsing, Translation and Computing // Prentice Hall, 1972
Atal B. S., Schroeder M. R. Predictive Coding of Speech Signal // Proceedings of the International Congress on Acoustic, 1968
Bahl L. R., Jelinek F., Mercer R. L. A Maximum Likelihood Approach to Continuous Speech Recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence, 1983, pp. 179−190
Baum L. E. An Inequality and Associated Maximization Technique in Statistical Estimation of Probabilistic Functions of a Markov Process // Inequalities, 1972, V. 3, pp. 1−8
Benitez M. C., Rubio A., Torre A. Different Confidence Measures for Word Verification in Speech Recognition // Speech Communication, 2000, V. 32, pp. 79−94
Bilmes J. A. A Gentle Tutorial of the EM Algorithm and Its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models, 1998
Bouwman G., Boves L., Koolwaaij J. Weighting Phone Confidence Measure for Automatic Speech Recognition // Workshop on Voice Operated Telecom Services, 2000, pp. 59−62
Charlet D. Optimizing Confidence Measure Based on HMM Acoustical Rescoring // Proceedings of the ISCA Tutorial and Research Workshop ARS2000, 2000, pp. 203−206
Chase L. Word and Acoustic Confidence Annotation for Large Vocabulary Speech Recognition // Proceedings of the European Conference on Speech Communication and Technology, 1997, pp. 815−818
Cox S., Rose R. Confidence Measures for the Switch-board Database // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1996, pp. 511−514
Davis К. H., Biddulph R., Balashek S. Automatic Recognition of Spoken Digits // The Journal of the Acoustical Society of America, 1952, V. 24,1. 6, pp. 637−642
Demuynck K., Van Compernolle D., Wambacq P. Doing Away with the Viterbi Approximation // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2002, pp. 717−720
Deriven M. Dynamic Bayesian Networks for Speech Recognition // Proceedings of the National Conference on Artificial Intelligence, 2002, pp. 981−981
Egan J. P. Signal Detection Theory and ROC Analysis // Academic Press, 1975
Eide E., Gish H., Jeanrenaud P., Mielke A. Understanding and Improving Speech Recognition Performance Through the Use of Diagnostic Tools // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1995, pp. 221−224
Erzin E., Cetin A. E., Yardimci Y. Subband Analysis for Robust Speech Recognition in the Presence of Car Noise // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1995, pp. 417−420
Fabian Т., Lieb R., Gunther R., Matthias T. Impact of Word Graph Density on the Quality of Posterior Probability Based Confidence Measures // Proceedings of the European Conference on Speech Communication and Technology, 2003, pp. 917−920
Fawcett T. An Introduction to Roc Analysis // Pattern Recognition Letters, 2006, pp. 861−874
Franzini M., Witbrock M., Lee K. A Connectionist Approach to Continuous Speech Recognition // Proceedings of the International Conference on Acoustics, Speech and Signal Processing, 1989, pp. 425−428
Furui S. Fifty Years of Progress in Speech and Speaker Recognition // The Journal of the Acoustical Society of America, 2004, V. 116, I. 4, pp. 24 972 498
Gold В., Morgan N. Speech and Audio Signal Processing // John Wiley and Sons, 2000
Gowdy J. N., Tufekci Z. Mel-scaled Discrete Wavelet Coefficients for Speech Recognition // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2000, pp. 1351−1354
Harrison Т., Fallside F. A Connectionist Model for Phoneme Recognition in Continuous Speech // Proceedings of the International Conference on Acoustics, Speech and Signal Processing, 1989, pp. 417−420
Huang X. D., Ariki Y., Jack M. A. Hidden Markov Models for Speech Recognition // Edinburgh University Press, 1990
Humphrys M. Introduction to Artificial Intelligence, 2008, http://www.computing.dcu.ie/~humphrys/ca300/index.html
Hunt A., McGlashan S. Speech Recognition Grammar Specification Version 1.0// W3C, 2004
Itakura F., Saito S. Analysis Synthesis Telephony Based on the Maximum Likelihood Method // Proceedings of the International Congress on Acoustic, 1968, pp. 17−20
Jelinek F. Statistical Method for Speech Recognition // MIT Press, 1997
Jelinek F. The Development of an Experimental Discrete Dictation Recognizer//Proceedings of the IEEE, 1985, pp. 1616−1624
Jia В., Zhu X., Luo Y., Hu D. Utterance Verification Using Modified Segmental Probability Model // Proceedings of the European Conference on Speech Communication and Technology, 1999, pp. 45−48
Jiang L., Huang X. D. Vocabulary-independent Word Confidence Measure Using Subword Features // Proceedings of the International Conference on Spoken Language Processing, 1998
Jurafsky D., Martin J. H. Speech and Language Processing // Prentice Hall, 2008
Kemp Т., Schaaf T. Estimating Confidence Using Word Lattices // Proceedings of the European Conference on Speech Communication and Technology, 1997, pp. 827−830
Kim K., Youn D. H., Lee C. Evaluation of Wavelet Filters for Speech Recognition // Proceedings of the IEEE International Conference on Systems, Man and Cybernetics, 2000, v. 4, pp. 2891−2894
Levinson S. E. Continuously Variable Duration Hidden Markov Models for Automatic Speech Recognition // Computer Speech and Language, 1986, pp. 29−45
Lleida E., Rose R. C. Efficient Decoding and Training Procedure for Utterance Verification in Continuous Speech Recognition // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1996, pp. 507−510
Lleida E., Rose R. C. Utterance Verification in Continuous Speech Recognition: Decoding and Training Procedures // IEEE Transactions on Speech and Audio Processing, 2000, pp. 126−139
Macherey K., Bender O., Ney H. Multi-level Error Handling for Tree-Based Dialogue Course Management // Proceedings of the ISCA Tutorial and Research Workshop on Error Handling in Spoken Dialogue Systems, 2003, pp. 123−128
Marlcel J. D., Gray A. H. Linear Prediction of Speech // Springer-Verlag, 1976, pp. 31−35
Martin A., Doddington G., Kamm Т., Ordowski M., Pryzybocki M. The DET Curve in Assessment of Detection Task Performance // Proceedings of the European Conference on Speech Communication and Technology, 1997, pp. 1895−1898
Mathan L., Miclet L. Rejection of Extraneous Input in Speech Recognition Applications, Using Multi-layer Perceptrons and the Trace of HMMs // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1991, pp. 93−96
Moreau N., Jouvet D. Use of a Confidence Measure Based on Frame Level Likelihood Ratios for the Rejection of Incorrect Data // Proceedings of the European Conference on Speech Communication and Technology, 1999, pp. 291−294
Neti C. Y., Roukos S., Eide E. Word-based Confidence Measures as a Guide for Stack Search in Speech Recognition // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1997, pp. 883−886
Ney H., Martin S., Wessel F. Statistical Language Modeling Using Leaving-one-out // Corpus-based Methods in Language and Speech Processing, 1997, pp. 174−207
Normadin Т., Lacouture R., Cardin R. MMIE Training for Large Vocabulary Continuous Speech Recognition // Proceedings of the International Conference on Acoustics, Speech and Signal Processing, 1994, pp. 13 671 370
Picone J. W. Signal Modeling Techniques in Speech Recognition // Proceedings of the IEEE, 1993, pp. 1215−1247
Pinto J., Sitaram R. N. V. Confidence Measures in Speech Recognition Based on Probability Distribution of Likelihoods // Proceedings of the European Conference on Speech Communication and Technology Interspeech'2005, 2005, pp. 3001−3004
Rabiner L. R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition // Proceedings of the IEEE, 1989, pp. 257−286
Rabiner L. R., Juang В. H. Fundamentals of Speech Recognition 11 Prentice Hall, 1993
Rabiner L. R., Juang В. H., Levinson S. E., Sondhi M. M Recognition of Isolated Digits Using Hidden Markov Models with Continuous Mixture Densities // AT&T Technical Journal, 1985, pp. 1211−1234
Rahim M. G., Lee С. H. Discriminative Utterance Verification for Connected Digits Recognition // IEEE Transactions on Speech and Audion Processing, 1997, pp. 266−277
Razik J., Mella O., Fohr D., Haton J. P. Local Word Confidence Measure Using Word Graph and N-Best List // Proceedings of the European Conference on Speech Communication and Technology, 2005, pp. 3369−3372
Robinson A. J., Fallside F. A Dynamic Connectionist Model for Phoneme Recognition // Neural Networks from Models to Applications, 1988, pp. 541 550
Rose R. C., Juang В. H., Lee С. H. A Training Procedure for Verifying String Hypothesis in Continuous Speech Recognition // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1995, pp. 281−284
Sanderson C., Bengio S., Boulard H., Mariethoz J., Collobert R., BenZeghiba M. F., Cardinaux F., Marcel S. Speech and Face Based Biometric Authentification at IDIAP // Proceedings of the International Conference on Miltimedia and Expo, 2003, pp. 1−4
San-Segundo R., Pellom В., Hacioglu K., Ward W. Confidence Measures for Spoken Dialogue Systems // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2001, pp. 393−396
Schaaf Т., Kemp T. Confidence Measures for Spontaneous Speech Recognition // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1997, pp. 875−878
Sigurdsson S., Peterson К. В., Lehn-Schioler T. Mel Frequency Cepstral Coefficients: An Evaluation of Robustness of MP3 Encoded Music // Proceedings of the International Conference on Music Information Retrieval, 2006, pp. 286−289
Siu M. H., Mark В., Au W. H. Minimization of Utterance Verification Error Rate as a Constrained Optimization Problem // IEEE Signal Processing Letters, 2006, v. 13, pp. 760−763
Siu M., Gish H. Evaluation of Word Confidence for Speech Recognition Systems // Computer Speech And Language, 1999, pp. 299−319
Soong F. K., Lo W. K. Generalized Posterior Probability for Minimum Error Verification of Recognized Sentences // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2005, pp. 85−88
Sukkar R. A. Rejection for Connected Digit Recognition Based on GPD Segmental Discrimination // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1994, pp. 393−396
Sukkar R. A., Lee С. H. Vocabulary Independent Discriminative Utterance Verification for Nonkeyword Rejection in Subword Based Speech Recognition // IEEE Transactions on Speech and Audio Process, 1996, V. 4, pp. 420−429
Uhrik C., Ward W. Confidence Metrics Based on N-gram Language Model Back-off Behaviors // Proceedings of the European Conference on Speech Communication and Technology, 1997, pp. 2772−2774
Ullman J. D., Hopcroft J. E. Introduction to Automata Theory, Language and Computation // Addison Wesley, 1979
Weintraub M., Beaufays F., Rivlin Z., Konig Y., Stolcke A. Neural-network Based Measures of Confidence for Word Recognition // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1997, pp. 887−890
Weitraub M. LVCSR Log-likelihood Ratio Scoring for Keyword Spotting // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1995, pp. 297−300
Wessel F. Word Posterior Probabilities for Large Vocabulary Speech Recognition // Ph.D. Thesis, RWTFI Aachen University, German, 2002
Wessel F., Macherey K., Ney H. A Comparison of Word Graph and N-Best List Based Confidence Measures // Proceedings of the European Conference on Speech Communication and Technology, 1999, pp. 315−318
Wessel F., Macherey K., Schluter R. Using Word Probabilities as Confidence Measures // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 1998, pp. 225−228
Wessel F., Schluter R., Macherey K., Ney H. Confidence Measures for Large Vocabulary Continuous Speech Recognition // IEEE Transactions on Speech and Audio Process, 2001, pp. 288−298
Wessel F., Schluter R., Ney H. Using Posterior Word Probabilities for Improved Speech Recognition // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2000, pp. 1587−1590
Young S. J. A Review of Large-Vocabulary Continuous Speech Recognition // IEEE Signal Processing Magazine, 1996, pp. 45−57
Young S., Evermann G., Hain T. Kershaw D., Moore G., Odell J., Ollason D., Povey D., Valtchev V., Woodland P. The НТК Book // Cambridge University Engineering Department, 2002
Zhang R., Rudnicky A. I. Word Level Confidence Annotation Using Combinations of Features // Proceedings of the European Conference on Speech Communication and Technology, 2001, pp. 2105−2108
Zweig G. Speech Recognition with Dynamic Bayesian Networks // Ph.D. Thesis, University of California, Berkeley 1998

Заполнить форму текущей работой