Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях
Диссертация
Для решения второй частной задачи введено понятие критерия близости между СММ-моделями, а также понятие показателя влияния контекста на параметры моделей. С использованием введенных понятий предложен метод аппроксимации длинноконтекстных моделей фонем в случае, если для их обучения не хватает обучающих данных. В качестве аппроксимации длинноконтекстной модели с описателем d, если для нее… Читать ещё >
Список литературы
- Горелик А.Л., Скриикин В. А. Методы распознавания. Учеб. Пособие для вузов. М.: Высшая школа, 1989.
- Рабинер Л.Б. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи: Обзор //ТИИЭР, т.11, № 2, февраль 1989 с. 86−120.
- Миллер Б.М., Панков А. Р. Теория случайных процессов в примерах и задачах. М.: ФИЗМАТЛИТ, 2002.
- Хемминг Р.В. Цифровые фильтры. Москва, Советское радио, 1980.
- Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов, М., Радио и связь, 1981.
- Hermansky Н. Perceptual Linear Predictive (PLP) Analysis of Speech // J. Acoust. Soc. Am., v. 87, no 4., p. 1738−1751.
- Good I.J. The Population Frequencies of Species and the Estimation of Population Parameters // Biometrika 1953, vol. 40 (3,4) pp. 237−264
- Katz S.M. Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recogniser // IEEE Transactions on Acoustic, Speech and Signal Processing 1987, vol. 35 no. 3 pp. 400−401
- Ney H., Essen U., Kneser R. On Structuring Probabilistic Dependences in Stochastic Language Modelling // Computer Speech and Language 1994, vol.8 no. l pp.1−38
- Kapadia S. Discriminative training of Hidden Markov Models // Cambridge University, PhD dissertation, 1998
- Черноусько, Ф. Л. Динамическое программирование // Соросовский образовательный журнал, № 2, 1998 г., с. 139−144.
- Jelinek F. A. Fast Sequential Decoding Algoritm Using a Stack // IBM J Research and Dev, Vol 13, Nov 1969.
- Leggetter P.C. Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density HMMs // Computer Speech & Language, Vol. 9, No. 2, pp. 171−186.
- Gales M.J.F. Mean and Variance Adaptation Within the MLLR Framework // Computer Speech & Language, Vol. 10, pp. 249−264.
- Woodland P. et al. CU-HTK STT Systems for RT03 // Rich Transcription Workshop, May 19,2003.
- Povey D., Woodland P.C. Minimum Phone Error and I-Smoothing for Improved Discriminative Training // Proceedings of the IEEE, ICASSP02, Orlando.
- Brown P. The Acoustic-Modelling Problem in Automatic Speech Recognition // Ph.D. thesis, Carnegie-Mellon University, 1987.
- Povey, Woodland P.C., Gales M.J.F. Discriminative MAP for acoustic model adaptation //Proc. of ICASSP'03, Detroit, pp.312−315.
- Valchev V., Odell J.J., Woodland P.C., Young S.J. MMIE training of large vocabulary recognition systems // Speech Communication, 22 (1997), pp. 303−314.
- Stolcke A., Konig Y., Weintraub M. Explicit Word Error Minimization in N-Best List Rescoring // In Proc. Eurospeech'97, pp. 163−166.
- Mangu L., Brill E., Stolcke A. Finding Consensus Among Words: Lattice-Based Word Error Minimization // In Proc. Eurospeech'99, pp. 495−498, Budapest.
- Weintraub M. LVCSR Log-Likelihood Ratio Scoring for Keyword Spotting // In Proc. ICASSP'95, vol. 1, page 297, Detroit, USA.
- Katagiri S, Juang B.-H., Lee C.-H. Pattern recognition using a family of design algorithms based upon the generalized probabilistic descent method // Proceedings of the IEEE, vol. 86, No 11, November 1998.
- Зулкарнеев M. Ю. Использование автоматической фонетической разметки речевой базы для обучения системы распознавания непрерывной речи // Сборник трудов XVI сессии Российского акустического общества. T.III. М.: ГЕОС, 2005, 235 е., стр. 4044.
- Засорина JI. Н. Частотный словарь русского языка. Москва, 1977.
- Jelinek F. Continuous speech recognition by statistical methods // Proc. IEEE, vol. 64, pp. 532−556, Apr. 1976.
- Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов.- Киев: Наукова думка, 1987.
- Evermann G., Woodland P.C. Large Vocabulary Decoding and Confidence Estimation using Word Posterior Probabilities // Proc. ICASSP'2000, pp. 1655−1658, Istanbul.
- Evermann G., Woodland P.C. Posterior Probability Decoding, Confidence Estimation and System Combination// Proc. Speech Transcription Workshop, College Park.
- Bahl L.R., Brown P.F., de Souza P.V. Mercer R.L. Speech recognition with continuous parameters hidden Markov models // Computer Speech & Language, Vol. 2, No¾, pp. 219−234, 1987.
- Chen S. F An Empirical Study of Smoothing Techniques for Language Modeling. // TR-10−98, Computer Science Group, Harvard University.
- Gopalakrishnan D. An Inequality for Rational Functions with Applications to some Statistical Estimation Problems .// IEEE Trans. Information Theory, Vol. 37, 1991 pp. 107−113.
- Hain T. Recent Experiments with the CU-HTK Hub5 System // Presented at Hub5 Workshop, June 1999.
- Kneser R., Ney H Improved Clustering Techniques for Class-Based Statistical Language Modelling // Proc. Eurospeech'93, pp. 973−976, Berlin.
- Kumar N. Investigation of Silicon-Auditory Models and Generalisation of Linear Discriminant Analysis for Improved Speech Recognition // PhD thesis, John Hopkins University, 1997
- Kenny P., Lenning M., Mermelstein P. A linear predictive hmm for vector-valued observation with application to speech recognition // IEEE Trans. ASSP, Vol. 38, pp. 220 225.
- Woodland P.C. Hidden markov models using vector linear prediction and discriminative output distributions // In Proc. ICASSP, Vol. I, pp. 509−512.
- Matsoukas T. The BBN 2001 English Conversational Speech System // Presentation at 2001 NIST Large Vocabulary Conversational Speech Recognition Workshop.
- Martin S., Ney H. Algorithms for Bigram and Trigram Clustering // Proc. Eurospeech'95, pp. 1253−1256, Madrid.
- Niesler T.R., Whittaker E.W.D. Comparison of Part-Of-Speech and Automatically Derived Category-Based Language Models for Speech Recognition // Proc. ICASSP'98, pp. 177−180, Seattle.
- Schlueter R., Mueller B. Interdependence of Language Models and Discriminative Training // Proc. IEEE ASRU Workshop, pp. 119−122, Keystone, Colorado.
- Uebel L.F. Improvements in Linear Transform Based Speaker Adaptation // Proc. ICASSP'2001, Salt Lake City.
- Valtchev V. MMIE Training of Large Vocabulary Speech Recognition Systems // Speech Communication, Vol. 22, pp 303−314.
- Woodland P.C., Pye D., Gales M.J.F. Broadcast News Transcription Using НТК // Proc. ICASSP'97, pp. 719−722, Munich.
- Woodland P.C., Pye D., Gales M.J.F. Large Scale Discriminative Training of Hidden Markov Models for Speech Recognition // Computer Speech and Language Vol. 16 No. 1, pp. 25−47.
- Woodland P.C. Tree-Based State Tying for High Accuracy Acoustic Modelling // Proc. 1994 ARPA Human Language Technology Workshop, pp. 307−312, Morgan Kaufmann.
- Kenny P. A* Admissible Heuristics for Rapid Lexical Access // Proc ICASSP, S10.1, Toronto, 1991
- Горяинов В.Б., Павлов И. В., Цветкова Г. М. Математическая статистика, М.: Издательство МГТУ им. Н. Э. Баумана, 2001.
- Андерсен Т. Введение в многомерный статистический анализ: Пер. с англ. М.: Физматгиз, 1963.
- Блейхут Р. Быстрые алгоритмы цифровой обработки сигналов: Пер. с англ. М.: Мир, 1989.
- Винцюк Т.К., Куляс Ф. И. Универсальная программа анализа речи в реальном масштабе времени // Автоматическое распознавание слуховых образов. Тбилиси: Мецниереба, 1978. — с.182−184.
- Фланаган Д. Л Анализ, синтез и восприятие речи. М.:Связь, 1968.
- Феллер В. Введение в теорию вероятностей и ее приложения. В 2-х томах. Т.2. Пер. с англ. Мир, 1984.
- Aubert Xavier A brief overview of decoding techniques for large vocabulary continuous speech recognition, ASR-2000, 91−97.
- Bahl L.R. et al. Language-model / acoustic channel balance mechanism // IBM Technical Disclosure Bull. 23 (7B), pp.3464−3465, Dec. 1980
- Rose R.C., Paul D.B. A hidden Markov model based keyword recognition system // Proc. of ICASSP'90, pp. 129−132, 1990.
- Lleida E., Marino J. В., Salavedra J., Bonafonte A. Syllabic Fillers for Spanish HMM Keyword Spotting // In Proc. Int. Conf. Spoken. Lang. Processing, pages 5−8, Banff, 1992.
- Коршунов Ю.М. Математические основы кибернетики. Учебное пособие для втузов. М.: Изд-во «Энергия», 1972.
- Juang B.H., Rabiner L.R. A probabilistic distance measure for hidden Markov models // AT&T Tech. J., vol.64, no.2, pp. 391−408, Feb.1985.
- Theodoridis S., Koutroumbas K. Pattern recognition. Elsevier academic press, 2003.
- Дуда P., Харт П. Распознавание образов и анализ сцен. М.: Изд-во «Мир», 1976.
- Аграновский А.В., Леднов Д. А., Репалов С. А., Зулкарнеев М. Ю. Организация иерархической модели распознавания слитной речи // Научно-теоретический международный журнал «Искусственный интеллект», № 3, 2001, Донецк: Изд. НАН Украины, с. 17−22.
- Аграновский A.B., Леднов Д. А., Зулкарнеев М. Ю. Поэлементный метод распознавания слов // Материалы второй всероссийской конференции «Теория и практика речевых исследований» (АРСО-2001), Москва, 2001, с. 39−41.
- Аграновский A.B., Леднов Д. А., Зулкарнеев М. Ю. Применение скрытых Марковских моделей в распознавании отдельных слов // Акустика речи и прикладная лингвистика, Ежегодник Российского акустического общества, Выпуск3, Москва, 2002, с. 31−34.
- Аграновский A.B., Можаев О. Г., Леднов Д. А., Зулкарнеев М. Ю. Автоматическая идентификация языка // Научно-теоретический журнал «Искусственный интеллект», № 4,2002, Донецк: Изд. HAH Украины, с. 142−150.
- Agranovsky A.V., Lednov D.A., Zulkarneyev M.Y. Statistical Approach to Creating Phonetic Transcription // Proc of Int. Workshop «Speech&Computer», «Specom-2002», St. Petersburg, Russia, 2−5 September 2002, pp.99−101.
- Аграновский A.B., Леднов Д. А., Зулкарнеев М. Ю. Двухслойная модель формирования состояний для скрытых цепей Маркова // Акустический журнал, т.48,4, с.560−562.
- Аграновский A.B., Леднов Д. А., Телеснин Б. А., Зулкарнеев М. Ю. Экспериментальный стенд для тестирования системы поиска ключевых слов в непрерывном потоке русской речи // Свидетельство об официальной регистрации программы для ЭВМ № 2 003 611 308.
- Аграновский A.B., Леднов Д. А., Телеснин Б. А., Зулкарнеев М. Ю. Классификатор аудио-файлов по языкам // Свидетельство об официальной регистрации программы для ЭВМ № 2 003 611 311.
- Аграновский A.B., Леднов Д. А., Зулкарнеев М. Ю. Моделирование вариативности произношения для распознавания русской речи // Научно-теоретический международный журнал «Искусственный интеллект», № 3, 2003, Донецк: дон ГИИИ, с. 388−393.
- Леднов Д. А., Куликов Л. С., Зулкарнеев М. Ю. Обзор патентов в области поиска ключевых слов, часть 1. Схемы, не использующие верификацию результатов распознавания //Телекоммуникации, № 4, 2004 г., с. 8−13.
- Леднов Д. А., Куликов Л. С., Зулкарнеев М. Ю. Обзор патентов в области поиска ключевых слов, часть 2. Схемы, использующие верификацию результатов распознавания // Телекоммуникации, № 5, 2004 г., с. 16−23.
- Zulkarneyev M.Y. An approach to compensation for language modeling errors in the key-spotting systems // Proceedings of 9th International Conference of SPEECH and COMPUTER «Specom2004″, pp. 348−350.
- Сатуновский П.С., Зулкарнеев М. Ю. Метод построения фонетической транскрипции слов // Интеллектуальные и многопроцессорные системы-2006, Материалы седьмой международной научно-практической конференции, Т.2. Таганрог: Изд. ТРТУ, 2006, с.390−393.
- Moore G.L. Adaptive Statistical Class-based Language Modelling // Ph. D thesis, Cambridge University, 2001.
- Rabiner L. Challenges in speech recognition and natural language understanding // Proc. Of 11th international conference „Speech and computer“ (Specom-2006), 25−29 june 2006.
- Juang В., Rabiner L. Hidden Markov Models for Speech Recognition // Technometrics, 33(3), August, 1991.
- Young S., Woodland P. State clustering in hidden Markov model-based continuous speech recognition // Computer speech & language, 8(4), October 1994.
- Rose R. Keyword detection in conversational speech utterances using hidden Markov model based continuous speech recognition // Computer speech & language, 9(4), October 1995.
- Wilopon J., Rabiner L., Lee C. Automatic Recognition of Keywords in Unconstrained Speech Using Hidden Markov Models // IEEE transactions on acoustics, speech, and sign, 38(11), November 1990.
- Huang X., Acero A., Hon H.W. Spoken language processing: a guide to theory, algorithm, and system development. Prentice-Hall Inc., 2001.
- Jiang L., Hon H.W., Huang X.D. Improvements on a Trainable Letter-to-Sound Converter //Eurospeech'97, Rhodes, Greece, 1997.
- Poritz A.B. Linear predictive hidden Markov models and the speech signal // in Proc. ICASSP'82, pp. 1291−1294.
- Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях» при выполнении работ ФГУП «НИИ «Квант»
- Использование этих результатов диссертационной работы позволило повысить точность поиска ключевых слов.1. Отв. исполнителя
- Консультант ФГУП «НИИ «Квантм1. В.М. Агеев1. Экз. № i1. УТВК РЖЯЛЮ1. ВРИС О РФ1. ГА Савельев1. АКТо внедрении результатов диссертационной работы Зулкарнеева М.Ю.
- Разработка математических моделей и алгоритмов поиска ключевых слов в аудио-сообщениях» на соискание ученой степени кандидата физико-математических наук
- Метод и алгоритм расчета перекрестной. энтропии скрытых Марковских моделей.
- Метод и алгоритм формирования словаря заполнения, оптимального с точки зрения минимума средней ошибки распознавания, позволяющий повысить точность поиска ключевых слов в аудио-сообщениях.
- Данные теоретические и практические результаты были использованы при в НИР «Ключ», «Живец-1 СВА», ОКР «Творение-2», ОР «Проза», выполненных в ФГУП «18 ЦНИИ» МО РФ в период с 2000 г. по 2006 г.
- Председатель комиссии Члены комиссии
- Захарченко А. Н. Бублий A.B. Куцор. А.И.1. УТВЕРЖДАЮ
- Директор ФГНУ НИИ «Спецвузавтоматика"кпрофессори5 «смеХс1. А. В/Аграновский2003 г1. АКТо внедрении результатов диссертационной работы Зулкарнеева М.Ю.
- Разработка математических моделей и алгоритмов поиска ключевых слов ваудио-сообщениях»
- Старший научный сотрудник, кандидат физико-математических наук1. А.Ю. Гуфан1. Доцент, кандидат технических наук1. О.Ю. Берг