Разработка эффективных методов и комплексов программ распознавания речи в системах человеко-машинного взаимодействия
Диссертация
Исследование проблем автоматического понимания/распознавания речи является важным фундаментальным направлением. Для снижения вероятности неправильного распознавания часто создаются специализированные системы с тщательно подобранным закрытым словарем команд, который включает точную настройку грамматических конструкций и подбор специальных слов в составе команд. С другой стороны, подобные системы… Читать ещё >
Список литературы
- Роижин A. Л., Ли И. В. Автоматическое Распознавание Русской Речи. Вестник Российской академии наук, 2007, том 77, № 2, с. 133−138.
- Stuart N. Wrigley. Speech Recognition by Dynamic Time Warping. // http://www.dcs.shef.ac.uk/~stu/com326/index.html
- Кисля ков, С. В. Разработка и исследование метода распознавания фонем русского языка на основе аппарата линейного предсказания: Дис.. канд. техн. наук: 05.12.13 СПб, 2004.
- Чистович Л.А., Венцов А. В., Гранстрем М. П. Физиология речи. Восприятие речи человеком. JI., «Наука», 1976, 388 с.
- Rose R. Robust speech recognition techniques applied to a speech in noise task. European Conference on Speech Communication and Technology, Aarlborg, Denmark, 3−7 Sept. 2001.
- Ahadi S. An Efficient front-end for automatic speech recognition. IEEE Trans, on Speech and Audio Processing, 2003.
- Блеихут P. Быстрые алгоритмы цифровой обработки сигналов: Пер. с англ.-М.: Мир, 2002.
- Гольденберг Л.М. и др. Цифровая обработка сигналов: Справочник,-М.: Радио и связь, 2007.
- Рабинер Д., Гоулд Б. Теория и применение цифровой обработки сигналов.-М.: Мир, 2005.
- Курочкин С.Н., Бродин А. Г. Проблемы создания многоуровневой системы распознавания речи // Автоматизация и управление в машиностроении. -1997. -№ 1.
- S. Davis and P. Mermelstein. Comparison of parametric representation for monosyllable word recognition in continuously spoken sentences. IEEE Transactionson Acoustics, Speech, and Signal Processing, 28:357−366, Aug 1980.
- European Telecommunications Standards Institute. ES 201 108 Distributed Speech Recognition Encoding. Proceedings of ETSI, 2003.
- Parihar N. Performance analysis of advances front ends on the Aurora LV evaluation. M.S. Dissertation, Mississippi State University. 2003.
- Кос A. Acoustic feature analysis for robust speech recognition. M.S. Thesis, Bilkent University, 2002.
- Бондарко JI. В. Фонетика и лингвистика (к 65-летию кафедры фонетики) // Язык и речевая деятельность 98, т. 1, СПб, 1998. с. 260.
- J. J. Verbeek. Efficient Greedy Learning of Gaussian Mixture Models, Neural Computation, 5(2), pp. 469−485, Feb 2003.
- Гребное, С. В. Аналитический обзор методов распознавания речи в системах голосового управления // Вестник ИГЭУ. Б.м.— 2009. — Вып. 3. — С. 83−85. — (Информационные системы и технологии). — Библиогр.: с. 85 (12 назв.).
- ООО «Спецлаборатория», http://www. goal.ru.
- Russian SAMP А, http://www.phon. ucl. ac.uk/home/samva/russian. htm.
- SPEECHDAT Project, hftp://www.speechdat.ors/SpeechDat.html
- Ошибки первого и второго рода, http://en.wikipedia.ors/wiki/Typel and type II errors
- Brown C.D., and Davis, H.T. Receiver operating characteristic curves and related decision measures: a tutorial, Chemometrics and Intelligent Laboratory Systems, pp. 24−38, 2006.
- Гребное, С. В. Методы шумоочистки в задачах распознавания речи. /110
- С. В. Гребнов // Тезисы докладов Международной научно-технической конференции «Состояние и перспективы развития электротехнологии» (XV Бенардосовские чтения), 27−29 мая / Федеральное агенство по образованию, ИГЭУ. Иваново.- 2009. — Т.1 — С. 60−61.
- Martin, R. Statistical methods for the enhancement of noisy speech. International Workshop on Acoustic Echo and Noise Control, 2003.
- Rangachari, S. Noise estimation algorithms for highly non-stationary environments. Theses in Speech Processing Lab at UT-Dallas, 2004.
- Acero, A. Acoustical and environmental robustness in automatic speech recognition. Ph.D. Thesis, Carnegie. Mellon University, 1990.
- Stern, R. New directions in robust speech recognition. International Conference on Spoken Language Processing, 2006.
- Cohen, I. Noise spectrum estimation in adverse environments: Improved MCR. Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP, 2003.
- Ephraim, Y. Speech enhancement using MMSE LSA estimator. Proceedings of the IEEE, 1985.
- Cohen, I. On speech enhancement under signal presence uncertainty. Proceedings of the 26th IEEE International Conference on Acoustics, Speech, and Signal Processing, 2001.
- Стефанов A.M., Стефанова И. А. Эффективное использование интегрирующей способности слуха при цифровой обработке сигналов. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.
- Cariani P. Temporal codes, timing nets, and music perception // Journal of New Music Research, 2001. Vol. 30. — pp. 107−135.
- Вокодерная телефония. Методы и проблемы / Под ред. А. А. Пирогова.111-М.: «Связь», 1974.-536 с.
- Picone J. Signal Modeling Techniques In Speech Recognition. Proc. of the IEEE. 1993.
- Rabiner L.R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. In Рос. of the IEEE, vol. 77, no 2, pp. 257 286.
- Методы автоматического распознавания речи / под ред. У. Ли. т.1, т. 2.-М.: Наука, 1983.
- Гребнов, С. В. Двухуровневый метод распознавания голосовой команды // Вестник ИГЭУ. Б.м.- 2009. — Вып. 3. — С. 90−93. -(Информационные системы и технологии). — Библиогр.: с. 93 (14 назв.).
- Voice Activity Detection, http://www.acm.org/crossroads/xrdsl3−4/voicedetection.html
- Nemer E. S. Robust voice activity detection using higher-order statistics in the LPC residual domain, IEEE Transactions on Speech and Audio Processing, 9, 3 (2001), pg. 217−231.
- Parsons, T. W., Voice and Speech Processing, McGraw-Hill Inc., 1987.
- Уоссермен Ф. Нейрокомпьютерная техника. 1992.-230 с.
- Рассел С., Норвиг П. Искусственный интеллект: современный подход. -М.: Изд. Дом «Вильяме», 2006. 1408 с.
- Рабинер Л.Р., Шафер Р. В. Цифровая обработка речевых сигналов. М.: Радио и связь, 1981. — 496с.
- Маркел Дэ/с.Д., Грэй А. Х. Линейное предсказание речи. М.: Связь, 1980. -308с.
- Bahl L.R. and Jelinek F. Decoding for channels with insertions, deletions, and substitutions with applications to speech recognition // IEEE Trans. Informat. Theory. 1975. Vol. IT-21, pp. 404−411.
- Baker J.K. The DRAGON system An overview // IEEETrans. on Acoust. Speech Signal Process. 1975. Vol. ASSP-23. No. 1. pp. 24−29
- Baum L.E., Peine T. Statistical inference for probabilistic functions of finite state Markov chains//Ann. Math. Stat. 1966. Vol.37, pp. 1554−1563.
- Baum L.E., Egon J.A. An inequality with applications to statistical estimation for probabilistic functions of a Markov process and to a model for ecology // Bull. Amer. Meteorol. Soc. 1967. Vol. 73. pp. 360−363.
- Baum L.E., Petrie T., Soldes G., and Weiss N. A maximization technique occuring in the statistical analysis of probabilistic functions of Markov chains // Ann. Math. Stat. 1970. Vol 41. No. 1. pp. 164−171.
- Елинек Ф. Распознавание непрерывной речи статистическими методами//ТИИЭР. 1976. Т. 64. № 4. С. 131−160.
- Jelinek F. A fast sequential decoding algorithm using a stack // IBM J. Res. Develop., 1969. Vol. 13. pp. 675−685.
- Jelinek F., Bahl L.R., and Mercer R.L. Design of a linguistic statistical decoder for the recognition of continuous speech //IEEE Trans. Informat. Theory, 1975. Vol. IT-21. pp. 250−256.
- Левинсон С. E. Структурные методы автоматического распознавания речи//ТИИЭР. 1985. О. 73. Т 11. N. 100−128.
- Levins on S. E., Rabiner L.R., and Sondhi M.M. An introduction to the application of the theory of probabilistic function of a Markov process to automatic speech recognition // Bell Syst. Tech. Journal, Apr. 1983. Vol. 62, no.4, pp. 1035−1074.
- Dempster A.P., Laird N.M., and Rubin D.B. Maximum likelihood fromincomplete data via the EM algorithm // J. Roy. Stat. Soc. 1977. Vol. 39, No. 1. pp. 1114
- Paul D.B., Baker J.К., Baker J.M. On the interaction between true source, training and testing language models // IEEE ICASSP 1991. pp. 569−572.
- Bourlard H., Morgan N. Connectionist Speech Recognition. A Hybrid Approach I I The Kluwer International Series in Engineering and Computer Science, Vol. 247, Kluwer Academic Publishers, Boston, 1994.
- Голосовое управление, http://ru.wikipedia¦org/wiki/Гoлocoвoevпpaвлeниe
- Расширенная форма Бэкуса — Наура, http://ru.wikipedia.org/wiki/Pacшиpeннaя форма Бэкус Наура
- Xhenyu X. Comparison and combination of confidence measures in IWR. ISCSLP, 2002.
- Hazen, T. Recognition confidence scoring and its use in speech understanding systems. Computer Speech and Language, 2002.
- Mengusoglu E. Use of acoustic prior information for confidence measure in ASR. European Conference on Speech Communication Technology. 2005.
- Bridle J. An efficient elastic template method for detecting given words in running speech. British Acoustical Society Meeting, Apr. 1973.
- Higgins A. Keyword recognition using template concatenation. Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP, 1985.
- В. Я. Чучупал. Выделение незнакомых слов и акустических событий при распознавании речи // Модели, методы, алгоритмы и архитектуры системраспознавания речи, 2006, стр. 119−137.115
- Афанасьев ИМ. Вейвлет-анализ: основы теории и параметры применения // Успехи физтческих наук, т. 166, № 11, 1996, — С. 1145−1170.
- Дьяконов В. П. Вейвлеты. От теории к практике. М.: СОЛОН-Р, -2002.-448 с.
- Моттлъ В.В., Мучник И. Б. Скрытые марковские модели в структурном анализе сигналов. М.: Физматлит, 1999, 352 с.
- McCu/loch W. S., Pitts W. Н. A logical calculus of ideas immanent in nervous activity//Bull. Math. Biophysics, 1943. Vol. 5. pp. 115−119.
- Lippmann R.P. Review of neural networks for speech recognition 11 Neural computing, 1989. l.pp. 1−38.
- Rosenblatt F. Principles of Neurodynamics // Spartan Books, New York, 1959.
- Rahim M. R. Artificial Neural Networks for Speech Analysis/Synthesis // Chapman&Hall, 1994.
- MinskyM., PapertS. Perceptrons // Cambridge: MIT Press. 1969.
- Цыптн Я. 3. Обучение и адаптация в автоматических системах // М.: Наука, 1968. 400с.
- Waibel A., Hanazawa Т. Phoneme Recognition Using Time-Delay Neural Networks // IEEE Transaction on Acoustic Speech Signal Processing Vol. 37, 1989, pp. 328−339.
- Almeida L.B. A Learning Rule for Asynchronous Perceptrons with Feedbackin a Combinatorial Environment // In: 1st International Conference on Neural Networks.1161.EE. 1987.11−609.
- Бендат Дж., Пирсол А. Прикладной анализ случайных данных. М.: Мир,-1989. -540 с.
- Введение в цифровую фильтрацию / Под. ред. Р. Богнера, А. Константинидиса. -М.: Мир, 1976.-216 с.
- Дженкинс Г., Ватте Д. Спектральный анализ и его приложения, т.1, т. 2 — М.: Мир, 1983
- ДюранБ., Одел П. Кластерный анализ. -М.: Статистика, 1977, 128 с.
- Кастелъянс Г., Кочетков Ю. А., Суарез X. Цифровая обработка речевых сигналов для их классификации. // докл. 3-ей междунар. конф. «Цифровая обработка сигналов и ее применения» (DSPA-2000), Москва, 2000.
- Патрик Э. Основы теории распознавания образов. М.: Сов. радио, 1980.— 480 с.
- Пересада В. Автоматическое распознавание образов. Л.: Энергия, 1970. — 92 с.
- Fu-Hua Liu. Environmental Adaptation for Robust Speech Recognition. The Ph. D. thesis. Carnegie Mellon University. USA. 1994.
- Richard C. Rose, Douglas B. Paul. A hidden markov model based keyword recognition system. IEEE. ICASSP 90, vol. 1, pp. 129−132, Apr. 1990.
- Goodwin M.M. Adaptive Signal Models: Theory, Algorithms, and Audio Applications. The Ph. D. thesis. University of California. USA. 1997.
- Morena P. Speech Recognition in Noisy Environments. The Ph. D. diesis. Carnegie Mellon University. USA. 1996.
- Сергиенко А.Б. Цифровая обработка сигналов. СПб.: Питер, 2003. -608 с.
- Brown D, Golod D. Decoding HMMs using the k best paths: algorithms andapplications. Cheriton School of Computer Science, University of Waterloo, 2 010 117
- Churbanov A, Winters-Hilt S. Implementing EM and Viterbi algorithms for Hidden Markov Model in linear memory. The Research Institute for Children, 2008.
- Steve Young. The application of hidden Markov models in speech recognition. Foundations and Trends in Signal Processing archive Volume 1, Issue 3 (Januaiy 2008). Pages: 195−304.
- J. A. Bilmes, «Graphical models and automatic speech recognition» in Mathematical Foundations of Speech and Language: Processing Institute of Mathematical Analysis Volumes in Mathematics Series, Springer-Verlag, 2003.
- S. S. Chen and R. Gopinath, «Gaussianization,» in NIPS 2000, Denver, CO, 2000.
- S. S. Chen and R. A. Gopinath, «Model selection in acoustic modelling,» in Proceedings of Eurospeech, pp. 1087−1090, Rhodes, Greece, 1997.
- L. Deng, A. Acero, M. Plumpe, andX. D. Huang, «Large-vocabulary speech recognition under adverse acoustic environments,» in Proceedings of ICSLP, pp. 806 809, Beijing, China, 2000.
- V. Diakoloukas and V. Digalakis, «Maximum likelihood stochastic transformation adaptation of hidden Markov models,» IEEE Transactions on Speech and Audio Processing, vol. 7, no. 2, pp. 177−187, 1999.
- G. Evermann and P. C. Woodland, «Posterior probability decoding, confidence estimation and system combination,» in Proceedings of Speech Transcription Workshop, Baltimore, 2000.
- W. Macherey, L. Haferkamp, R. Schluter, and H. Ney, «Investigations on error minimizing training criteria for discriminative training in automatic speech recognition,» in Proceedings of Interspeech, Lisbon, Portugal, September 2005.
- M. J. P. Gales, «Cluster adaptive training of hidden Markov models,» IEEE Transactions on Speech and Audio Processing, vol. 8, pp. 417−428, 2000.
- R. Gopinath, «Maximum likelihood modeling with Gaussian distributions118for classification,» in Proceedings oflCASSP, pp. 11−661−11−664, Seattle, 1998.
- D. Povey, Discriminative Training for Large Vocabulary Speech Recognition. PhD thesis, Cambridge University, 2004.
- G. Saon, A. Dharanipragada, and D. Povey, «Feature space Gaussianization,» in Proceedings of ICASSP, Montreal, Canada, 2004.
- M. J. F. Gales, «Discriminative models for speech recognition,» in ITA Workshop, University San Diego, USA, February 2007.
- Timothy J. Hazen, Stephanie Seneff and Joseph Polifroni. Recognition confidence scoring and its use in speech understanding systems, Computer Speech and Language, 2002, 16, 49−67.
- Sui. M, Gish, H. Evaluation of word confidence for speech recognition systems. Computer Speech and Language, 1999, 13,299−319.
- Bazzi, I, Glass, J. Modeling out of vocabulary words for robust speech recognition. Proc. ICASSP 2000, Beijing, China, Vol. 1, pp.401−404.
- Microsoft Decentralized Software Services, http://www.microsoft.com/robotics/
- И. Б. Тампелъ, M. Ю. Татарникова. Использование технологий распознавания звуковых образов в мультимедийных приложениях. http://www.evarussia.ru/upload/dok1ad/doklad 198. rtf
- Система автоматического распознавания речи «ГОРЫНЫЧ» http://www.rusdoc.ru/material/manual/gor/gor.html
- Dragon NaturallvSpeaking, http://www.nuance.com/dragon/index.htm
- Windows Speech Recognition, http:/Avww.microsoft.com/enable/products/windowsvista/speech.aspx
- IBM ViaVoice for Windows Standard EditionUser’s Guide ftp://ftp.scansoft.com/files/suppoit/manuals/ViaVoiceUSStnd.pdf
- Home Automated Living (HAL), http://www.automatedliving.com/