Разработка адаптивного метода робастного понимания слитной речи на основе интегральной обработки данных
Диссертация
На сегодняшний день подходы к распознаванию слитной речи основаны на методах генерации гипотез фраз путем формирования составных эталонов/моделей слов. Однако это в общем случае приводит к неприемлемому усложнению модели распознавания. Поэтому здесь стали использовать синтаксические или стохастические ограничения в ходе генерации гипотетических фраз, чтобы существенно уменьшить число… Читать ещё >
Список литературы
- Беллман Р. Динамическое программирование. — М.: ИЛ, 1960. — 400 с.
- Винцюк Т. К. Распознавание слов устной речи методами динамического программирования. М.: Кибернетика, 1968. — № 1. — С. 15−22.
- Винцюк Т. К. Куляс А.И. Универсальная программа анализа речи в реальном масштабе времени //10 Всесоюзный семинар «Автоматическое распознавание слуховых образов»: Тез. докл. Тбилиси, 1978.
- Винцюк Т.К. Два основных пути создания систем распознавания и смысловой интерпретации слитной речи // 11 Всесоюзный семинар «Автоматическое распознавание слуховых образов»: Тез. докл. Ереван, 1980.-С. 221−225.
- Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. — Киев: Наук, думка, 1987. 264 с.
- Голд Б. Рэйдер Ч. Цифровая обработка сигналов. Пер. с англ. -М.: Советское радио, 1973. 368 с.
- Джелинек Ф. Распознавание непрерывной речи статистическими методами // ТИИЭР. 1976. — Т. 64. — № 4. — С. 131−160.
- Дрейфус X. Чего не могут вычислительные машины. Пер. с англ. -М.: Прогресс, 1978. 336 с.
- Ершов А.П. К методологии построения диалоговых систем: феномен деловой прозы // Вопросы кибернетики: Общение с ЭВМ на естественном языке. -М.: Наука, 1982. Вып. 80. — С. 3−20.
- Като Я. Система распознавания связной речи фирмы NEC // Зарубежная радиоэлектроника. 1980, № 4. С. 108−120.
- Кельманов А.В. О некоторых проблемах построения систем распознавания инвариантных к диктору // 15 Всесоюзный семинар «Автоматическое распознавание слуховых образов»: Тез. докл. Таллинн, 1989.-С. 103−104.
- Классификация и кластер / Под ред. Райзина Дж.В. М.: Мир, 1980 -389 с.
- Косарев Ю.А. Естественная форма диалога с ЭВМ. -JL: Машиностроение, 1989. 143 с.
- Косарев Ю.А., Ли И.В., Ронжин A. JL, Savage J. Методы понимания речи и текста. Труды СПИИРАН/Под ред. P.M. Юсупова вып. 1, Т. 2 -СПб.: «Анатолия», 2002. С. 157−195.
- Левинсон С.Е. Структурные методы автоматического распознавания речи. // ТИЭР. 1985. — Т. 73.-№ 11.- С. 100−129.
- Линдсей П., Норман Д. Переработка информации у человека: Пер. с англ. -М.: Мир, 1974.-550 с.
- Макхоул Дж., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИЭР. 1985. — Т. 73. -№ 11. — С. 19−61.
- Маркел Д.Д., Грей А. Х. Линейное предсказание речи: Пер. с англ. -М.: Связь, 1980.-308 с.
- Методы автоматического распознавания речи: в 2-х кн. / Под ред. У. Ли. -М.: Мир, 1983.-716 с.
- Мясников Л.Л. Объективное распознавание звуков речи // ЖТФ. 1943. -№ 3. — С. 109−115.
- Передача речи по трактам радиотелефонной связи. Требования к разборчивости речи и методы артикуляционных измерений: ГОСТ 1 660 072. М.: Изд-во стандартов, 1973. — 90 с.
- Пиотровский Р.Г. Текст, машина, человек. Л.: Наука, 1975. — 327 с.
- Покровский Н.Б. Расчет и измерение разборчивости речи. М.: Связь, 1962.-391 с.
- Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов. — М.: Мир, 1978.
- Рабинер Л., Шафер Р. Цифровая обработка речевых сигналов. М.: Радио и связь, 1987.
- Рабинер Л. СММ и их применение в избранных приложениях при распознавании речи: Обзор // ТИИЭР. 1989. — Т. 77. — № 2. — С. 86−120.
- Распознавание слуховых образов. / Под ред. Загоруйко Н. Г. -Новосибирск: «Наука», 1970. 340 с.
- Ронжин А., Косарев Ю., Ли И., Карпов А. Метод распознавания слитной речи на основе анализа сигнала в скользящем окне и теории размытых множеств. // Научно-теоретический журнал «Искусственный интеллект» -Украина, Донецк, 2002. № 4. С. 256−263.
- Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963.-452 с.
- Селфридж М. Интегральная обработка обеспечивает надежное понимание. // Новое в зарубежной лингвистике. Вып. 24: Пер. с англ. -М.: Прогресс, 1989.-С. 161−208.
- Скороходько Э. Ф. Семантические сети и автоматическая обработка текста. Киев, 1983. — 112 с.
- Сорокин В.Н. Теория речеобразования. М.: Радио и связь, 1985.
- Трунин-Донской В. Н. Опознавание набора слов с помощью цифровой вычислительной машины. // Работы по технической кибернетике. -М.: ВЦ АН СССР, 1967. С. 37−51.
- Ту Дж., Гонсалес Р. Принципы распознавания образов: Пер. с англ. -М.: Мир, 1978.-416 с.
- Уоссерман Ф. Нейрокомпьютерная техника. Теория и практика: Пер. с англ. -М.: Мир, 1992.
- Ушакова Т.Н. Проблема внутренней речи в психологии и психофизиологии // Психологические и психофизиологические исследования речи. М.: Наука, 1985. — С. 13−26.
- Фант. Г. Акустическая теория речеобразования. Пер. с англ. М.: Наука, 1964.-284 с.
- Шалютин С.М. Искусственный интеллект: гносеологический аспект. -М.: Мысль, 1985.- 199 с.
- Шенк Р., Бирнбаум JL, Мей Дж. К интеграции семантики и прагматики. // Новое в зарубежной лингвистике. Вып. 24: Пер. с англ. М.: Прогресс, 1989.-С. 32−47.
- Akinori I., Chiori H., Masaharu K., Masaki K. Language Modeling by Stochastic Dependency Grammar for Japanese Speech Recognition.- In Proceedings of ICSLP'2000, Beijing, China, 2000. pp. 441−444.
- Allen J., Miller В., Ringger E., Sikorski T. Robust Understanding in a Dialogue System. Proc. ACL, 1996.
- Ball G., Hall D. ISODATA, A Novel Method of Data Analysis and Patten Classification. (AD 699 616) California, Stanford Research Institute, 1965.
- Bellegarda J., Silverman K. Toward Unconstrained Command and Control: Data-Driven Semantic Interface. In Proceedings of ICSLP'2000, Beijing, China, 2000. — pp. 576−579.
- Bladon R.A. Problem of normalizing the spectral effects of variations in the fundamental. In Proceedings of the Institute of Acoustics Autumn Conference, 1982.
- Bocchieri E. and Doddington G. Frame Specific Statistical Features for Speaker-Independent Speech Recognition. In Proc. ICASSP, 1986.
- Bonneau-Maynard H., DevillersL. A Framework for Evaluating Contextual Understanding. In Proceedings of ICSLP'2000, Beijing, China, 2000. -pp. 1734−1737.
- Carpenter В., LernerS., PieraccinR. Optimizing BNF Grammars through Source Transformations. In Proceedings of ICSLP'2000, Beijing, China, 2000.-pp. 1218−1221.
- Chien J. On-line Hierarchical Transformation of Hidden Markov Models for Speaker Adaptation. Proc. 1998 ICSLP.
- Chomsky N. On certain formal properties of grammars. Inform. Control 2, 1959.
- Cohen M., Franco H., Morgan N., Rumbelhart D., Abrash V. Hybrid neural network/Hidden Markov Model continuous speech recognition. Proc. ICSLP, 1992.
- DanejkoM. Maschkina L., Nechaj O., SorkinaW., SaharandaA. Statiatische Untersuchung der lexikalischen Distribution der Wortformen. In Sprachstatistik. Mit zahlreichen Skizzen, Tabellen und Schemata im Text.
- Uebersetzt von einem Kollektiv unter Leitung von Lothar Hoffman. Wilhelm Fink, Muenchen/Salzburg, 1973.
- Davis S., Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. — In Proceedings of ASSP'28, 1980.
- Deese J. On the structure of associative meaning. In Psychological review, 1962.-Vol. 69, No. 2.-pp. 161−175.
- Fillmore Ch. The Case for case. In Bach, Harms. Universals in Linguistic Theory. New York, 1968.
- Furui S. and Matsui T. Model-based unsupervised instantaneous speaker adaptation. Proc. Acoustical Society of America 132nd meeting Hawaii, December 1996.
- Gorski N. Practical Combination of Multiple Classifiers, Proc. of Int. Workshop on Frontiers in Handwriting Recognition 5, Univ. of Essex, England, 1996.-pp. 277−284.
- Handbook of Human-Computer Interaction, (ed. by J. Jacko & A. Sears), Lawrence Erlbaum: New Jersey, 2002.
- Hermansky H., Morgan N. RASTA Processing of Speech. IEEE Transactions on Speech and Audio Processing, Vol. 2, No. 4, October 1994. pp. 578−589.
- Homma S., Takahashi J. and Sagayama S. Iterative Unsupervised Speaker Adaptation for Batch Dictation. Proc. 1996ICSLP.
- Homma S., Aikawa K., Sagayama S. Improved Estimation of Supervision in Unsupervised Speaker Adaptation Proc. 1997 ICASP.
- Howes D. On the relation between the probability of a word as an association and in general verbal usage. In Journal of Abnormal and Social Psychology, 1957.-Vol. 54, No. 1.
- Huang Y., Zheng F., Xu M., Yan P., Wu W. Language Understanding Component for Chinese Dialogue System. In Proceedings of ICSLP'2000, Beijing, China, 2000. — pp. 858−862.
- Ishii J. Speaker Normalization and Adaptation Based on Linear Transformation. ICASSP'97, Vol. 2, 1997-pp. 1055−1058.
- JelinekF. A fast sequential decoding algorithm using stack. IBM J. Res. Develop., 1969. — No. 13. — pp. 675−685.
- JelinekF. The Development of an Experimental of Discrete Dictation Recognizer. In Proceedings of IEEE, No. 11, Vol. 73, 1985.
- Jelinek F. Statistical methods for speech recognition. Massachusetts Institute of Technology, 1999.
- Joao P., Neto Ciro, Martins Luris B. Almeida. An Incremental Speaker-Adaptation Technique for Hybrid HMM-MLP Recognizer. Proc. 1996ICSLP.
- Johnson S. C. Hierarchical clustering schemes. Psychometrika. 1967. — 32.
- Johnson S. and WoodLand P. Speaker Clustering Using Direct Maximisation of the MLLR-Adapted Likelihood, Proc. 1996 ICSLP.
- King B. F. Step-wise clustering procedures. Journal of the American Statistical Association, 1967. — 62.
- Kosaka T. and Sagayama S. Tree-Structured Speaker Clustering for Fast Speaker Adaptation. Proc. 1994ICASSP.
- Kosarev Yu. A., Jarov P. A. Associations help to recognize words. In Proceedings ofDAGA-95, Saarbruecken, 1995. — pp. 979−982.
- Kosarev Yu. Spoken language translation model based on the speech understanding in activity context. Proc. International Workshop SPECOM'1996, St. Petersburg, 1996. pp. 57−58.
- Kosarev Yu., Piotrowski R. Synergetics and 'Insight' Strategy for Speech Processing. Literary and Linguistic Computing Oxford University Press, Vol. 12, № 2, 1997.
- Kosarev Yu., Savage J. Realization of some reserves of language and extralinguistic knowledge for the speech dialogue systems improvement. Moscow: Proc. Intern. Workshop «Speech and Computer», SPECOM'1999. -pp. 20−31.
- Kosarev Yu. Some aspects of Robust Speech Understanding. Invited lecture for the International Workshop SPECOM'2002, St. Petersburg, 2002. pp. 3−8.
- Kosarev Yu. A., Ronzhin A., Lee I., Karpov A., Savage J., Haritatos F. Robust Speech Understanding for Voice Control System. International Workshop SPECOM'2002, St. Petersburg, 2002. pp. 13−18.
- Klatt D.H. Prediction of perceived phonetic distance from critical-band spectra: A first step. In Proceedings of the Int. Conf. Acoust. Speech Signal Processing, 1982.
- Kravez L. G. Quantitative Merkmale englischer Nominalverbindungen. In Sprachstatistik. Mit zahlreichen Skizzen, Tabellen und Schemata im Text. Uebersetzt von einem Kollektiv unter Leitung von Lothar Hoffman. Wilhelm Fink, Muenchen/Salzburg, 1973.
- Lowerre В., Reddy D. The Harpy speech understanding system. Pittsburgh: Carnegie — Mellon University, 1976.
- Lucke H. Interface of stochastic context-free grammar rules from example data using the theory of Bayesian belief. In: The Proc. of Eurospeech'93, 1993. -pp. 1195−1198.
- Lyons J. Introduction to theoretical linguistics. Cambridge: At the University Press, 1972.
- MacQueenJ. B. Some methods for classification and analysis of multivariate observations. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability. — 1967.
- Matsui Т., Furui S. N-best Based Instantaneous Speaker Adaptation Method for Speech Recognition. Proc. 1996 ICSLP.
- Matsuoka T. and Shikano K. Robust HMM Phoneme Modeling for Different Speaking Styles. In Proc. IEEE ICASSP, 1991.
- Miyazawa Y., Takami J., Sagayama S. and Matsunaga S. All-phoneme Ergodic Hidden Markov Network for Unsupervised Speaker Adaptation. Proc. 1994 ICASSP.
- Myers C. S., Rabiner L. R. A Level Building Dynamic Time Warping Algorithm for Connected Word Recognition. IEEE Trans. ASSP-29, 1981. -No. 2, pp. 284−297.
- Myrvoll Т., Siohan О., Lee С., Chou W. Structural Maximum a Posteriori Linear Regression for Unsupervised Speaker Adaptation. In Proceedings of ICSLP'2000, Beijing, China, 2000. — pp. 78−81.
- Ono Y., Wakita H., Zhao Y. Speaker Normalization Using Constrained Spectra Shifts in Auditory Filter Domain. Eurospeech'93, Vol.1, 1993. pp. 355−358.
- OaksfordM., ChaterN. Against logistics cognitive science.- In Mind &Language, 1991. Vol. 6, No. 1, pp. 2−37.
- Paul D. The Lincoln Robust Continuous Speech Recognizer. In Proc. IEEE ICASSP, 1989.
- Picone J. Continuous Speech Recognition Using Hidden Markov Models. IEEE ASSP Magazine, Vol. 7, No. 3, July 1990.
- Picone J. Signal Modeling Techniques In Speech Recognition. IEEE Proceedings, Vol. 81, No. 9, 1993.
- Potamianos A., Kuo H. Statistical Recursive Finite State Machine Parsing for Speech Understanding. In Proceedings of ICSLP'2000, Beijing, China, 2000. -pp. 1237−1240.
- Rabiner L.R., Wilpon J.G. and Juang B.H., «A Model-Based Connected Digit Recognition System Using Either Hidden Markov Models or Templates», Computer Speech and Language, 1 (2): 167−197, December 1986.
- Rabiner L., Juang B. Fundamentals of Speech Recognition. New Jersey: Prentice-Hall, Englewood Cliffs, USA, 1993.
- Ronjin A., Lee I., Kosarev Yu. Quasi-allophone method of acoustic + voice adaptation. Proc. SPECOM 2000. pp. 91−93.
- Ronzhin A., Lee I., Kosarev Yu., Karpov A. Continuous Speech Recognition Method Suitable for Robust Speech Understanding. International Workshop SPECOM'2002. St. Petersburg, 2002, pp. 47−52.
- Sakoe H., Chiba S. Recognition of Continuously Spoken Words based on Time-Normalization by Dynamic Programming. J. Acoust. Soc. Japan, 1971 -7, 9.
- Seward A. A Tree-Trellis N-best Decoder for Stochastic Context-Free Grammars. In Proceedings of ICSLP'2000, Beijing, China, 2000. — pp. 10 321 035.
- Strom N. Continuous Speech Recognition in the WAXHOLM Dialogue System. STL QPSR, 1996. — pp. 67−95.
- Suzuki M., Abe Т., More H., Makino S. and Aso H. High-Speed Speaker Adaptation Using Phoneme Dependent Tree-Structured Speaker Clustering. Proc. 1998 ICSLP.
- Takahashi J. and Sagayama S. Vector-Field-Smoothed Bayesian Learning for Incremental Speaker Adaptation. Proc. ICASSP' 1995.
- TuerkC., Robinson T. A new Frequency Shift Function for Reducing Inter-Speaker Variance. Eurospeech'93, Vol.1, 1993. pp. 351−354.
- Varile G., Zampolli A. Survey of the State of the Art in Human Language Technology. Cambridge University Press, 1997.
- Wang J., WangH., LeeK., Huang С. Domain-unconstrained language understanding Based on CKIP-Auto Tag, How-net, and ART. In Proceedings of ICSLP'2000, Beijing, China, 2000. — pp. 807−810.
- Wang Yu and Zhu Xiaoyan. A New Approach for Incremental Speaker Adaptation, Proc. 2000 ICSLP.
- Wozencraft J., Reiffen. B. Sequential decoding. Technology Press and Wiley, New York, 1961.
- ZadehL. «А fuzzy-algorithmic approach to the definition of complex or imprecise concepts». In International Journal of Man-Machine Studies. Vol. 8, No. 3, 1976.
- Zhao Y. Self-Learning Speaker Adaptation Based on Spectral Variation Source Decomposition Eurospeech'93, Vol. l, 1993. pp. 359−362.
- Р/с № 40 702 810 300 000 002 048 в ЗАО КАБ «Викинг», к/с Ne 30 101 810 200 000 000 000 БИК44 030 869 ОКНО 54 208 961 OKQHX82000, 90 310, 80 300,71200, 72 200
- УТВЕРЖДАЮ Директор центра перфективных разработоккомпании Эктако А. В. Епифанов
- Х^у ' «12 „ноября 2002 г.1. АКТоб использовании результатов кандидатской диссертационной работыаспиранта Ронжина АЛ. „Разработка адаптивного метода устойчивогопонимания слитной речи на основе интегральной обработки данных“
- Комиссия в составе: председателя В. В Барышникова, члены комиссии: А. В. Епифанова, МЛ. Кореневский, рассмотрев представленные материалы по теме диссертационной работы Ронжина А. Л, установила, что:
- Основные положения диссертационной работы были использованы в исследовательском отделе речевых технологий при проведении плановых научно-исследовательских работ.
- Изложенные в работе методы адаптации к голосу диктора на основе замещения участков речи использованы при создании экспериментальной модели.
- Использование предложенных алгоритмов распознавания речи, позволило реализовать в мобильных устройствах с ограниченными вычислительными способностями функции распознавания речи.
- Председатель комиссии, руководитель группы речевых исследований1. Члены комиссии
- Руководитель отдела лингвистики Руководитель отдела акустики, к. ф-м.н.1. А: В.'Епифанова1. М.Л. Корбневский
- Departamento de СЧодшйипбп, Facultad de tagemeria UH AM
- Mexico City, Jatmaiy 19ft 2003,1. STATEMENT
- After using A.L. Ronйш’s thesis-
- Elaboration of the adaptive method of robust continuous speechmderstandmg based on integral data processing“
- The ОМАМ: commillee, formed by Dr. Jesus Savage, Eng. Gabriel Vazquez and Eng. Emmaiiiiel Hernandez considered the presented materials and decided, that
- The created hardware/software systems are used during research experiments and learning courses in our University.
- The proposed algorithms and software alow to increase efficiency and speed of the robot operation1. Committee chairman, 1. Dr. Jesus Savage1. Committee members:1. Gabriel Vazquez
- Российская Академия Наук Санкт-Петербургский институт информатики и автоматизации199 178, Санкт-Петербург, 14 линия, 39 Телефон: (812)328−33−11
- Факс: (8!2>328−44−50 E-mail: spiiran@iias.spb.su
- Комиссия в составе: председателя В. И. Городецкого, членов комиссии: И. П. Поднозовой, Д. В. Бакурадзе, рассмотрев представленные материалы:
- Диссертационную работу Ронжина A. JI-
- Отчеты по международному проекту МНТЦ 1993Р, установила, что:
- Основные положения диссертационной работы Ронжина АЛ. были использованы при проведении плановых научно-исследовательских работ в ходе международного проекта МНТЦ 1993Р часть 4 по теме „Voice operated flying object“.
- Изложенный в работе алгоритм робастного распознавания слитной речи был использован при создании экспериментальной модели голосового управления летательным объектом, которая была продемонстрирована на семинаре в Бингемтоне в начале 2002 г.
- Созданный комплекс программ используется при проведении экспериментальных исследований по пониманию слитной речи в группе речевой информатики СПИИРАН.
- Использование разработанных алгоритмов позволило повысить устойчивость модели понимания слитной речи и ускорить процесс корректировки баз данных при адаптации системы к конкретной прикладной области более, чем в 3 раза. .
- Председатель комиссии, (%!fl-i)', fif1 л
- Менеджер проекта д.т.н.-проф.ЩШЩч ВГородецкий1. Члены комиссии ~~
- Помощник по международным связям-„//^И.П. Поднозова Ученый секретарь к.т.н. с.н.с .“»" Q>(/о Д.В. Бакурадзе