Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи
Диссертация
Вопросы, касающиеся проблем дикторонезависимости и помехоустойчивости, остаются актуальными в настоящее время. Современные системы распознавания речи, которые позиционируются как дикторонезависимые, осуществляют распознавание изолированных слов с ограниченным словарём (достигает 500 слов). Точность распознавания в таких системах достигает 95%. Системы распознавания слитной речи, как правило… Читать ещё >
Список литературы
- Плотников В. Н., Суханов В. А., Жигулевцев Ю. Н. Речевой диалог в системах управления. — М.: Машиностроение, 1988. — 224 с.
- Методы автоматического распознавания речи /Пер. с англ. под ред. У. Ли М.: Мир, 1983. -Т.1.-328 е.- - Т.2. — 392 с.
- Осовский С. Нейронные сети для обработки информации /Пер. с польского И. Д. Рудинского М.: ФиС, 2002. — 343 с.
- Лурия А. Р. Основы нейропсихологии М.: Академия, 2003. — 384 с.
- Потапова Р. К. Речевое управление роботом М.: Радио и связь, 1989. -248 с.
- Прибрам К. Языки мозга. М.: Прогресс, 1975. — 248 с.
- Златоустова Л. В., Потапова Р. К., Трунин-Донской В. Н. Общая и прикладная фонетика. М.: МГУ, 1986. — 303 с.
- Сорокин В. Н. Синтез речи. М.: Наука, 1992. — 392 с.
- Чучупал В. Я., Чичагов А. С., Маковкин К. А. Цифровая фильтрация зашумлённых речевых сигналов. М.: ВЦ РАН, 1998. (http://www.ccas.ru/DCM/Chichag/index.htm)
- Золотова Г. А. Синтаксический словарь: репертуар элементарных единиц русского синтаксиса. М.: УРСС, 2001. — 440 с.
- Комарцова Л.Г., Максимов А. В. Нейрокомпьютеры М.: Изд. МГТУ им. Н. Э. Баумана, 2001. — 320 с.
- Винцюк Т.К. Анализ распознавание и интерпретация речевых сигналов Киев: Наукова думка, 1987. — 262 с.
- Мазуренко И. Л. Компьютерные системы распознавания речи //Интеллектуальные системы 1998. — Т. 3, № 1−2. — С. 117−134
- Сентаготаи Я., Арбиб М. Концептуальные модели нервной системы -М.: Мир, 1976. 198 с.
- Шеперд Г. Нейробиология М.: Мир, 1987. — Т.1. — 454 е.- Т.2. — 368 с.
- Хомская Е. Д. Нейропсихология М.: МГУ, 1987. — 288 с.
- Дмитриеико С. Н. Фонемы русского языка, их сочетаемость и функциональная нагрузка М.: Наука, 1985. — 232 с.
- Методы классической и современной теории автоматического управления /Под общей ред. К. А. Пупкова М.: МГТУ им. Н. Э. Баумана, 2000. Т.1. — 747 е.- Т.2 — 735 е.- Т. З — 747 с.
- Киров Е. Ф. Теоретические проблемы моделирования языка Казань: Казанский университет, 1989. — 265 с.
- Красильников В. В. Статистика объектов нечисловой природы -Набережная Челны, 2001. 144 с.
- Голд Б., Рэйдер Ч. Цифровая обработка сигналов М.: Советское радио, 1973.-368 с.
- Рабинер JI. Р., Шафер Р. В. Цифровая обработка речевых сигналов /Пер. с англ.- Под ред. М. В. Назарова, Ю. Н. Прохорова М.: Радио и связь, 1981.-496 с.
- Девятков В. В. Системы искусственного интеллекта М.: МГТУ им. Н. Э. Баумана, 2001.-352 с.
- Гмурман В.Е. Теория вероятностей и математическая статистика М.: Высшая школа, 2001. — 479 с.
- Галушкин А.И. Теория нейронных сетей М.: Радиотехника, 2000. -415 с.
- Сигеру Омату, Марзуки Халид, Рубия Юсоф /Пер. с японского- под. ред. А. И. Галушкина М.: Радиотехника, 2000. — 272 с.
- Кузнецов В., Отт А. Автоматический синтез речи: Алгоритмы преобразования буква-знак и управление длительностью речевых сегментов Таллин: Валгус, 1989. — 121 с.
- Круглов В. В., Дли М. И., Голунов Р. Ю. Нечеткая логика и искусственные нейронные сети М.: Физматлит, 2001. -224 с.
- Новиков JI. В. Основы Вейвлет-анализа сигналов СПб.: Модус, 1999. — 152 с.
- Гаврилов А. В. Системы искусственного интеллекта Новосибирск: изд. НГТУ, 2001.-78 с.
- Гаврилов А. В. Системы искусственного интеллекта: Учебное пособие- В 2 ч. Новосибирск: Изд-во НГТУ, 2002. — Ч. 1. — 78 с.
- Куссуль Э. М. Ассоциативные нейроподобные структуры Киев: Наукова Думка, 1990. — 144 с.
- Волошин В. Я. Распознавание образов: Учеб. пособие для студентов специальности Вычислит, машины, системы, комплексы и сети -Владивосток: ВГУЭС, 2000. 138 с.
- Уоссермен Ф. Нейрокомпьютерная техника /Пер. с англ.- Под ред. А. И. Галушкина М.: Мир, 1992. — 236 с.
- Потапова Р.К. Лингвистические ограничения и сегментация слитной речи: проблемы построения систем понимания речи-М.: Наука, 1980.-С. 18−30
- Сорокин В. Н., Теория речеобразования М.: Радио и связь, 1985. -312 с.
- Фант Г. Акустическая теория речеобразования: Пер. с англ. М.: Наука, 1964. — 284 с.
- Физиология речи. Восприятие речи человеком / А. А. Чистович, А. В. Венцов, М. П. Гранстрем и др. Л.: Наука, 1976. — 388 с.
- Классификация и кластер /Пер. с англ.- Под ред. Ю. И. Журавлева М.: Мир, 1980.-309 с.
- Дж. Макхоул., С. Рунос, Г. Гиш Векторное квантование при кодировании речи//ТИИЭР -1985.-Т.73, № 11 С. 19−61
- Фу К. С. Структурные методы в распознавании образов: Пер. с англ. -М.: Мир, 1977.-319 с.
- Левинсон С. Е. Структурные методы автоматического распознавания речи // ТИИЭР 1985. — Т. 73 — С. 100−129
- Гладкий А. В. Формальные грамматики и языки М.: Наука, 1973. -368 с.
- Нильсон Н. Принципы Искусственного интеллекта М.: Радио и связь, 1985.-376 с.
- Представление знаний в человеко-машинных и робото-технических системах М.: ВЦ АН СССР ВИНИТИ, 1984. — Том, А -Фундаментальные исследования в области представления знаний -262 с.
- Уинстон П. Искусственный интеллект: Пер. с англ. М.: Мир, 1980. -519 с.
- Фролов А.А., Муравьев И. П. Нейронные модели ассоциативной памяти -М.: Наука, 1987.- 161 с.
- Харламов А.А. Нейроподобные элементы с временной суммацией входного сигнала и блоки ассоциативной памяти на основе этих элементов //Вопросы кибернетики. Устройства и системы М.: МИРЭА, 1983. — С. 57−68
- Радченко А.Н. Моделирование основных механизмов мозга Л.: Наука, 1969.-212 с.
- Искусственный интеллект: Справочник. М.: Радио и связь, 1990. -Т.1.-Системы общения и экспертные системы/Под ред. Э.В. Попова- 464 с.
- Т.2. Модели и методы /Под ред. Д. А. Поспелова — 304 с.
- Т.З. Программные и аппаратные средства /Под ред. В. Н. Захарова, 1. В. Ф. Хорошевского 368 с.
- Picone J. W. Signal Modeling Techniques in Speech Recognition //Proceedings of IEEE. 1993. Vol. 81, № 9 — P. 1215−1247
- Косарев Ю.А. Естественная форма диалога с ЭВМ. JL: Машиностроение, 1989.- 143 с.
- Организация взаимодействия человека с техническими средствами АСУ /Ю.Н. Филиппович, Е. В. Родионов, Г. А. Черкасова- Под ред. В. Н. Четверикова. М.: Высшая школа, 1990. — Т.2. — Языковые средства диалога человека с ЭВМ. -159 с.
- Пупков К.А., Коньков В. Г. Интеллектуальные системы М.: Изд. МГТУ им. Н. Э. Баумана, 2003. — 347 с.
- Пупков К.А. Динамические экспертные системы в управлении //Вестник МГТУ. Приборостроение. 1996. — № 8−9 — С. 39−50.
- Hermansky Н. Automatic speech recognition and human auditory perception //Eur. Conf. On speech Technology. Edinburgh, 1987. — Vol.1, -P. 79−82.
- Cohen J.R. Application of an auditory model to speech recognition //J. Acoust. Soc. Am., 1989. № 6, — P. 2623−2629.
- Furui S. Speaker-independent isolated word recognition based on emphasized spectral dynamics // Int. Conf. On Acoustic, Speech and Signal processing. Tokyo, 1986.-P. 1991−1994.
- Abut H., Gray R.M., Rebolledo G. Vector quantization of speech-like waveforms //IEEE Trans. On Acoustic, Speech and Signal Processing. -1982. Vol. 30, — № 3. — P. 423−435.
- Ney H. A data-driven organization of the dynamic programming beam-search for continuous speech recognition //Proc. IEEE Int’l. Conf. On Acoustic, Speech and Signal Processing. Dallas, 1987. — P. 833−836.
- Ney H. Dynamic programming as a technique for pattern recognition //Proc. 6th Int’l Conf. On Pattern recognition. Munich. — 1982. — P. 11 191 125.
- Pearl J. Knowledge vsrsus search: A quantitative analysis using A* //Artificial Intelligence. 1983. — Vol. 20, — P. 1−13.
- Pearl J. Some recent results in heuristics search theory //IEEE Trans. On Pattern Analysis and Machine Intelligence. 1984. — Vol. PAMI-6, — P. 113.
- Gorin A.L., Roe D.B. Parallel level building on a tree machine // Proc. IEEE Int’l. Conf. On Acoustic, Speech and Signal processing. New York, 1988.-P. 295−298.
- Forney G.D. The Viterby algorithm //Proceedings of the IEEE. 1973. -Vol. 61,-P. 268−278.
- Averbuch A. Experimrnts with the Tangora 20.000 word speech recognizer //Proc. Int’l Conf. on Acoustic, Speech and Signal Processing. Dallas, 1987.-P. 701−704.
- Large vocabulary natural language continuous speech recognition / L.R. Bahl, S. V. Gennaro, P. S. Gopalakrishnan, et.al. //Proc. IEEE Int’l. Conf. on Acoustic, Speech and Signal Processing. Glasgow, 1989. — P. 465−467.
- Cerf-Dannon H. Speech recognition in French with a very large dictionary // Proc. Eurospeech, European Conf. on Speech Communication and Technology.-Paris, 1989.-P. 150−153.
- Microsoft Speech SDK 3.0 Documentation (www.microsoft.com).
- Кельманов A.B. О некоторых проблемах построения систем распознавания инвариантных к диктору //Тезисы докл. Всесоюзной Школы-семинара. Таллинн, 1989. — С. 103−104.
- Жирков А.О. Нейросетевой анализ и сопоставление частотно-временных векторов на основе краткосрочного спектрального представления и адаптивного преобразования Эрмита М: ИПМ им. Келдышева, 2001. (http://audio.rightmark.org/lukin/pub/rffineuro.pdf)
- Егоров А.И., Дубровский В. В. Об анализе слуховых образов речевого сигнала. Иркутск, 1997. http://fccl.ksu.ru/issue001/confspe.97/egordub.pdf).
- Дубровский В.В., Егоров А. И. О проблеме дикторонезависимости при распознавании речи на фонемном уровне //Диалог-2003: материалы международной конф. Москва, 2003. (http://www.dialog21 .ru/Archive/2003/Dubro vskij. pdf).
- Бочаров И.В., Акатьев И. Ю. Распознавание речевых сигналов на основе корреляционного метода //Исследовано в России: электронный журнал.-2003.-С. 1547−1557
- Федяев О.И., Гладунов С. А. Организация ввода речевой информации на основе нейросетевой аппроксимации фонем. (http://www.ulstu.ru/conf/is/doclads/is2003/rus230.doc)
- Сорокин В.Н., Циплихин А. И. Сегментация и распознавание гласных // Информационные процессы. 2004. — № 2 — С. 202−220.
- Трофимов А.Т., Горячев А. Г. Адаптивный координатный базис для обработки речевых сигналов //Вестник Новгородского Государственного университета. 2001. — № 19 (http://www.admin.novsu.ac.ru/uni/uni.nsf)
- Kaneda Y., Ohga J. Adaptive microphone-array system for noise reduction. //IEEE trans. ASSP.- 1986. -Vol. 34, № 6.-P. 1931−1400.
- Винцюк Т.К. Распознавание слов речи с помощью динамического программирования //Кибернетика -1968.-№ 1-С.81−88.
- Федяев О.И., Гладунов С. А. Фонетический анализ речи на основе нейросетевой аппроксимации сигнала //Нейрокомпьютеры и их применение: Труды VIII всероссийской конференции НКП-2002 -Москва, 2002.-С. 435−438.
- Федяев О.И., Гладунов С. А. Распознавание речевых слов при помощи искусственных нейронных сетей //Информатика, кибернетика ивычислительная техника: Научн. тр. Донецкого гос. унив. -1999. № 1. -С. 145−150.
- Иванов А.В., Петровский А. А. Методы построения устройств распознавания речи на базе гибрида нейронная сеть марковская модель //Нейрокомпьютеры и их применение: Труды VIII всероссийской конференции НКП-2002 Москва, 2002. — С. 423−434
- Система распознавания изолированных рукописных символов на основе иерархической структуры из динамических ассоциативных запоминающих устройств /А.А. Харламов, P.M. Жаркой, В. И. Волков, Г. Н. Мацаков //Информационные технологии. 1998. — № 5. — С. 27−31.
- Baker J. К. The dragon system An overview //IEEE Trans. Acoust. Speech Signal Process. — 1975. — Vol. 23 -P. 24−29
- Rabiner L., Juang B. An introduction to Hidden Markov Models //IEEE Acoustic, Speech, and Signal Processing Magazine. 1986. — № 3, -P. 4−16.
- Huang X., Acero A., Hon H. Spoken Language Processing: A guide to theory, algorithm, and System Development. Prentice Hall, 2001.- 965 p.
- Электронные страницы фирмы 21st Sentury Eloquence (http://www.voicerecognition.com)
- Dal Degan-N. Prati-C. Acoustic Noise Analysis and Speech Enhancement Techniques for Mobile Radio Applications. //Signal Processing. -1988. -Vol. 15,-P. 43−56.
- Frost-O-L. An algorithm for linearly constrained adaptive array processing. // Proc. Of IEEE. 1972. — Vol. 60, — № 8. — P. 926−935.
- Hermansky Hynek Should Recognizers Have Ears? //Proc. ESCA Tutorial and Research Workshop on Robust Speech Recognition for Unknown Communication Channels. Pont-a-Mousson, 1997. — P. 1−10
- Hermansky Hynek Perceptual linear predictive (PLP) analysis of speech //Journal Acoust. Soc. Am., 1990. — Vol. 87, № 4. — P. 1738−1752
- Анохин П.К. Проблема центра и периферии в современной физиологии нервной деятельности //Проблема центра и периферии в нервной деятельности. -Горький, 1935. С. 9−70
- Дорохина Г. В. Модуль морфологического анализа слов русского языка //Искусственный интеллект: научно-теоретический журнал. -2004.-№ 3-С. 636−642
- Совпель И. В. Система автоматического извлечения знаний из текста и её приложения //Искусственный интеллект: научно-теоретический журнал. 2004. — № 3 — С. 668−677
- Иконин С. Ю., Сарана Д. В. Система автоматического распознавания речи SPIRIT ASR Engine //Цифровая обработка сигналов: научно-технический журнал. 2003. — № 3 — С. 11−21
- Санников В.Г., Журавский Ю. И., Прохоров Ю. Н. Формирование банка априорных данных о речи диктора //АРСО-12: Материалы всесоюзного семинара. Киев, 1982. — С. 49−52
- Прохоров Ю.Н. Рекуррентное оценивание параметров //Проблемы построения систем понимания речи М.: Наука, 1980. — С. 97−109.
- Hermansky Н., Morgan N. //RASTA Processing of speech. IEEE Trans. On ASSP. 1994. — Vol. 2, — P. 578−589
- Sheikhzadeh H., Sameti H., Deng L. Comparative performance of spectral subtraction and HMM Based speech enhancement strategies with application to hearing aid design //Proc. ICASSP-94. Adelaide, 1994. — P. 1−13 -1−17
- Malah D., Cox R.V. A Generalized comb filtering technique for speech enhancement //Proc. IEEE Int. Conf ASSP. Paris, 1982. — Vol. l, — P. 160 163
- Key-phrase spotting using an integrated language model of n-grams andfinite-state grammar /Qiguang Lin, Dave Lubensky, Michael Picheny et. al. th
- European Conference on Speech Communication and Technology. Rhodes, 1997.-P. 255−258.
- Caroline Bousquet-Vernhettes Context Use to Improve the Speech Understanding Processing //Speech and Computer. Moscow, 2001. — P. 89−92.
- Refining the N-best Hypotheses List in Large Vocabulary Speech Recognition by applying Lexical Rules / K. Georgila, A. Tsopanoglou, N. Fakotakis, et al. //Speech and Computer. Moscow, 2001. — P. 97−102.
- Brigitte Bigi, Armelle Brun A Hierarchical Approach for Topic Identification//Speech and Computer. Moscow, 2001. — P. 85−88.
- McWhirter J.S., Palmer K.J., Roberts J.B. A Digital Adaptive Noise-Canceller Based on a Stabilizer Version of the Widrow L.M.S. Algorithms //Proc. of IEEE Int. Cong. ASSP. New York, 1982. — P. 1384−1387
- Гурьев Ю.Ю., Прохоров Ю. Н., Алгоритм рекуррентной фильтрации речевых сигналов //АРСО-12: Материалы всесоюзного семинара. -Киев, 1982.-С. 39−42
- Hansen J.H.L., Pellom B.L. Text-directed speech enhancement employing phone class parsing and feature map constrained vector quantization //Speech Communication. 1997. Vol. 21, — P. 169−189
- Hansen J.H.L. Analysis and compensation of speech under stress and noise for environmental robastness in speech recognition //Speech Communication. 1996. Vol. 20,-P. 151−173
- Laughans Т., Strube H. W. Speech enhancement by nonlinear multiband envelop filtering //Proc. IEEE Trans ASSP. Paris, 1982. — P. 156−159
- Трауготт H.H. О механизмах нарушения памяти. Л.:Наука. — 1973. -133 с.
- Данилова Н.Н. Психофизиология. М.: Аспект Пресс, 2000. — 373 с.
- Аграновский А. В., Леднов Д. А. Математическая модель распознавания речи с использованием протяженных контекстов // Информационные технологии. 1997. — № 7. — С. 33−36.
- Burr D.J. A Neural Network Digit Recognizer //Proceedings of the IEEE Conference on Systems, Man, and Cybernetics. Atlanta, 1986. — P. 16 211 625.
- Huang W., Lippmann R. Comparisons between neural net and conventional classifiers //Proceedings IEEE First International Conference on Neural Networks. San Diego, 1987. — P. 485−493
- Bengio Y., Simard P., Frasconi P. Learning long-term dependencies with gradient descent is difficult //IEEE Trans, on Newral Networks. New York, 1994. — Vol.5, — № 2. — P. 157−166.
- Lippman R.P., Gold В. Neural-net classifiers useful for speech recognition //IEEE Int. Conf. Neural Networks. San Diego, 1984. — P. 417−425.
- R. Folk, A. Kartashov, A simple elastic model for self-organizing topological mappings //Computation in Neural Systems. 1994. № 5 — P. 369−387
- Huang W., Lippman R.P., GoldB. A neural net approach to speech recognition //Proc. IEEE Int’l Conf. on Acoustic, Speech and Signal Processing. New York, 1988. — P. 99−102.
- Rosenblatt F. Principles of Neurodynamics. New York: Spartan. — 1962.
- Харламов А.А. Статические и динамические нейронные сети на примере задачи распознавания образов //Приборостроение. Интеллектуальные системы автоматического управления. -1991. № 1 -С. 58−66.
- Phoneme recognition: neural networks vs. hidden Markow model / A. Waibel, T. Hanazava, G. Hinton, K. Shikano, K. Lang //ICASSP-88. New York, 1988.-P. 107−110
- Robinson A.J., Fallside F. Static and dynamic error propagation networks with application to speesh coding //Neural Inf. Procsess. New York, 1988. -P. 632−641
- Sholl D.A. Dendritic organization in the neurons of the visual and motor cortices //Journal of Anatomy. 1953. — № 87 — P. 387−406.
- Представление и использование знаний /Пер с япон.- Под ред. Н. Г. Волкова М.: Мир, 1989. — 220 с.
- УинстонП. Искусственный интеллект/Пер. с англ.- Под ред. Д.А. Поспелова-М.: Мир, 1980. 519 с.
- Нильсон Н. Принципы искусственного интеллекта: Пер. с англ. М.: Радио и связь, 1985. — 376 с.
- Рубашкин В.И. Представление и анализ смысла в интеллектуальных информационных системах М.: Наука, 1989. — 189с.
- Cover Т. Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition //IEEE Trans. Electronic computers. 1965. — Vol. 14, — P. 326−334
- СегаловичИ. Как работают поисковые системы /Мир Интернет: Электронный журнал. 2002. — № 2 (http://old.company.yandex.ru/articles/articlelO.html)
- Phoneme Recognition Using Time-Delay Neural Networks / A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, K. Lang //IEEE Trans, on Acoustics, Speech, and Signal Processing. 1989. -Vol. 37, № 3. — P. 1888−1898.
- McDermott, E. and Katagiri, S. LVQ-Based Shift-Tolerant Phoneme Recognition //IEEE Trans, on Signal Processing. 1991. -Vol. 39, № 6. — P. 1398−1411.
- Ostendorf M. Moving beyond the beads-on-a-string model of speech //Proc. of IEEE ASRU Workshop. Keystone, 1999. — P. 79−84.
- Peeling S M and Moore R K. Isolated digit recognition experiments using the multi-layer perceptron //Speech Communication. 1988. — № 7, -P. 403 409.
- Kammerer B, Kupper W. Experiments for isolated-word recognition using single and two-layer perceptrons //Neural Networks. 1990. — № 3. — P. 693 706.
- Huang, X.D. Speaker Normalization for Speech Recognition //in Proc. of ICASSP-92. San Francisco 1992. — Vol. 1, — P. 465−468.
- Ariki Y., Tagashira S., Nishijima M. Speaker recognition and speaker normalization by projection to speaker subspace //ICASSP-96. Atlanta, 1996.-P. 1859−1862.
- Ariki Y., Doi K., Speaker recognition based on subspace methods //ICSLP-94.-Pittsburgh, 1994.-P. 1859−1862.
- Гордеев A.B., Молчанов А. Ю. Системное программное обеспечение -СПб.: Питер, 2001.- 736 с.
- Рабинер JI.Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи //Обзор ТИИЭР. -1989. Т.77, № 2 — С. 86−120.
- Domouchel P. Three probabilistic language models for a large-vocabulary speech recognizer //Proc. IEEE Int’l. Conf. on Acoustic, Speech and Signal Processing. New York, 1988. — P. 513−516.