Оценка стартовых параметров СММ в задачах распознавания команд при кепстральной предобработке речевого сигнала
Диссертация
Исследования возможности применения кластерного анализа в задачах таксономии изолированных слов на фонемы с применением дистанции Махаланобиса, показали состоятельность этого подхода, что в дальнейшем позволит создавать на его основе системы распознавания слитной речи. В четвертой главе предлагается формализованный метод оценки стартовых параметров СММ, учитывающий фонематический состав… Читать ещё >
Список литературы
- Рабинер J1. Гоулд Б. «Теория и применение цифровой обработки сигналов». -«МИР», Москва, 1978
- Дубров А. М Мхитарян B.C. Трошин Л. И. «Многомерные статистические методы» Финансы и статистика, Москва, 1998
- Моттль В.В. Мучник И.Б. «Скрытые Марковские Модели в структурном анализе сигналов» ФИЗМАТЛИТ, Москва, 1999
- Лурия «Курс лекций по психолингвистике» МГУ
- Каханер Д. Моулер К. Неш С. «Численные методы и программное обеспечение» = МИР, Москва, 1998
- Голуб Дж. Ван Лоун Ч. «Матричные вычисления» МИР, Москва, 1999
- Алберт А. «Регрессии, псевдоинверсия и рекурентное оценивание» НАУКА. Москва, 1977
- Бенхем К.Дж., Блейсделл Б. Э. и др. «Математические методы для анализа последовательностей ДНК» МИР, Москва, 1999
- Косарев Ю.А. «Естественная форма диалога с ЭВМ». -«М АШИНОСТРОЕНИЕ», Ленинград, 1989
- Обжелян Н.К. Трунии-Донской В.Н. «Речевое общение в системах „человек -ЭВМ“. „ШТИИНЦА“, Кишинев, 1985
- Kevin Leary and David Morgan, „Fast and accurate analysis with ГРС gives a DSP chip speech-processing power“, Electronic Design, April 17, 1986, pp. 153−158.
- Yousif A. El-Imam, „A Personal Computer-based Speech Analysis c. id Synthesis System“, IEEE MICRO, June 1987, pp.4−21.
- Nick Tsakalas and Evangelos Zigouns. „Autocorrelation-based pitch determination algorotms for realtime vocoders with the TMS32020/C25″, Microprocessors and Mycrosystems, Vol 14 No8 October 1990, pp.511−516.
- Lawrence R. Rabiner, Bishnu S. Atal, Marvin R.Sambur. „LPC Prediction Error -Analysis of Its Variation with the Positin of the Analysis Frame“, IEEE Trans., Vol. ASSP-25, No. 5, October 1977, pp.434−442.
- Peter V. Souza, „Statistical Test and Distance Measures for LPC Coefficients“, IEEE Trans., Vol. ASSP-25, No. 6, December 1977, pp.554−558.
- Digital signal processing application using the ADSP-2100 family, Vol. I. Englewood Cliffs, NJ: Prentice Hall (1992).
- Digital signal processing application using the ADSP-2100 family, Vol. II. Englewood Cliffs, NJ: Prentice Hall (1992).
- ADSP-2100 Family User’s Manual
- EZ-KIT Lite Reference Manual.
- L. E. Baum and T. Petrie. „Statistical inference for probabilistic functions of finite state Markov chains,“ Arm. Math Stat., vol. 37. pp. 1554−1563.1966.
- L. E. Baum and J. A. Egon, „An inequality with applications to statistical estimation for probabilistic functions of Markov process and to a model for ecology“ Bull. Amer. Meteorol. Soc., vol. 73, pp. 360−363, 1967.
- L. E. Baum and G. R Sell, „Growth functions for transformations on manifolds,“ Pac. J. Math., vol. 27. no.2. pp. 211−227,1968.
- L, E. Baum, T. Petrie, C. Soules, arid N. Weiss, „A maximization technique occurring in the statistical analysis of probabilistic functions on Markov chains,“ Ann. Math Stat., vol, 41, no, l, pp. 164−171,1970.
- L. E. Baum, „An inequality and associated maximization technique in statistical estimation for probabilistic functions on Markov processes,“ Inequalities, vol. 3, pp, 1−8,1972.
- J. K, Baker, „The dragon system An overview,“ IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-23, no. l, pp. 24−29, Feb, 1975,
- F. Jelinek, „A fast sequential decoding algorithm using a stack,“ IBM J. Res. Develop., vol, 13, pp. 675−685, 1969.
- L. R, Bahl and F. Jelinek, .'Decoding for channels with insertions, deletions, and substitutions with applications to speech recognition,“ IEEE Trans. Informat, Theory, vol. IT-21, pp, 404−411.1975.
- F. Jelinek, L. R, Bahl, and R. L. Mercer, ."Design of a linguistic statistical decoder for the recognition of continuos speech,» IEEE Trans. Informat. Theory, vol, IT -il, pp. 250−256,1975.
- F. Jelinek, «Continuous speech recognition by statistical methods,» Proc. IEEE, vol. 64, pp, 532−536, Apr. 1975
- R. Bakis, «Continuous speech word recognition via centi-second acoustic states,» in Proc, ASA. Meeting (Washington DC), Apr. 1576.
- F. Jelinek, L. R. Bahl, and R, L, Mercer, «Continuous speech recognition: Statistical methods,» in Handbook of Statistics, II, P, R. Krishnaiad, Ed. Amsterdam, The Netherlands: North-Holland, 1982.
- L. R. Bahl, F. Jelinek, and R. L. Mercer, «A maximum likelihood approach to continuous speech recognition,» IEP2E Trans. Pattern Anal. Machine Intel., vol, PAMI-5, pp. 179−190, 1983.
- S. E. Levinson, L. R. Rabiner, and M. M. Sondhi, «An introduction to the application of the theory of probabilistic functions of a Markov process to automatic speech recognition,» Bell Syst. Tech, J., vol. 62, no.4, pp. 1035−1074, Apr, 1983,
- B. H. Juang, «On the hidden Markov model and dynamic time warping for speech recognition A unified view.» AT&T Tech J., vol. 63, no.7, pp.1213−1243, Sept. 1984.
- L. R. Rabiner and B. H. Juang, «An introduction to hidden Markov models,» IEEE ASSP Mag., vol, 3. no. 1, pp. 4−16,1986.
- J. S. Bridle, «Stochastic models and template matching: Someimportant relationships between two apparently different techniques for automatic speech recognition,», in Proc. Inst, of Acoustics, Autum Conf., pp. 1−8, Nov. 1984.
- J. Makhoul, S. Roucos. and H. Gish, «Vector quantization in speech coding,» Proc. IEEE, vol. 73, no. 11, pp. 1351−1588, Nov. 1985,
- S. E. Levinson, «Structural methods in automatic speech recognition,» Proc. IEEE, vol, 73, no. 11, pp.1625−1650. Nov 1985.
- A. W. Drake, «Discrete state Markov proceses.» Chapter 5 in Fundamentals of Applied Probability Theory. New York, NY: McGrav-Hill, 1967.
- A. J. Viterbi, «Error bounds for convolutional codes and an asymptotically opiimal decoding algorithm,» IEEE Trans. Informat. Theory, vol. IT-13, pp. 260−269, Apr. 1967.
- C. O. Forney, «The Viterbi algorithm,» Proc. IEEE, vol. 61, pp. 268−278, Mar, 1973,
- A. P. Dempster, N. M. Lajrd, and O. B. Rubin. «Maximum likelihood from incomplete data via the EM algorithm,» J. Roy,. Stat. Soc., vol. 39, no. 1, pp. 1−38, 1977.
- L. A. Liporace, «Minimum likelihood estimation for multivariate observations on Markov sources,» IEEE Trans. Informat. Theory, vol. IT -28, no. 5, pp. 729−734,
- B. H. Juang, «Maximum likelihood estimation for mixture multivariate stochastic observations of Markov chains,» AT&T Tech. J., vol. 64. no 6, pp. 1235−1249, July -Aug. 1985.
- B. H. Juang, S. E. Levinson, and M. M. Sondhi, «Maximum likelihood estimation for multivariate mixture observations of Markov chains.» IEEE Trans. Informat. Theory, vol. IT-32. no. 2, pp. 307−309, Mar. 1986.
- A. B. Poritz, «Linear predictive hidden Markov models and the speech signal,» in Proc. ICASSP '82 (Paris, France), pp. 1291−1294, May 1982.
- B. H. Juang and L. R. Rabiner, «Mixture autoregressive hidden Markov models for speech signals,» IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-33, no. 6, pp. 1404−1413, Dec.1985.
- M. J Russell and R. K. Moore, «Explicit modeling of state occupancy in hidden Markov models for automatic speech recognition,» in Proc. ICASSP '85 (Tampa, FL), pp. 5−8, Mar. 1985.
- S. E. Levinson, «Continuously variable duration hidden Markov models for automatic speech recognition,» Computer. Speech ana Language, vol. 1, no. 1, pp. 29−45. Mar 1986.
- B Lowerre and R. Reddy, «The HARPY speech understanding system,» in Trends in Speech Recognition, W. Lea, Editor. Englewood Cliffs, NJ: Prentice-Hall, 1980, pp. 340−346.
- L. R. Bahl, P. F. Brown, P. V. de Souza, and R. L. Mercer, «Maximum mutual information estimation of hidden Markov model parameters for speech recognition,» in Proc. ICASSP '86 (Tokyo, Japan), pp. 49−52, Apr. 1986.
- Y. Ephraim, A. Dembo, and L. R. Rabiner, «A minimum discrimination information approach for hidden Markov modeling,» in Proc. ICASSP '87 (Dallas, TX), Apr. 1987.
- B. H. Juang and L. R. Rabiner, «A probabilistic distance measure for hidden Markov models,» AT&T Tech. J., vol. 64, no.2, pp. 391−408, Feb, 1985,
- L. R. Rabiner, B. H. Juang, S, L. Levinson, and M. M. Sondhi, «Some properties of continuous hidden Markov model representations,» AT&T Tech. J., vol. 64, no.6, pp. 1251−1270, July-Aug. 1985.
- F. Jelinek and R. L. Mercer, «Interpolated estimation of Markov source parameters from sparse data,» in Pattern Recognition in Practice, E. S. Gelesma and L. N. Kanal, Eds, Amsterdam, The Netherlands: North-Holland, 1980, pp. 381−397.
- R. Schwartz et al., «Context-dependent modeling for acoustic-phonetic recognition of continuous speech,» in Conf. Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, pp. 1205−1208, Apr. 1985.
- K. F. Lee and H. W. Hon, «Large-vocabulary speaker-independent continuous speech recognition,» in Conf. Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, pp. 123−126, Apr. 1988.
- A. B. Poritz and A. G. Richter, «Isolated word recognition,» in Proc. ICASSP '86 (Tokyo. Japan), pp, 705−708, Apr. 1986.
- R. P. Lippmann, E. A. Martin, and O. B. Paul, «Muliistyle training for robust isolated word speech recognition,» in Proc. ICASSP '87 (Dallas, TX), pp, 705−708, Apr. 1987,
- O. B. Paul, «A speaker stress resistant HMM isolated word recognizer ,» in Proc. ICASSP '87(Dallas, TX), pp. 713−716, Apr. 1987.
- V. N. Gupta, M. Lcrmig and P. Mermelstein, «Integration of acoustic information in a large vocabulary word recognizer ,» in Conf. Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, pp. 697−700, Apr. 1987.
- S. F Levinson, «Continuous speech recognition by means of acoustic-phonetic classification obtained from a hidden Markov model,» in Proc. ICASSP '87 (Dallas TX), Apr. 1987.
- J. G. Wilpon, L. R. Rabiner and T. Martin, «An improved word detection algorithm for telephone quality speech incorporating both syntactic and semantic constraints.» AT&T Bell Labs Tech. J., vol. 63, no.3, pp. 479−498, Mar. 1984.
- J. G. Wilpon and L. R. Rabiner, «Application of hidden Markov models to automatic speech endpoint detection,» Computer Speech and Language, vol. 2, no. ¾, pp. 321 341, Sept./Dec. 1987.
- A. Averbuch et al., «Experiments with the TANGORA 20,000 word speech recognizer ,» in Conf. Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, pp. 701−704, Apr. 1987.
- B. S. Atal and S. L. Hanauer, «Speech analysis and synthesis by linear prediction of the speech wave,» J. Acoust. Soc. Am., vol. 50, pp. 637−655, 1971.
- F. I. Itakura and S. Sailo, «Analysis-synthesis telephony based upon the maximum likelihood method,» in Proc. 6th Int. Congress on Acoustics (Tokyo, Japan), pp. CI 720, 1968.
- J. Makhoul, «Linear prediction: A tutorial review,»roc. IEEE, vol. 63, pp. 561−580, 1975.
- J. O. Markel and A. H. Gray, Jr., Linear Prediction of Speech. New York, NY: Springer-Verlag, 1976.
- Y. Tokhura, «A weighted cepstra. distance measure for speech recognition,'' IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-35, no. 10, pp. 1414−1422, Oct. 1987.
- B. H. Juang L. R. Rabiner, and J.G. Wilpon, „On the use of bandpass liftering in speech recognition,“ IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-35, no. 7, pp. 947−954. July 1987.
- S. Furui, „Speaker independent isolated word recognition based on dynamics emphasized cepstrum,“ Trans. IECE of Japan, vol, 69, no. 12, pp. 1310−1317, Dec. 1986.
- F. K. Soong and A. E, Rosenberg, „On the use of instantaneous and transitional spectral information in speaker recognition,“ in Proc. ICASSP '86 (Tokyo, Japan), pp. 877−880, Apr. 1986.
- L. R. Rabiner, J. G. Wilpon, and B. H. Juang, „A segmental k-means training procedure for connected word recognition,“ AT&T Tech. J., vol. 65, no. 3, pp. 21−31, May-June 1986.
- L. P. Rabiner and S. E. Levinson, „A speaker-indpendent, syntax-directed, connected word recognition system based on hidden Markov models and level building,“ IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-33, no. 3, pp. 561−573, June 1985.
- L. R. Rabiner, J. G. Wilpon, and B. H. Juang, „A model-based connected digit recognition system using either hidden Markov models on templates,“ Computer, Speech, and Language, vol. 1, no.2, pp. 167−197, Dec. 1986.
- H. Bourlard, Y. Kamp, H. Ney, and C. J. Wellekens, „Speaker-dependent connected speech recognition via dynamic programming and statistical methods,“ in Speech and Speaker Recognition, M. R. Schroeder, Ed. Basel, Switzerland: Karger, 1985, pp.115 148,
- C. J. Wellekens, „Global connected digit recognition using Baum-Welch algorithm,“ in Proc. ICASSP '86 (Tokyo, Japan), pp, 1081−1084, Apr. 1986.
- A. M. Derouault, „Context dependent phonetic Markov models for large vocabulary-speech recognition.“ in Proc. ICASSP '87 (Dallas, FX), Paper 10.1.1. pp. 360−363, Apr. 1987.
- B. Merialdo, „Speech recognition with very large size dictionary,“ in Proc, ICASSP '87 (Dallas, TX), Paper 10.2.2., pp, 364−367, Apr. 1987.
- Y. L. Chow et a!., „BYBLOS: The BBN continuous speech recognition system,“ in Proc. ICASSP '87(Dallas, TXj, Paper 3.7.1, pp 89−92, Apr. 1987,1. Оглавление1. Оглавление1. Назначение программы
- Структура и функционирование программы
- Назначение модулей программы1. VCL.1. АЦП1. Таксоном1. DSP1. Настройка системы1. Настройка параметров АЦП
- Настройка параметров Таксонома
- Настройка системы предобработки
- Настройка системы обучеаия
- Порядок работы с программой1. Сохранение настроек1. Загрузка настроек1. Диктовка слов1. Чтение WAV-файла
- Сохранение файлов в форматах WAV, FFT, CPS1. Создание новой модели1. Сохранение словаря1. Загрузке словаре1. Назначение программы
- Основной задачей SDIAPP является получение стартовых параметров Скрытых Марковских Моделей (НММ) для изолированных слов. Такие модели в последствии можно обучать с помощью известных алгоритмов обучения, например, таких как Baum-Welch алгоритм.
- Программ» сохраняет полученные ею модели в виде форматированных текстовых файлов, которые затем могут быть использованы в качестве исходных дачных для других систем анализа и распознавания речи.
- Каждому треду соответствует одно или несколько диалоговых окон, через которые осуществляется управление алгоритмами, которые реализует тред, и так же через эти окна производится отображение результатов работы.
- Назначение модулей программы1. VCL
- В обязанности этого модуля-треда входит: управление драйвером звуковой карты реакция на прерывания со стороны звуковой карты, формирование заданного потока фреймов из данных поступающих от звуковой карты, отображение параметров текущего сигнала.
- В диалоге управления этим тредом можно задать частоту дискретизации и разрядность оцифровки сигнала с микрофона. Здесь же задаются параметры формируемого потока фреймов.
- Формируемый поток фреймов снабжается дополнительными параметрами сигнала, необходимыми для таксономического деления речи. К эти параметрам относится энергия сигнала и параметр ZCR (количество пересечений сигналом нуля).
- Так же в диалоговом окне этого модуля отображается текущее значение параметров входного сигнала, что позволяет настраивать систему на оптимальную работу с данной звуковой подсистемой компьютера.1. Таксоном
- Модуль таксономии речи занимается вычленением изолированных слов из непрерывного потока данных, поступающего от АЦП, и помещает эти слова в буфер речевых единиц. Так же через диалог этого модуля осуществляется управление этим буфером.
- По сути, это центр управления основными функциями системы. Отсюда речевые единицы отправляются на предобработку, на обучение и распознавание. Отсюда слова передаются в простейший редактор, встроенный в SDIAPP.1. DSP
- Это «главный вычислительный центр». Этот модуль производит все трудоемкие вычисления, те, которые в аппаратных системах обычно выполняет цифровой сигнальный процессор.
- Этот модуль обслуживается несколькими диалоговыми окнами, такими как: DSP, Обучение, Распознавание и Словарь.
- Поскольку со словарем моделей может работать только модуль DSP, то все обязанности по ведения словаря возложены на этот модуль, и словарь располагается в области данных именно этого треда.
- Сформированные модулем НММ помещаются в словарь моделей, а все остальные результаты либо записываются в файл, либо выводятся в окно Результаты.1. Настройка системы
- На рис. 2 показан внешний вид диалога управления тредом АЦП.-• Величина отсчета • • 5 г 8 бит на отсчет 16 бит на отсчет
- Частота оцифровки ! Г 8000 I г 11 025 | С" 22 050 ! С 44 100 256 130
- Длина фрейма Амплитуда фонового шумаш1. Уровеньяр Перекры в ать фреймы Текущее состояниет
- Частота: 22 050Гц, Бит на отсчет: 161. Размер фреймов:256 : — Фреймы пересекаются1. Энергиягеи1. Амплитуда5120 39 951. Установить1. Установить по умолчанию1. Start1. Рис.2
- Текущие динамические параметры представлены правее и отображают параметры оцифровываемого в данный момент, сигнала. Эти параметры носят информационный характер и очень важны для правильной настройки таксонома.
- Поля Величина отсчета и Частота оцифровки задают параметры оцифровки сигнала, поступающего с микрофона. Их изменение вступает в силу после нажатия кнопки Установить.
- Чаще в системах распознавания речи применяются именно перекрывающиеся фреймы.
- Чтобы правильно установить значение амплитуды фонового шума, нужно во время, когда в микрофон никто не говорит, заметить величину динамического параметра Амплитуда и установить несколько1. Рис.4
- Как и для АЦП, все изменения параметров Таксопома начинают действовать только после нажатия кнопки Установить.
- Используемый здесь алгоритм вычленения изолированных слов из непрерывного потока фреймов, поступающих от АЦП, является одной из вариаций алгоритма, предложенного Рабинером (Р1аЬтег).
- Границы начала и конца слова определяются Таксономом на основе сравнения параметров Энергия и ZCR, которые вычисляются модулем АЦП для каждого фрейма с некоторыми пороговыми значениями.
- Правильная настройка величины порогов осуществляется на основе анализа параметров фонового шума. Их можно наблюдать на диалоговом окне АЦП.
- Каждый из двух порогов определяется двумя параметрами. Порог считается превышенным, если превышен один из параметров. Алгоритм проиллюстрирован на рис. 51. Энергия ZCR
- П°Р.°Г нача л, а сл ов, а Подог конца слова
- Допустимое время молчания Длина слова1. Рис.5
- Следует заметить, что величина пороговых значений сильно зависит от условий оцифровки, от микрофона, от звуковой карты, а ограничения по длительности постоянны для всех систем, и их можно оставлять неизменными.
- Настройка системы предобработки
- Фурье-преобразование данных фрейма
- Фильтрация несколькими треугольными фильтрами
- Вычисление логарифма энергии спектра на выходе каждого фильтра
- Косинусное преобразование над данными, полученными на 3 ем шаге алгоритма
- Результаты 4-го шага алгоритма и являются кепстральными коэффициентами.
- На рис. 6 представлен внешний вид диалога управления, на котором задаются параметры алгоритма кепстрального анализа. idsp ез1. Windowing^Ceplrumj|г Cepstrum. .jl 2 ЧИСЛО КОЭфИЦИеНТОВ f/ произьодить FFT
- F произ е. одить нормализацию8 порядок FFT = гч, а 1 w добавить Delta- Filtering.-.-.- .—.—.-------------------------------------------------|20 число фильтров60 частота начала диапазона ?4000 частота конца диапазона
- Г" производить линейное шкалирование -|о число линейно расположенных фильтрово конечная частота диапазона линейного шкалирования.
- Установить ' 5§|' я Установить по умолчанию J1. Рис.6
- Если выбран пункт производить нормализацию, то вычисленные коэффициенты будут нормализованы.
- Система обучения, встроенная в БЭГАРР имеет два различных алгоритма оценки стартовых параметров НММ. Внешний вид диалога настройки системы обучения представлен на рис.8
- Ц| Параметры системы обучения
- С Равновеликое деление слов начастей1. Кластеризация
- Минимальное количество фреймов в кластере |3максимальное количество фреймов в кластере |13
- Во,>муш?ние плохообуслселеной матрицы ковариации0.11. Рис.8
- Выбор того или иного алгоритма осуществляется путем выбора соответствующей радио-ккопки.
- Порядок работы с программой
- Для сохранения текущих настроек программы в меню главного окна программы выберите РНе→8ауе.,
- Для загрузки ранее сохраненных настроек г-истемы в меню главного окна программы выберите РПе→Ореп.1. Диктовка слов
- Настройте параметры АЦП так, чтобы в тот момент, когда вмикрофон ничего не произносится, динамический параметр ZCR,
- Переместите курсор мыши на поле Буфер и нажмите правую кнопку мыши. Появится всплывающее меню. Рис. 10.
- Предварительное таксономическое деление• Таксоном Буфер j1. Написание слова (сек.) Гнет> 0.17 |1. Распознавание Обучение 1. Прослушать Редактировать
- Сохранить как FFT ч Сохранить как CPS ¦ Сохранить как WAV1. Загрузить WAV 1. Удалить j 1. Удалить ВСЕ1. Максимальное32 количествослов в буфере1. Пометить ВСЕ
- Сразу Г отправлять слова на распознавание1. Рис.10
- Выберите пункт Загрузить WAV.
- После загрузки файла новая запись появится в буфере речевых единиц.
- Сохранение файлов в форматах WAV, FFT, CPS
- Откройте окно Тяксоном и затем закладку Буфер
- Курсором мыши выделите ту речевую единицу, которую вы собираетесь сохранить.
- Переместите курсор мыши на поле Буфер и нажмите правую кнопку мыши. Появится всплывающее меню. Рис. 10.
- Выберите нужный пункт меню.
- Следует заметить, что написание слова используется как часть имени файла, поэтому в написании слова не должно быть символов, неприемлемых для имен файлов.
- Убедитесь, что он не пуст. (В списке должны присутствовать записи.)3. Нажмите кнопку Сохранить.
- Загружаемые слова добавляются к уже имеющимся в словаре, поэтому при необходимости словарь нужно очистить, для чего правой кнопкой мыши щелкните на окне Словарь и выберите пункт меню Удалить все.