Помощь в написании студенческих работ
Антистрессовый сервис

Оценка стартовых параметров СММ в задачах распознавания команд при кепстральной предобработке речевого сигнала

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Исследования возможности применения кластерного анализа в задачах таксономии изолированных слов на фонемы с применением дистанции Махаланобиса, показали состоятельность этого подхода, что в дальнейшем позволит создавать на его основе системы распознавания слитной речи. В четвертой главе предлагается формализованный метод оценки стартовых параметров СММ, учитывающий фонематический состав… Читать ещё >

Оценка стартовых параметров СММ в задачах распознавания команд при кепстральной предобработке речевого сигнала (реферат, курсовая, диплом, контрольная)

Содержание

  • ГЛАВА 1. ВЫБОР АЛГОРИТМА ПРЕДОБРАБОТКИ РЕЧИ ДЛЯ ЗАДАЧИ РАСПОЗНАВАНИЯ
    • 1. 1. Требования к системе распознавания речи
    • 1. 2. Требования к системе таксономия речи
    • 1. 3. Определение признакового пространства
    • 1. 4. Определение признакового пространства в кепстрдльных коэффициентах
  • Выводы
  • ГЛАВА 2. ПОСТАНОВКА ЗАДАЧИ О ПРИМЕНЕНИИ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ В СИСТЕМАХ РАСПОЗНАВАНИЯ ДИСКРЕТНОЙ И СЛИТНОЙ РЕЧИ
    • 2. 1. Постановка задачи скрытого марковского моделирования в распознавании речи
    • 2. 2. Основные проблемы применения СММ к распознаванию речи
    • 2. 3. Эффективное вычисление вероятности генерации заданной последовательности
    • 2. 4. Отыскание оптимальной последовательности состояний
    • 2. 5. Обучение СММ тестовыми последовательностями
  • Выводы
  • ГЛАВА 3. ТАКСОНОМИЯ ИЗОЛИРОВАННЫХ СЛОВ ПУТЕМ КЛАСТЕР-АНАЛИЗА С ПРИМЕНЕНИЕМ ДИСТАНЦИИ МАХАЛАНОБИСА
    • 3. 1 Оценка статистических параметров больших массивов наблюдений
      • 3. 2. Введение метрики.,
      • 3. 3. Применение кластерного анализа
      • 3. 4. Измененная кластер-процедура по принципу «ближайшего соседа»
      • 3. 5. Критерии выделения фонем
  • Выводы
  • ГЛАВА 4. ОЦЕНКА СТАРТОВЫХ ПАРАМЕТРОВ НЕПРЕРЫВНЫХ СММ ИЗОЛИРОВ АННЫХ СЛОВ
    • 4. 1. Алгоритм оценки СММ, ориентированный на равное количество состояний
    • 4. 2. Алгоритм оценки СММ, ориентированный на равную длительность состояний
    • 4. 2. Алгоритм оценки СММ, ориентированный на результаты таксономии
    • 4. 3. Оценка параметров функции распределения вероя тностей генерации символов в состоянии
    • 4. 4. Оценка параме тров матрицы (вероятностей начальных состояний
    • 4. 5. Оценка матрицы вероятностей переходов
    • 4. 6. Сравнение надежности распознавания моделями построенными по предложенному алгоритму и стандартному
  • Выводы

В последние несколько лет сильно возрос интерес к приложениям распознавания речи. Во многом это связано со значительным повышением производительности вычислительной техники, предлагаемой сейчас по относительно низким ценам.

Производительность современных компьютеров, даже персонального класса, позволяет в режиме реального времени проводить сложную математическую обработку сигналов с достаточно широким спектром, хранить в оперативной памяти и обрабатывать большие объемы информации. Именно недостаток производительности сдерживал развитие приложений распознавания речи в предыдущие годы, ведь большинство алгоритмов и методов, применяемых в этой области, требую т больших вычислительных ресурсов для работы в реальном времени.

Самыми перспективными системами распознавания на сегодняшний день являются системы, использующие теорию Скрытого Марковского Моделирования (СММ) или Нейронные Сети (НС). Обе эти технологии реализуют т.н. вероятностное распознавание в отличие от технологий, реализующих точное распознавание, которые обычно используют методы динамического программирования.

В данной работе рассматриваются только системы, использующие для распознавания СММ, но следует заметить, что алгоритмы и методы, предлагаемые в этой работе, пригодны на определенных этапах и при работе с НС.

Теория СММ уже широко применяется в задачах структурного анализа сигналов (или, в более общем смысле, экспериментальных кривых), и основные математические методы <десь хорошо разработаны, но они требуют некоторого уточнения и дополнения для применения их к речевому сигналу, чтобы максимально эффективно учитывать его особенности. И во второй главе будут рассмотрены вопросы применения СММ именно в задачах распознавания речи.

Несмотря на то, что в целом теория СММ хорошо разработана, еще существуют недостаточно формализованные области. Одной из таких недостаточно изученных задач является задача оценки стартовых параметров СММ. Обычно эта задача решаетс я эмпирически, или ее решение жестко привязывается к реализации. На настоящий момент существует несколько хорошо формализованных методов оценки стартовых параметров СММ для задач распознавания команд, но все они не учитывают фонематический состав речевых единиц и, соответственно, пригодны только для задач распознавания команд.

В четвертой главе предлагается формализованный метод оценки стартовых параметров СММ, учитывающий фонематический состав анализируемых речевых единиц и соответственно пригодный не только для задач распознавания команд, но и для задач распознавания слитной речи.

Реализация данного метода потребовала формализации алгоритма таксономии речевых единиц на фонемы для выявления их фонематического состава. Для этого был разработан алгоритм фонематической таксономии, который представлен в третьей главе. Предлагаемый алгоритм использует стохастические свойства кепстральных коэффициентов и кластерный анализ для выявления фонематической структуры изолированных слов или речевых единиц. Результаты работы данного алгоритма применимы для систем распознавания команд и слитной речи, и кроме того, при использовании в процессе распознавания нейронных сетей.

Выводы и заключение.

Исследование алгоритмов предобработки речи показало, что существует перспективное направление повышения характеристик систем распознавания речи, посредством использования СММ в совокупности с кепстральной предобработкой.

Исследования стохастических свойств наборов кепстральных коэффициентов, представляющих фонемы русского языка, показали целесообразность использования дистанции Махаланобиса в качестве метрики для наборов кепстральных коэффициентов, благодаря учету стохастической зависимости между ними.

Исследования возможности применения кластерного анализа в задачах таксономии изолированных слов на фонемы с применением дистанции Махаланобиса, показали состоятельность этого подхода, что в дальнейшем позволит создавать на его основе системы распознавания слитной речи.

Предложенный алгоритм оценки стартовых параметров СММ показал свою эффективность и перспективность использования в приложениях распознавания команд и слитной речи.

В рамках данной диссертационной работы создан программный комплекс для исследования СММ в задачах распознавания речи с применением кепстральной предобработки и таксономией изолированных слов на фонемы.

Проведенные исследования в рамках НИР по теме 2008 гб каф. ЗВА МГИЗМ, показали высокую эффективность использования речевой базы данных при разработке и тестировании систем распознавания речи.

Показать весь текст

Список литературы

  1. Рабинер J1. Гоулд Б. «Теория и применение цифровой обработки сигналов». -«МИР», Москва, 1978
  2. Дубров А. М Мхитарян B.C. Трошин Л. И. «Многомерные статистические методы» Финансы и статистика, Москва, 1998
  3. В.В. Мучник И.Б. «Скрытые Марковские Модели в структурном анализе сигналов» ФИЗМАТЛИТ, Москва, 1999
  4. Лурия «Курс лекций по психолингвистике» МГУ
  5. Д. Моулер К. Неш С. «Численные методы и программное обеспечение» = МИР, Москва, 1998
  6. Дж. Ван Лоун Ч. «Матричные вычисления» МИР, Москва, 1999
  7. А. «Регрессии, псевдоинверсия и рекурентное оценивание» НАУКА. Москва, 1977
  8. К.Дж., Блейсделл Б. Э. и др. «Математические методы для анализа последовательностей ДНК» МИР, Москва, 1999
  9. Ю.А. «Естественная форма диалога с ЭВМ». -«М АШИНОСТРОЕНИЕ», Ленинград, 1989
  10. Н.К. Трунии-Донской В.Н. «Речевое общение в системах „человек -ЭВМ“. „ШТИИНЦА“, Кишинев, 1985
  11. Kevin Leary and David Morgan, „Fast and accurate analysis with ГРС gives a DSP chip speech-processing power“, Electronic Design, April 17, 1986, pp. 153−158.
  12. Yousif A. El-Imam, „A Personal Computer-based Speech Analysis c. id Synthesis System“, IEEE MICRO, June 1987, pp.4−21.
  13. Nick Tsakalas and Evangelos Zigouns. „Autocorrelation-based pitch determination algorotms for realtime vocoders with the TMS32020/C25″, Microprocessors and Mycrosystems, Vol 14 No8 October 1990, pp.511−516.
  14. Lawrence R. Rabiner, Bishnu S. Atal, Marvin R.Sambur. „LPC Prediction Error -Analysis of Its Variation with the Positin of the Analysis Frame“, IEEE Trans., Vol. ASSP-25, No. 5, October 1977, pp.434−442.
  15. Peter V. Souza, „Statistical Test and Distance Measures for LPC Coefficients“, IEEE Trans., Vol. ASSP-25, No. 6, December 1977, pp.554−558.
  16. Digital signal processing application using the ADSP-2100 family, Vol. I. Englewood Cliffs, NJ: Prentice Hall (1992).
  17. Digital signal processing application using the ADSP-2100 family, Vol. II. Englewood Cliffs, NJ: Prentice Hall (1992).
  18. ADSP-2100 Family User’s Manual
  19. EZ-KIT Lite Reference Manual.
  20. L. E. Baum and T. Petrie. „Statistical inference for probabilistic functions of finite state Markov chains,“ Arm. Math Stat., vol. 37. pp. 1554−1563.1966.
  21. L. E. Baum and J. A. Egon, „An inequality with applications to statistical estimation for probabilistic functions of Markov process and to a model for ecology“ Bull. Amer. Meteorol. Soc., vol. 73, pp. 360−363, 1967.
  22. L. E. Baum and G. R Sell, „Growth functions for transformations on manifolds,“ Pac. J. Math., vol. 27. no.2. pp. 211−227,1968.
  23. L, E. Baum, T. Petrie, C. Soules, arid N. Weiss, „A maximization technique occurring in the statistical analysis of probabilistic functions on Markov chains,“ Ann. Math Stat., vol, 41, no, l, pp. 164−171,1970.
  24. L. E. Baum, „An inequality and associated maximization technique in statistical estimation for probabilistic functions on Markov processes,“ Inequalities, vol. 3, pp, 1−8,1972.
  25. J. K, Baker, „The dragon system An overview,“ IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-23, no. l, pp. 24−29, Feb, 1975,
  26. F. Jelinek, „A fast sequential decoding algorithm using a stack,“ IBM J. Res. Develop., vol, 13, pp. 675−685, 1969.
  27. L. R, Bahl and F. Jelinek, .'Decoding for channels with insertions, deletions, and substitutions with applications to speech recognition,“ IEEE Trans. Informat, Theory, vol. IT-21, pp, 404−411.1975.
  28. F. Jelinek, L. R, Bahl, and R. L. Mercer, ."Design of a linguistic statistical decoder for the recognition of continuos speech,» IEEE Trans. Informat. Theory, vol, IT -il, pp. 250−256,1975.
  29. F. Jelinek, «Continuous speech recognition by statistical methods,» Proc. IEEE, vol. 64, pp, 532−536, Apr. 1975
  30. R. Bakis, «Continuous speech word recognition via centi-second acoustic states,» in Proc, ASA. Meeting (Washington DC), Apr. 1576.
  31. F. Jelinek, L. R. Bahl, and R, L, Mercer, «Continuous speech recognition: Statistical methods,» in Handbook of Statistics, II, P, R. Krishnaiad, Ed. Amsterdam, The Netherlands: North-Holland, 1982.
  32. L. R. Bahl, F. Jelinek, and R. L. Mercer, «A maximum likelihood approach to continuous speech recognition,» IEP2E Trans. Pattern Anal. Machine Intel., vol, PAMI-5, pp. 179−190, 1983.
  33. S. E. Levinson, L. R. Rabiner, and M. M. Sondhi, «An introduction to the application of the theory of probabilistic functions of a Markov process to automatic speech recognition,» Bell Syst. Tech, J., vol. 62, no.4, pp. 1035−1074, Apr, 1983,
  34. B. H. Juang, «On the hidden Markov model and dynamic time warping for speech recognition A unified view.» AT&T Tech J., vol. 63, no.7, pp.1213−1243, Sept. 1984.
  35. L. R. Rabiner and B. H. Juang, «An introduction to hidden Markov models,» IEEE ASSP Mag., vol, 3. no. 1, pp. 4−16,1986.
  36. J. S. Bridle, «Stochastic models and template matching: Someimportant relationships between two apparently different techniques for automatic speech recognition,», in Proc. Inst, of Acoustics, Autum Conf., pp. 1−8, Nov. 1984.
  37. J. Makhoul, S. Roucos. and H. Gish, «Vector quantization in speech coding,» Proc. IEEE, vol. 73, no. 11, pp. 1351−1588, Nov. 1985,
  38. S. E. Levinson, «Structural methods in automatic speech recognition,» Proc. IEEE, vol, 73, no. 11, pp.1625−1650. Nov 1985.
  39. A. W. Drake, «Discrete state Markov proceses.» Chapter 5 in Fundamentals of Applied Probability Theory. New York, NY: McGrav-Hill, 1967.
  40. A. J. Viterbi, «Error bounds for convolutional codes and an asymptotically opiimal decoding algorithm,» IEEE Trans. Informat. Theory, vol. IT-13, pp. 260−269, Apr. 1967.
  41. C. O. Forney, «The Viterbi algorithm,» Proc. IEEE, vol. 61, pp. 268−278, Mar, 1973,
  42. A. P. Dempster, N. M. Lajrd, and O. B. Rubin. «Maximum likelihood from incomplete data via the EM algorithm,» J. Roy,. Stat. Soc., vol. 39, no. 1, pp. 1−38, 1977.
  43. L. A. Liporace, «Minimum likelihood estimation for multivariate observations on Markov sources,» IEEE Trans. Informat. Theory, vol. IT -28, no. 5, pp. 729−734,
  44. B. H. Juang, «Maximum likelihood estimation for mixture multivariate stochastic observations of Markov chains,» AT&T Tech. J., vol. 64. no 6, pp. 1235−1249, July -Aug. 1985.
  45. B. H. Juang, S. E. Levinson, and M. M. Sondhi, «Maximum likelihood estimation for multivariate mixture observations of Markov chains.» IEEE Trans. Informat. Theory, vol. IT-32. no. 2, pp. 307−309, Mar. 1986.
  46. A. B. Poritz, «Linear predictive hidden Markov models and the speech signal,» in Proc. ICASSP '82 (Paris, France), pp. 1291−1294, May 1982.
  47. B. H. Juang and L. R. Rabiner, «Mixture autoregressive hidden Markov models for speech signals,» IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-33, no. 6, pp. 1404−1413, Dec.1985.
  48. M. J Russell and R. K. Moore, «Explicit modeling of state occupancy in hidden Markov models for automatic speech recognition,» in Proc. ICASSP '85 (Tampa, FL), pp. 5−8, Mar. 1985.
  49. S. E. Levinson, «Continuously variable duration hidden Markov models for automatic speech recognition,» Computer. Speech ana Language, vol. 1, no. 1, pp. 29−45. Mar 1986.
  50. B Lowerre and R. Reddy, «The HARPY speech understanding system,» in Trends in Speech Recognition, W. Lea, Editor. Englewood Cliffs, NJ: Prentice-Hall, 1980, pp. 340−346.
  51. L. R. Bahl, P. F. Brown, P. V. de Souza, and R. L. Mercer, «Maximum mutual information estimation of hidden Markov model parameters for speech recognition,» in Proc. ICASSP '86 (Tokyo, Japan), pp. 49−52, Apr. 1986.
  52. Y. Ephraim, A. Dembo, and L. R. Rabiner, «A minimum discrimination information approach for hidden Markov modeling,» in Proc. ICASSP '87 (Dallas, TX), Apr. 1987.
  53. B. H. Juang and L. R. Rabiner, «A probabilistic distance measure for hidden Markov models,» AT&T Tech. J., vol. 64, no.2, pp. 391−408, Feb, 1985,
  54. L. R. Rabiner, B. H. Juang, S, L. Levinson, and M. M. Sondhi, «Some properties of continuous hidden Markov model representations,» AT&T Tech. J., vol. 64, no.6, pp. 1251−1270, July-Aug. 1985.
  55. F. Jelinek and R. L. Mercer, «Interpolated estimation of Markov source parameters from sparse data,» in Pattern Recognition in Practice, E. S. Gelesma and L. N. Kanal, Eds, Amsterdam, The Netherlands: North-Holland, 1980, pp. 381−397.
  56. R. Schwartz et al., «Context-dependent modeling for acoustic-phonetic recognition of continuous speech,» in Conf. Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, pp. 1205−1208, Apr. 1985.
  57. K. F. Lee and H. W. Hon, «Large-vocabulary speaker-independent continuous speech recognition,» in Conf. Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, pp. 123−126, Apr. 1988.
  58. A. B. Poritz and A. G. Richter, «Isolated word recognition,» in Proc. ICASSP '86 (Tokyo. Japan), pp, 705−708, Apr. 1986.
  59. R. P. Lippmann, E. A. Martin, and O. B. Paul, «Muliistyle training for robust isolated word speech recognition,» in Proc. ICASSP '87 (Dallas, TX), pp, 705−708, Apr. 1987,
  60. O. B. Paul, «A speaker stress resistant HMM isolated word recognizer ,» in Proc. ICASSP '87(Dallas, TX), pp. 713−716, Apr. 1987.
  61. V. N. Gupta, M. Lcrmig and P. Mermelstein, «Integration of acoustic information in a large vocabulary word recognizer ,» in Conf. Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, pp. 697−700, Apr. 1987.
  62. S. F Levinson, «Continuous speech recognition by means of acoustic-phonetic classification obtained from a hidden Markov model,» in Proc. ICASSP '87 (Dallas TX), Apr. 1987.
  63. J. G. Wilpon, L. R. Rabiner and T. Martin, «An improved word detection algorithm for telephone quality speech incorporating both syntactic and semantic constraints.» AT&T Bell Labs Tech. J., vol. 63, no.3, pp. 479−498, Mar. 1984.
  64. J. G. Wilpon and L. R. Rabiner, «Application of hidden Markov models to automatic speech endpoint detection,» Computer Speech and Language, vol. 2, no. ¾, pp. 321 341, Sept./Dec. 1987.
  65. A. Averbuch et al., «Experiments with the TANGORA 20,000 word speech recognizer ,» in Conf. Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, pp. 701−704, Apr. 1987.
  66. B. S. Atal and S. L. Hanauer, «Speech analysis and synthesis by linear prediction of the speech wave,» J. Acoust. Soc. Am., vol. 50, pp. 637−655, 1971.
  67. F. I. Itakura and S. Sailo, «Analysis-synthesis telephony based upon the maximum likelihood method,» in Proc. 6th Int. Congress on Acoustics (Tokyo, Japan), pp. CI 720, 1968.
  68. J. Makhoul, «Linear prediction: A tutorial review,»roc. IEEE, vol. 63, pp. 561−580, 1975.
  69. J. O. Markel and A. H. Gray, Jr., Linear Prediction of Speech. New York, NY: Springer-Verlag, 1976.
  70. Y. Tokhura, «A weighted cepstra. distance measure for speech recognition,'' IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-35, no. 10, pp. 1414−1422, Oct. 1987.
  71. B. H. Juang L. R. Rabiner, and J.G. Wilpon, „On the use of bandpass liftering in speech recognition,“ IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-35, no. 7, pp. 947−954. July 1987.
  72. S. Furui, „Speaker independent isolated word recognition based on dynamics emphasized cepstrum,“ Trans. IECE of Japan, vol, 69, no. 12, pp. 1310−1317, Dec. 1986.
  73. F. K. Soong and A. E, Rosenberg, „On the use of instantaneous and transitional spectral information in speaker recognition,“ in Proc. ICASSP '86 (Tokyo, Japan), pp. 877−880, Apr. 1986.
  74. L. R. Rabiner, J. G. Wilpon, and B. H. Juang, „A segmental k-means training procedure for connected word recognition,“ AT&T Tech. J., vol. 65, no. 3, pp. 21−31, May-June 1986.
  75. L. P. Rabiner and S. E. Levinson, „A speaker-indpendent, syntax-directed, connected word recognition system based on hidden Markov models and level building,“ IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-33, no. 3, pp. 561−573, June 1985.
  76. L. R. Rabiner, J. G. Wilpon, and B. H. Juang, „A model-based connected digit recognition system using either hidden Markov models on templates,“ Computer, Speech, and Language, vol. 1, no.2, pp. 167−197, Dec. 1986.
  77. H. Bourlard, Y. Kamp, H. Ney, and C. J. Wellekens, „Speaker-dependent connected speech recognition via dynamic programming and statistical methods,“ in Speech and Speaker Recognition, M. R. Schroeder, Ed. Basel, Switzerland: Karger, 1985, pp.115 148,
  78. C. J. Wellekens, „Global connected digit recognition using Baum-Welch algorithm,“ in Proc. ICASSP '86 (Tokyo, Japan), pp, 1081−1084, Apr. 1986.
  79. A. M. Derouault, „Context dependent phonetic Markov models for large vocabulary-speech recognition.“ in Proc. ICASSP '87 (Dallas, FX), Paper 10.1.1. pp. 360−363, Apr. 1987.
  80. B. Merialdo, „Speech recognition with very large size dictionary,“ in Proc, ICASSP '87 (Dallas, TX), Paper 10.2.2., pp, 364−367, Apr. 1987.
  81. Y. L. Chow et a!., „BYBLOS: The BBN continuous speech recognition system,“ in Proc. ICASSP '87(Dallas, TXj, Paper 3.7.1, pp 89−92, Apr. 1987,1. Оглавление1. Оглавление1. Назначение программы
  82. Структура и функционирование программы
  83. Назначение модулей программы1. VCL.1. АЦП1. Таксоном1. DSP1. Настройка системы1. Настройка параметров АЦП
  84. Настройка параметров Таксонома
  85. Настройка системы предобработки
  86. Настройка системы обучеаия
  87. Порядок работы с программой1. Сохранение настроек1. Загрузка настроек1. Диктовка слов1. Чтение WAV-файла
  88. Сохранение файлов в форматах WAV, FFT, CPS1. Создание новой модели1. Сохранение словаря1. Загрузке словаре1. Назначение программы
  89. Основной задачей SDIAPP является получение стартовых параметров Скрытых Марковских Моделей (НММ) для изолированных слов. Такие модели в последствии можно обучать с помощью известных алгоритмов обучения, например, таких как Baum-Welch алгоритм.
  90. Программ» сохраняет полученные ею модели в виде форматированных текстовых файлов, которые затем могут быть использованы в качестве исходных дачных для других систем анализа и распознавания речи.
  91. Каждому треду соответствует одно или несколько диалоговых окон, через которые осуществляется управление алгоритмами, которые реализует тред, и так же через эти окна производится отображение результатов работы.
  92. Назначение модулей программы1. VCL
  93. В обязанности этого модуля-треда входит: управление драйвером звуковой карты реакция на прерывания со стороны звуковой карты, формирование заданного потока фреймов из данных поступающих от звуковой карты, отображение параметров текущего сигнала.
  94. В диалоге управления этим тредом можно задать частоту дискретизации и разрядность оцифровки сигнала с микрофона. Здесь же задаются параметры формируемого потока фреймов.
  95. Формируемый поток фреймов снабжается дополнительными параметрами сигнала, необходимыми для таксономического деления речи. К эти параметрам относится энергия сигнала и параметр ZCR (количество пересечений сигналом нуля).
  96. Так же в диалоговом окне этого модуля отображается текущее значение параметров входного сигнала, что позволяет настраивать систему на оптимальную работу с данной звуковой подсистемой компьютера.1. Таксоном
  97. Модуль таксономии речи занимается вычленением изолированных слов из непрерывного потока данных, поступающего от АЦП, и помещает эти слова в буфер речевых единиц. Так же через диалог этого модуля осуществляется управление этим буфером.
  98. По сути, это центр управления основными функциями системы. Отсюда речевые единицы отправляются на предобработку, на обучение и распознавание. Отсюда слова передаются в простейший редактор, встроенный в SDIAPP.1. DSP
  99. Это «главный вычислительный центр». Этот модуль производит все трудоемкие вычисления, те, которые в аппаратных системах обычно выполняет цифровой сигнальный процессор.
  100. Этот модуль обслуживается несколькими диалоговыми окнами, такими как: DSP, Обучение, Распознавание и Словарь.
  101. Поскольку со словарем моделей может работать только модуль DSP, то все обязанности по ведения словаря возложены на этот модуль, и словарь располагается в области данных именно этого треда.
  102. Сформированные модулем НММ помещаются в словарь моделей, а все остальные результаты либо записываются в файл, либо выводятся в окно Результаты.1. Настройка системы
  103. На рис. 2 показан внешний вид диалога управления тредом АЦП.-• Величина отсчета • • 5 г 8 бит на отсчет 16 бит на отсчет
  104. Частота оцифровки ! Г 8000 I г 11 025 | С" 22 050 ! С 44 100 256 130
  105. Длина фрейма Амплитуда фонового шумаш1. Уровеньяр Перекры в ать фреймы Текущее состояниет
  106. Частота: 22 050Гц, Бит на отсчет: 161. Размер фреймов:256 : — Фреймы пересекаются1. Энергиягеи1. Амплитуда5120 39 951. Установить1. Установить по умолчанию1. Start1. Рис.2
  107. Текущие динамические параметры представлены правее и отображают параметры оцифровываемого в данный момент, сигнала. Эти параметры носят информационный характер и очень важны для правильной настройки таксонома.
  108. Поля Величина отсчета и Частота оцифровки задают параметры оцифровки сигнала, поступающего с микрофона. Их изменение вступает в силу после нажатия кнопки Установить.
  109. Чаще в системах распознавания речи применяются именно перекрывающиеся фреймы.
  110. Чтобы правильно установить значение амплитуды фонового шума, нужно во время, когда в микрофон никто не говорит, заметить величину динамического параметра Амплитуда и установить несколько1. Рис.4
  111. Как и для АЦП, все изменения параметров Таксопома начинают действовать только после нажатия кнопки Установить.
  112. Используемый здесь алгоритм вычленения изолированных слов из непрерывного потока фреймов, поступающих от АЦП, является одной из вариаций алгоритма, предложенного Рабинером (Р1аЬтег).
  113. Границы начала и конца слова определяются Таксономом на основе сравнения параметров Энергия и ZCR, которые вычисляются модулем АЦП для каждого фрейма с некоторыми пороговыми значениями.
  114. Правильная настройка величины порогов осуществляется на основе анализа параметров фонового шума. Их можно наблюдать на диалоговом окне АЦП.
  115. Каждый из двух порогов определяется двумя параметрами. Порог считается превышенным, если превышен один из параметров. Алгоритм проиллюстрирован на рис. 51. Энергия ZCR
  116. П°Р.°Г нача л, а сл ов, а Подог конца слова
  117. Допустимое время молчания Длина слова1. Рис.5
  118. Следует заметить, что величина пороговых значений сильно зависит от условий оцифровки, от микрофона, от звуковой карты, а ограничения по длительности постоянны для всех систем, и их можно оставлять неизменными.
  119. Настройка системы предобработки
  120. Фурье-преобразование данных фрейма
  121. Фильтрация несколькими треугольными фильтрами
  122. Вычисление логарифма энергии спектра на выходе каждого фильтра
  123. Косинусное преобразование над данными, полученными на 3 ем шаге алгоритма
  124. Результаты 4-го шага алгоритма и являются кепстральными коэффициентами.
  125. На рис. 6 представлен внешний вид диалога управления, на котором задаются параметры алгоритма кепстрального анализа. idsp ез1. Windowing^Ceplrumj|г Cepstrum. .jl 2 ЧИСЛО КОЭфИЦИеНТОВ f/ произьодить FFT
  126. F произ е. одить нормализацию8 порядок FFT = гч, а 1 w добавить Delta- Filtering.-.-.- .—.—.-------------------------------------------------|20 число фильтров60 частота начала диапазона ?4000 частота конца диапазона
  127. Г" производить линейное шкалирование -|о число линейно расположенных фильтрово конечная частота диапазона линейного шкалирования.
  128. Установить ' 5§|' я Установить по умолчанию J1. Рис.6
  129. Если выбран пункт производить нормализацию, то вычисленные коэффициенты будут нормализованы.
  130. Система обучения, встроенная в БЭГАРР имеет два различных алгоритма оценки стартовых параметров НММ. Внешний вид диалога настройки системы обучения представлен на рис.8
  131. Ц| Параметры системы обучения
  132. С Равновеликое деление слов начастей1. Кластеризация
  133. Минимальное количество фреймов в кластере |3максимальное количество фреймов в кластере |13
  134. Во,>муш?ние плохообуслселеной матрицы ковариации0.11. Рис.8
  135. Выбор того или иного алгоритма осуществляется путем выбора соответствующей радио-ккопки.
  136. Порядок работы с программой
  137. Для сохранения текущих настроек программы в меню главного окна программы выберите РНе→8ауе.,
  138. Для загрузки ранее сохраненных настроек г-истемы в меню главного окна программы выберите РПе→Ореп.1. Диктовка слов
  139. Настройте параметры АЦП так, чтобы в тот момент, когда вмикрофон ничего не произносится, динамический параметр ZCR,
  140. Переместите курсор мыши на поле Буфер и нажмите правую кнопку мыши. Появится всплывающее меню. Рис. 10.
  141. Предварительное таксономическое деление• Таксоном Буфер j1. Написание слова (сек.) Гнет> 0.17 |1. Распознавание Обучение 1. Прослушать Редактировать
  142. Сохранить как FFT ч Сохранить как CPS ¦ Сохранить как WAV1. Загрузить WAV 1. Удалить j 1. Удалить ВСЕ1. Максимальное32 количествослов в буфере1. Пометить ВСЕ
  143. Сразу Г отправлять слова на распознавание1. Рис.10
  144. Выберите пункт Загрузить WAV.
  145. После загрузки файла новая запись появится в буфере речевых единиц.
  146. Сохранение файлов в форматах WAV, FFT, CPS
  147. Откройте окно Тяксоном и затем закладку Буфер
  148. Курсором мыши выделите ту речевую единицу, которую вы собираетесь сохранить.
  149. Переместите курсор мыши на поле Буфер и нажмите правую кнопку мыши. Появится всплывающее меню. Рис. 10.
  150. Выберите нужный пункт меню.
  151. Следует заметить, что написание слова используется как часть имени файла, поэтому в написании слова не должно быть символов, неприемлемых для имен файлов.
  152. Убедитесь, что он не пуст. (В списке должны присутствовать записи.)3. Нажмите кнопку Сохранить.
  153. Загружаемые слова добавляются к уже имеющимся в словаре, поэтому при необходимости словарь нужно очистить, для чего правой кнопкой мыши щелкните на окне Словарь и выберите пункт меню Удалить все.
Заполнить форму текущей работой