Помощь в написании студенческих работ
Антистрессовый сервис

Спектральный анализ речевого сигнала

РефератПомощь в написанииУзнать стоимостьмоей работы

Для преодоления этих трудностей, как указывалось выше, дискретный случайный процесс оцифрованного речевого сигнала считается стационарным на интервале порядка 10 мс, так как параметры голосового тракта на этом интервале значительно не изменяются. Это обоснованный экспериментально временной интервал. Временная форма представления сигнала, т. е. изменения сигнала в зависимости от времени, позволяет… Читать ещё >

Спектральный анализ речевого сигнала (реферат, курсовая, диплом, контрольная)

В системах обработки аналоговый речевой сигнал поступает на вход микрофона, с выхода которого снимается электрический сигнал. Далее сигнал подвергается дискретизации по времени и квантованию по амплитуде.

В процессе квантования возникают искажения (ошибки квантования), которые, в сущности, означают потерю информации.

Квантование сигнала.

Рис. 2.1. Квантование сигнала

Исходная информация представлена в виде зависимости амплитуды от времени (обычно это .wav файлы).

Полученная последовательность цифровых данных в дальнейшем подвергается обработке, с целью определения частотного диапазона и других характеристик сигнала, на основе которых его можно воспроизвести. Поскольку сигнал обычно зашумлен, простейшим способом удаления шума является обнуление тех значений сигнала, которые меньше некоторого порогового значения.

Временная форма представления сигнала, т. е. изменения сигнала в зависимости от времени, позволяет определить амплитуду, энергию, мощность и длительность. Модели сигналов в виде функции времени используются для анализа формы сигналов. Сложные сигналы можно представить в виде системы базисных функций.

(2.1).

(2.1).

где — интервал существования сигнала.

Спектральный анализ речевого сигнала.
Спектральный анализ речевого сигнала.

При выбранном наборе базисных функций сигнал f (t) полностью определяется совокупностью безразмерных коэффициентов. Такие совокупности чисел называют дискретными спектрами сигналов. Базисная функция, где используется в преобразовании Фурье.

Кроме временных характеристик сигнала важны и его частотные свойства. Для их исследования используются частотные представления функции в виде спектра. Спектральное представление сигнала — разложение его на конечную или бесконечную сумму гармонических сигналов. Знание частотных свойств сигнала позволяет решать задачи идентификации сигнала (определение его наиболее информативных параметров), фильтрации (выделение полезного сигнала на фоне помех), выбора частоты дискретизации непрерывного сигнала, так как этот параметр является определяющим для аппаратуры обработки.

Совокупность синусоидальных составляющих сложного звука, заданных с помощью амплитуд и частот этих составляющих представляют акустический спектр. Для спектрального анализа сигнала используется дискретное преобразование Фурье (ДПФ) и быстрое преобразование Фурье (БПФ), которое представляет процедуру ускоренного ДПФ.

Рассмотрим конечный ряд дискретных сигналов f (mT) при m = 0,1,2,…, M-1.

Функция F (K), определяемая по формуле (2.2) называется дискретным преобразованием Фурье для f (mT).

(2.2).

Спектральный анализ речевого сигнала.

где К = 0,1,2,…, M-1, а — комплексная функция с мнимой единицей.

Спектральный анализ речевого сигнала.

Если найдено ДПФ, то можно восстановить исходный сигнал (обратное преобразование Фурье) по дискретным значениям сигнала.

Согласно теореме Котельникова, произвольный сигнал, спектр которого не содержит частот выше Fв Гц, может быть полностью восстановлен, если известны отсчётные значения этого сигнала, взятые через равные промежутки времени 1/(2· Fв) с.

Обратное преобразование Фурье определяется по формуле.

(2.3).

Спектральный анализ речевого сигнала.

где m = 0,1,2,…, M-1.

Реальный речевой сигнал имеет конечную длительность, при представлении в частотной области его спектр неограничен. Поэтому сигнал сегментируют на участки порядка 10 мс, на которых он считается стационарным.

Один из вариантов предварительной обработки речевого сигнала приведен на рис. 2.2.

Предварительная обработка речевого сигнала.

Рис. 2.2. Предварительная обработка речевого сигнала

Взвешивание сигнала весовой функцией окна Хэмминга (рис. 2.3) уменьшает спектральные искажения сигнала из-за граничных условий. Применение временного окна целесообразно для интервалов превышающих 15 мс или включающих несколько периодов основного тона.

Значение взвешивающей функции задается формулой:

(2.4).

Спектральный анализ речевого сигнала.

Информативность различных частей спектра неодинакова: в низкочастотной области содержится больше информации, чем в высокочастотной. Поэтому сжимают высокочастотную область спектра в пространстве частот. Наиболее распространенный метод благодаря его простоте — логарифмическое сжатие, или mel-сжатие.

(2.5).

где f — частота в спектре, Гц; m — частота в новом сжатом частотном пространстве.

Фурье - преобразование речевого сигнала с использованием окна Хэмминга (Hamming).

Рис. 2.3. Фурье — преобразование речевого сигнала с использованием окна Хэмминга (Hamming)

Образцы сегментов речевых сигналов приведены на рис. 2.4.

Сегменты речевых сигналов.
Рис. 2.2.4. Сегменты речевых сигналов: а) сегмент выделен с использованием окна Hamming б) сегмент гласной.

Рис. 2.2.4. Сегменты речевых сигналов: а) сегмент выделен с использованием окна Hamming б) сегмент гласной

На рис. 2.5 показан результат частотного анализа 16-битного речевого сигнала с частотой дискретизации 11 025 Гц, выполненный в окне анализа Analyze — Frequency Analysis звукового редактора Cool Edit. Подобный спектр колебаний воздуха формируется голосовыми связками и источником звука в ротовой полости путем избирательного резонанса, возникающего при передаче звука по речевому тракту.

Речевой тракт образуют гортань, ротовая полость, язык, носовая полость и т. д. Редактор позволяет записывать и проигрывать файлы в разных аудио-форматах, редактировать, конвертировать и смешивать звуковые файлы, генерировать шум и различные тона, выполнять частотный анализ и др.

Окно спектрального анализа.

Рис. 2.2.5. Окно спектрального анализа: Fш — частота шума, Fо — частота основного тона, 2F0−5F0 — обертоны, 3F0, F1-F3 — формантные частоты

Речевой сигнал имеет ряд особенностей, которые необходимо учитывать:

  • — свойства сигнала не постоянны на выбранном для анализа отрезке длиной в слово, это нестационарный случайный процесс,
  • — сложность формы сигнала (речь напоминает скорее шум, чем регулярный сигнал).

Для преодоления этих трудностей, как указывалось выше, дискретный случайный процесс оцифрованного речевого сигнала считается стационарным на интервале порядка 10 мс, так как параметры голосового тракта на этом интервале значительно не изменяются. Это обоснованный экспериментально временной интервал.

Основная задача обработки сигнала состоит в вычислении по входному сигналу совокупности параметров (признаков), которые содержат информацию о сигнале, используемую при синтезе и распознавании.

Обычно определяют следующие параметры сигнала:

частоту основного тона для формирования траектории периода основного тона;

кратковременную энергию для синтеза траектории кратковременной энергии;

коэффициенты линейного предсказания (КЛП) для построения траектории передаточной функции речеобразующего тракта;

формантные частоты для воспроизведения траектории формантных частот.

Форманты — максимумы распределения энергии звукового сигнала в координатах амплитуда, частота, время. Для получения хорошего качества сигнала достаточно задать параметры нескольких старших формант основного тона. Когда нужно достичь высокого качества, применяются некоторые из перечисленных параметров или их комбинации. Проблема отделения речи от шума довольно сложна, т.к. при произнесении некоторых согласных («ф», «п», «т» и др.) энергия речевого сигнала практически равна энергии шума.

Блок обработки сигнала.

Рис. 2.6. Блок обработки сигнала

Один из алгоритмов выделения фразы (предложен Л. Рабинером) основан на измерении двух простых характеристик — энергии и числа переходов через нуль. При подсчёте среднего значения энергии используется окно в 10 мс (примерно 110 отсчётов), в котором суммируются квадраты отсчётов (рис. 2.7).

Предполагается, что первые 50 мс сигнал не содержат речевого сигнала.

Выделение фразы.

Рис. 2.7. Выделение фразы

Максимумы энергии в спектре фонемы .

Рис. 2.8. Максимумы энергии в спектре фонемы «Р» в слове РОК

В пределах выбранного временного сегмента, вычисляется среднее значение энергии шума Eшума и порог P, который берется равным удвоенной энергии шума. При дальнейшей обработке, если среднее значение энергии превысило порог, то фиксируется момент записи речевого сигнала (начало фразы), который запоминается. Если среднее значение энергии станет меньше порога, то запоминается конец фразы. На рис. 2.8−2.11 приведены графики изменения энергии сигнала для фонем «Р», «Л» в зависимости от гласного звука, следующего за ними.

Максимумы энергии в спектре фонемы .

Рис. 2.9. Максимумы энергии в спектре фонемы «Л» в слове ЛОК

Рис. 2.10. Максимумы энергии в спектре фонемы «Р» в слове РЁВ

Максимумы энергии в спектре фонемы .
Рис. 2.11. Максимумы энергии в спектре фонемы

Рис. 2.11. Максимумы энергии в спектре фонемы «Л» в слоге ЛЁВ

Образцы сигналов и их спектрограмм приведены на рис. 2.12.

Сигналы и их спектрограммы.

Рис. 2.12. Сигналы и их спектрограммы

Частота основного тона, энергия и длительность обеспечивают формирование просодических характеристик речи.

Визуализация параметров сигнала в координатах амплитуда, частота, время приведена на рис. 2.13.

Рис. 2.13. Сигнал в координатах частота-амплитуда-время

Показать весь текст
Заполнить форму текущей работой