Помощь в написании студенческих работ
Антистрессовый сервис

Математические методы описания речевых сигналов (корреляционные и спектральные характеристики, функция распределения, пик-фактор)

КурсоваяПомощь в написанииУзнать стоимостьмоей работы

Гармоническая математическая модель речевого сигнала, использующая для представления сигнала синусоиды кратной частоты (оставшаяся часть сигнала, которая не может быть описана при помощи данной модели, называется шумовой). Представление сигнала в форме гармоники плюс шум эффективно используется во многих речевых приложениях. Следует отметить, что от разделения математической модели речевого… Читать ещё >

Математические методы описания речевых сигналов (корреляционные и спектральные характеристики, функция распределения, пик-фактор) (реферат, курсовая, диплом, контрольная)

Федеральное агентство по образованию Федеральное государственное бюджетное образовательное учреждение Башкирский государственный университет Физико-технический институт Кафедра радиофизики и связи Курсовая работа по Общей теории связи Математические методы описания речевых сигналов (корреляционные и спектральные характеристики, функция распределения, пик-фактор) Выполнил студент 3 курса группы ИТСС Вагапов Вадим Фанзилевич Проверил доктор физ.-мат. наук, проф. Гоц С.С.

Введение

Глава 1. Современные подходы к математическим методам описания речевых сигналов

Глава 2. Экспериментальная часть

Заключение

Список литературы

Введение

В настоящее время аутентификация личности по голосу широко применяется в системах контроля доступа к информационным или материальным ресурсам на основе биометрических параметров. Системы аутентификации личности по голосу обладают рядом преимуществ относительно других биометрических систем, основными из которых являются сравнительно небольшая стоимость и относительная простота практической реализации.

Развитие систем аутентификации личности по голосу лимитируется уровнем их надежности. Точность идентификации (установление) и верификации (подтверждение) личности по голосу в существенной мере определяется адекватностью математической модели, описывающей речевой сигнал. Увеличение точности в рамках существующих методов описания речевых сигналов, если и возможно, то приводит, как правило, к значительному увеличению количества параметров модели, что влечет за собой увеличение систематической ошибки и времени обработки поступивших данных, а также снижение значимости таких параметров для характеристики индивидуальных особенностей голоса человека. Высокий уровень ошибок систем аутентификации по голосу обуславливается также трансформацией голоса, вследствие болезней, особых эмоциональных состояний, возрастных изменений и т. д.

Обоснованию подходов к разработке математических моделей речевых сигналов посвящено сравнительно немного научных публикаций. Это объясняется, прежде всего, сложной полиинформативной и полимодуляционной структурой речевого сигнала, а также большим количеством информации, используемой при анализе и синтезе математических моделей речевых сигналов. Однако, сегодня прогресс микроэлектроники наряду с применением цифровых технологий преобразования речевых сигналов дает возможность оперировать большими объёмами информации, обрабатывая её с приемлемой скоростью. При этом зачастую цифровые речевые технологии опережают речевую науку.

Наибольшую точность описания имеют математические модели, соответствующие физике процессов, поэтому при разработке математической модели речевого сигнала необходима её адекватность акустической теории речеобразования. Таким образом, повышение надежности проектируемых систем аутентификации возможно за счет разработки и использования новых методов построения адекватных математических моделей речевых сигналов.

Объект работы — речевые сигналы.

Предмет работы — математические методы описания речевых сигналов.

Цель работы — исследование математических методов описания речевых сигналов. Цель работы определяет задачи исследования:

рассмотреть современные подходы к математическим методам описания речевых сигналов;

провести эксперимент.

Работа состоит из введения, 2 глав, заключения и списка литературы.

Глава 1. Современные подходы к математическим методам описания речевых сигналов В современных системах безопасности и информационных системах можно выделить две важные научно-практические задачи — идентификация и верификация личности. При верификации (подтверждении) личности человека требуется установить его соответствие данному эталону, приняв одно их двух решений: заявитель является тем, за кого он себя выдает, или не является. При идентификации (установлении) личности человека необходимо выбрать из имеющейся базы данных эталонов тот эталон, на который заявитель максимально похож, при этом нужно принять решение: заявитель наиболее похож на конкретную персону (чей эталон находится в базе данных) или заявитель не соответствует ни одной из персон (имеющихся в базе данных).

В последнее время все более часто находят применение биометрические системы аутентификации (верификации и идентификации) личности [1], принцип работы которых основывается на анализе различных персональных физиологических характеристик людей, таких как форма и размеры руки, отпечаток пальца, голос, параметры зрачка и сетчатки глаза, форма и размеры лица и т. д. Одним из перспективных способов аутентификации личности является подтверждение или установление личности по голосу на основе речевого сигнала человека.

Распознавание и порождение (синтез) речи компьютером является, безусловно, важной проблемой. Десятилетиями ученые и инженеры искали способы, которые позволили бы людям общаться с компьютером так же, как они общаются между собой, а не заставляли человека подстраиваться под способ общения, приемлемый для машины. Много было сделано, но, пожалуй, и на сегодняшний день можно считать, что вопрос далеко не закрыт, хотя именно в последнее время были достигнуты значительные успехи: уже многие годы голосовые команды являются одной из возможных опций программного обеспечения персональных компьютеров, появление функций распознавания речи уже обычное дело в ряде текстовых процессоров, системы распознавания речи работают там, где требуется оказание справочных услуг и в системах безопасности.

Вопросы цифровой обработки сигналов, отдельные области математической статистики, искусственного интеллекта (теории нейронных сетей), связанные с разработкой движков и приложений распознавания и порождения речи.

Вопросы обработки речи являются, главным образом, частью дисциплин, именуемых цифровой обработкой сигналов и распознаванием образов.

Методы цифровой обработки сигналов обычно осуществляют преобразование, очистку и трансформацию звукового сигнала в цифровой формат данных и другие представления, которые могут непосредственно обрабатываться системой распознавания речи. Эти задачи включают также фильтрацию шумовых сигналов, которые примешиваются к звуку при передаче акустических сигналов от воспринимающих устройств (микрофонов) или по сети. Методы же распознавания образов используют при выделении и распознавании отдельных слов или предложений речевого потока или в некоторых случаях для идентификации говорящего.

Кроме того, системы распознавания и синтеза речи затрагивают вопросы лингвистики, в которой заложены фундаментальные концепции и принципы распознавания речи и понимания языка.

Синтез устной речи — это преобразование заранее не известной текстовой информации в речь. Речевой вывод информации — это реализация речевого интерфейс, для упрощения использования системы. Фактически, благодаря синтезу речи предоставляется еще один канал передачи данных от компьютера, мобильного телефона к человеку, аналогично монитору.

Технология синтеза устной речи нашла широкое применение для людей, имеющих проблемы со зрением. Для всех остальных она создает новое измерение удобства пользования техникой и значительно снижает нагрузку на зрение, на нервную систему, позволяет задействовать слуховую память.

Любой текст состоит из слов, разделенных пробелами и знаками препинания. Произнесение слов зависит от их расположения в предложении, а интонация фразы — от знаков препинания. Наконец, произнесение зависит и от смысла слова! Соответственно, для того чтобы синтезированная речь звучала натурально, необходимо решить целый комплекс задач, связанных как с обеспечением естественности голоса на уровне плавности звучания и интонации, так и с правильной расстановкой ударений, расшифровкой сокращений, чисел, аббревиатур и специальных знаков с учетом особенностей грамматики русского языка.

Существует несколько подходов к решению поставленных задач:

системы аллофонного синтеза — обеспечивают стабильное, но недостаточно естественное, роботизированное звучание;

системы, основанные на подходе Unit Selection — обеспечивают гораздо более естественное звучание, однако могут содержать фрагменты речи с резкими провалами качества, вплоть до потери разборчивости;

гибридная технология, основанная на подходе Unit Selection и дополненная единицами аллофонного синтеза.

На основе этой технологии была создана система VitalVoice, которая обеспечивает стабильное и естественное звучание на акустическом уровне.

Речевое общение является естественным и удобным для человека. Задача распознавания речи состоит в том, что бы убрать посредника в общении человека и компьютера. Управление машиной голосом в реальном времени, а также ввод информации посредством человеческой речи намного упростит жизнь современного человека. Научить машину понимать без посредника тот язык, на котором говорят между собой люди — задачи распознавания речи.

Ученые и инженеры уже много лет решают проблему речевого общения человека и машины. Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры. Коммерческие программы по распознаванию речи появились в начале девяностых годов.

Все системы распознавания речи можно разделить на два класса:

1) Системы, зависимые от диктора — настраиваются на речь диктора в процессе обучения. Для работы с другим диктором такие системы требуют полной перенастройки.

2) Системы, не зависимые от диктора — работа которых не зависит от диктора. Такие системы не требуют предварительного обучения и способны распознавать речь любого диктора.

Изначально на рынке появились системы первого вида. В них звуковой образ команды хранился в виде целостного эталона. Для сравнения неизвестного произнесения и эталона команды использовались методы динамического программирования. Эти системы хорошо работали при распознавании небольших наборов из 10−30 команд и понимали только одного диктора. Для работы с другим диктором эти системы требовали полной перенастройки.

Для того чтобы понимать слитную речь, необходимо было перейти к словарям гораздо больших размеров, от нескольких десятков до сотен тысяч слов. Методы, использовавшиеся в системах первого вида, не подходили для решения этой задачи, так как просто невозможно создать эталоны для такого количества слов.

Кроме этого, существовало желание сделать систему, не зависящую от диктора. Это весьма сложная задача, поскольку у каждого человека индивидуальная манера произнесения: темп речи, тембр голоса, особенности произношения. Такие различия называются вариативностью речи. Чтобы ее учесть, были предложены новые статистические методы, опирающиеся в основном на математические аппараты Скрытых Марковских Моделей (СММ) или Искусственных Нейронных сетей. Вместо создания эталонов для каждого слова, создаются эталоны отдельных звуков, из которых состоят слова, так называемые акустические модели. Акустические модели формируются путём статистической обработки больших речевых баз данных, содержащих записи речи сотен людей.

В существующих системах распознавания речи используются два принципиально разных подхода:

— Распознавание голосовых меток

— Распознавание лексических

Отметим, что создание систем распознавания речи представляет собой чрезвычайно сложную задачу.

Следует отметить, что существуют различные методы построения моделей речевых сигналов [2, 3]. Приведем пять основных подходов к созданию математических моделей речевых сигналов, заданных функциональной зависимостью отсчетных значений модели от времени:

1) линейное предсказание речевого сигнала; недостатками данного подхода являются: малое время предсказания, а также тот факт, что получение отсчетных временных значений сигнала математической модели основано на использовании дополнительного источника сигнала в виде белого шума, что влечет за собой определенные трудности [2, 4];

2) решение дифференциальных уравнений (модифицированное волновое уравнение и граничные условия) [3], составленных при использовании нескольких условных физических приближений, эти уравнения описывают распространение акустического колебания в речевом тракте, с учетом возбуждающего сигнала; в данном подходе присутствуют следующие основные недостатки: при аппроксимации возбуждающего сигнала и площади поперечного сечения речевого аппарата если и удается, как правило, численными методами решить данное волновое уравнение, то полученные результаты имеют очень сложный характер пространственно-временной зависимости и малопригодны для быстрого и адекватного анализа речи;

3) гармоническая математическая модель речевого сигнала, использующая для представления сигнала синусоиды кратной частоты (оставшаяся часть сигнала, которая не может быть описана при помощи данной модели, называется шумовой). Представление сигнала в форме гармоники плюс шум эффективно используется во многих речевых приложениях [5, 6]. Следует отметить, что от разделения математической модели речевого сигнала на периодическую (вокализованные участки речи) и шумовую (невокализованная речь) части в существенной степени зависит адекватность модели и ее применимость в конкретных технических задачах. Данную модель можно синтезировать, используя, например, коэффициенты дискретного преобразования Фурье речевого сигнала (также можно применять другие формы спектральных или кепстральных коэффициентов). Основные недостатки: использование, как правило, большого числа коэффициентов модели, а также ограниченная точность модели, связанная с бесконечной длительностью гармонической функции;

4) математическая модель речевого сигнала в виде набора отрезков функций, синтезируемая на основе вейвлет-коэффициентов [7];

5) построение математической модели речевого сигнала в виде явной функциональной временной зависимости, основанное на теории модуляции (как частный случай, модулированный импульс [8, 9]).

Отметим, что точность верификации и идентификации личности по голосу будет тем выше, чем точнее модель, описывающая речевой сигнал. Очевидные требования, предъявляемые к выбору модели речевого сигнала при одинаковой точности модели, — наименьшее количество коэффициентов модели и ее простота, выполнение данных требований способствует уменьшению систематической ошибки и времени обработки поступивших данных.

Таким образом, представляет научный интерес разработка моделей речевого сигнала, отражающих индивидуальные особенности голоса человека, его уникальность при произнесении речевого сообщения.

Известно, что наиболее эффективно проведение верификации и идентификации личности по голосу на основе речевого материала, содержащего вокализованные участки речи, а именно гласные звуки.

Отметим, что одной из самых простых форм описания речевых сигналов является представление спектра в виде набора постоянных составляющих в соответствующих полосах частот, которыми обычно являются формантные частоты. Данный способ описания речевых сигналов успешно применяется для задач идентификации и верификации диктора по голосу.

Речевой материал, используемый для аутентификации личности по голосу, содержит вокализованные участки речи. Поэтому для построения математической модели речевого сигнала в виде некоторой зависимости от времени будем использовать подход, основанный на выделении модулирующей (информационной) и модулируемой (несущей) компонент [3, 9].

Воспользуемся детерминированным подходом к построению математической модели (речевого сигнала, содержащего вокализованные участки речи), основанной на теории модуляции. Аппроксимируем спектральную плотность речевого сигнала набором постоянных составляющих в полосах частот шириной в окрестности несущих частот (постоянной составляющей частоты, частоты основного тона и частот обертонов речевого сигнала.

Математическую модель речевого сигнала в виде детерминированной функции (в явном виде зависящей от времени) получим, вычислив обратное преобразование Фурье от спектральной плотности (1). В результате математическую модель можно привести к виду:

Следует отметить важный частный случай модели (2) при выполнении условий:

1) (частоты обертонов кратны частоте основного тона);

2) (полосы частот равны между собой по ширине);

при данных допущениях математическая модель упрощается, преобразуясь к виду:

Из соотношения (3) видно, что данная математическая модель речевого сигнала является амплитудно-модулированным колебанием:

в котором можно условно выделить: [безразмерная величина] - модулирующее колебание и [В] - несущее колебание.

Глава 2. Экспериментальная часть Рассчитаем коэффициенты предложенной математической модели (3) речевого сигнала. Для расчета коэффициентов, входящих в модель (3), будем использовать персональную ЭВМ, ввод речевого сигнала в которую выполняется с помощью звуковой платы со стандартной частотой дискретизации df = 6000 Гц. Данная частота была выбрана вследствие того, что первые 3−4 форманты находятся в области до 3000−3600 Гц. Звуковые платы ЭВМ, как правило, добавляют различные постоянные составляющие в речевой сигнал.

В связи с этим проводилась операция центрирования реализации:

где ix [В] - начальные отсчеты речевого сигнала; - математическое ожидание; N — число отсчетов.

Длительность импульса (время произнесения парольной фразы) была задана = 0,3 с, при данном интервале дискретизации речевой сигнал имеет N = 1800 отсчетов.

Для определения коэффициентов модели (3) в качестве степени несоответствия модели и оригинала была принята ошибка модели между коэффициентами корреляции [безразмерная величина] центрированного речевого сигнала и значениями нормированной автокорреляционной функции [безразмерная величина] математической модели (3):

где

; здесь функция корреляции (ФК) речевого сигнала:

J — число отсчетов КК (для центрированной реализации 0=y); нормированная :

где Ka (ф) [В2?с] - АКФ модели речевого сигнала, которая рассчитывается с помощью обратного преобразования Фурье от спектральной плотности энергии. Для модели (3) речевого сигнала получим для 0? ф:

— энергия математической модели речевого сигнала.

Определим число отсчетов коэффициентов корреляции J, достаточное для получения адекватных характеристик модели. Анализ речевых сигналов различных дикторов показал, что все значения коэффициентов корреляции заходят в доверительные границы Бартлетта у3±до 200 отсчета для частоты дискретизации fd = 6000 Гц, таким образом, положим, что J = 200. Здесь [В] - стандартная ошибка для коэффициентов корреляции; Nколичество отсчетов речевого сигнала; K — некоторое значение количества отсчетов коэффициентов корреляции, не превышающее примерно N/4.

Частоту основного тона будем оценивать при помощи методики, основанной на определении минимума невязки коэффициентов корреляции.

Невязка определяется между значениями коэффициентов корреляции, полученными на основе экспериментальных данных, и коэффициентов тестовой (специальной для оценки основного тона) математической модели речи, содержащей вокализованные участки. Оценка частоты основного тона f0 определяется как значение аргумента, при котором наблюдается наименьшее значение невязки в диапазоне частот

здесь тестовая невязка (ошибка):

где — коэффициент корреляции тестовой математической модели речевого сигнала, применяемый для оценки частоты основного тона, упрощенный вид которого:

С использованием данной оригинальной методики становится возможным без применения сложных алгоритмов вычисления получить высокоточную оценку частоты основного тона речевого сигнала (содержащего вокализованные участки речи).

Рассчитаем коэффициенты модели, для этого согласно методу наименьших квадратов минимизируем ошибку модели Rе (5), приравняв к нулю первые производные Rе по каждому из коэффициентов, в результате получим следующую систему, состоящую из уравнений:

Уравнения данной системы представляют собой полиномы 4-й степени, вследствие чего система однозначного решения не имеет. Положим, что энергия одинакового речевого материала — величина постоянная (Ea = const), при использовании этого допущения система нелинейных уравнений (12), состоящая из полиномов четвертой степени, сводится к линейной (из-за постоянного знаменателя в выражении (6) для Ra (ф) и имеет однозначное решение (при введении удобной замены переменных .

В качестве примера применения разработанной математической модели (3) для задач аутентификации по голосу будем использовать речевой материал в виде слова «он», состоящего из одного гласного звука [о] и одного сонорного согласного звука [н]. При заданных параметрах: = 6000 Гц;

— были получены следующие семь коэффициентов модели, отражающих индивидуальные особенности голоса:. При этом ошибка модели составила Rе = 1,086. Численный сравнительный анализ показывает, что нормированная АКФ модели сигнала (3) достаточно точно аппроксимирует КК речевого сигнала. Данное обстоятельство указывает на пригодность предложенной модели к описанию гласных и сонорных согласных звуков.

При использовании предложенной модели речевого сигнала (3) необходимо вычисление и хранение в банке данных семи коэффициентов, входящих в модель сигнала (3), для каждого из верифицируемых дикторов.

Коэффициенты разработанной модели (для 0Р = 20 Гц), с точностью до постоянного множителя, практически совпадают с коэффициентами модели в виде импульса АМ колебания с несколькими несущими частотами (при одинаковых энергиях сигналов двух моделей). Таким образом, можно проследить довольно точную взаимосвязь между коэффициентами математических моделей речевого сигнала, в одной из которых содержится параметр речевого сигнала в виде конечной длительности иф [7], а в другой (3) этот параметр отсутствует, так, модулирующее колебание представляет собой быстро затухающую осциллирующую функцию вида xx) sin (. Относительные рассогласования между коэффициентами первой и второй моделей соответственно равны:. Как видно из результатов анализа, для коэффициентов рассогласование не превышает 1%. Рассогласование между амплитудами низкочастотной составляющей (нулевой коэффициент) двух моделей в виде 39% обусловлено структурой второй модели (без учета длительности). Однако в задачах аутентификации личности по голосу вклад данного нулевого коэффициента сравнительно мал относительно остальных пяти амплитудных коэффициентов, и данную модель (3) можно использовать для задач идентификации и верификации, особенно (ввиду простой формы модели) на этапах предварительного анализа.

Следует отметить, что предложенная математическая модель речевого сигнала адекватно и с высокой степенью точности описывает вокализованные участки речи, при этом модель является довольно простой в анализе и расчете ее существенных параметров, четко прослеживается ее физический смысл. Предложенную математическую модель речевого сигнала (3) целесообразно применять в тех случаях, когда затруднена оценка длительности произнесения контрольного речевого материала, т. е. затухающая огибающая модулирующего (информационного) колебания дает возможность без оценки длительности речевого сигнала осуществлять адекватное описание вокализованных участков речи.

Таким образом, разработана методика расчета параметров математических моделей речевого сигнала, основанных на аппроксимации спектра набором постоянных составляющих в соответствующих полосах частот. Предложенная модель речевого сигнала (3) для аутентификации личности по голосу адекватно описывает речевые сигналы, содержащие вокализованные участки речи.

речевой сигнал детерминированный модуляция

Заключение

Требованиям к математическим моделям речевых сигналов с точки зрения обеспечения высокой надёжности систем аутентификации по голосу: высокой точности, минимальному количеству относительно просто рассчитываемых существенных параметров, в наибольшей мере удовлетворяют модели, основанные на физических принципах акустической теории речеобразования и описывающие вокализованные сегменты речи.

Математическая модель речевого сигнала позволяет компактно описать вокализованные сегменты речи, учитывая временную вариацию спектра речевого сигнала соответствующей модуляцией амплитуд и частот модели. Существенными параметрами математической модели речевого сигнала, характеризующими уникальность голоса, являются усреднённая частота основного тона и амплитуды несущих гармоник.

Характеристикой речевого сигнала для расчёта существенных параметров его детерминированной математической модели служит автокорреляционная функция, а для стохастической модели — функция корреляции, число значимых отсчетов которых следует выбирать исходя из уровня ослабления автокорреляционной функции относительно её наибольшего значения и из условия захождения функции корреляции в доверительные границы нулевых значений, полученных по методу Бартлетта.

1. Сорокин В. Н. Фундаментальные исследования речи и прикладные задачи речевых технологий // Речевые технологии. 2008. № 1. С. 18−48.

2. Назаров М. В., Прохоров Ю. Н. Методы цифровой обработки и передачи речевых сигналов. М.: Радио и связь, 1985. — 176 с.

3. Сорокин В. Н. Синтез речи. М.: Связь, 1992. — 392 с.

4. Ролдугин С. В. Голубинский А. Н., Вольская Т. А. Модели речевых сигналов для идентификации личности по голосу // Радиотехника. 2002. № 11. С. 79−81.

5. Stylianou Y. Apply the harmonic plus noise model in concatenative speech synthesis // IEEE Trans. on Speech and Audio Process. 2001. Vol. 9. № 1. Р. 21−29.

6. Zavarehei E., Vaseghi S., Yan Q. Noisy speech enhancement using harmonic-noise model and codebook-based post-processing // IEEE Trans. on Speech and Audio Process. 2007. Vol. 15. № 4. Р. 1194−1203.

7. Рассказова С. И., Власов А. И. Метод формантного анализа на основе вейвлет-преобразования в системах распознавания речи // IX Научно-техническая конференция «Наукоемкие технологии и интеллектуальные системы»: Сборник трудов. Москва: МГТУ им. Н. Э. Баумана, 2007. С. 38−43.

8. Якушев Д. И., Скляров О. П. Моделирование гласных звуков // Акустический журнал. 2003. Т. 49. № 4. С. 567−569.

9. Голубинский А. Н. Методика расчета параметров модели речевого сигнала в виде импульса АМ-колебания с несколькими несущими частотами, для случая модуляции суммой гармоник // Системы управления и информационные технологии. 2008. № 4.1. С. 156−161.

10. Аграновский А. В., Леднов Д. А., Репалов С. А. Метод текстонезависимой идентификации диктора на основе индивидуальности произношения гласных звуков // Акустика и прикладная лингвистика: Ежегодник РАО. 2002. Вып. 3. С. 103−115.

11. Патент РФ № 2 230 375: МПК G 10 L 15/00, G 10 L 17/00. Метод распознавания диктора и устройство для его осуществления / П. В. Лабутин, А. Н. Раев, С. Л. Коваль — № 2 002 123 509/09; заявл. 03.09.02; опубл. 10.06.04.

12. Чистович Л. А., Венцов А. В., Грамстрем М. П. и др. Физиология речи. Восприятие речи человеком. М.: Наука, 1976. — 388 с.

Показать весь текст
Заполнить форму текущей работой