Методы синтеза речи
В реальной же речи параметры звука меняются при переходе от одного звука к другому, причем меняются непрерывно. Очевидно, при использовании окон ДПФ такой результат получить невозможно — в пределах окна параметры звука меняться не будут. Теоретически благодаря полной обратимости дискретного преобразования Фурье возможно получить спектр для любого сигнала, в том числе и с динамически меняющимися… Читать ещё >
Методы синтеза речи (реферат, курсовая, диплом, контрольная)
1. Модель компилятивного синтеза Модель компилятивного синтеза предполагает синтез речи путем конкатенации (составления) записанных образцов отдельных звуков, произнесенных диктором.
При использовании этой модели составляется база данных звуковых фрагментов, из которых в дальнейшем будет синтезироваться речь.
На первый взгляд этот подход не должен вызывать особых затруднений.
Действительно, пользуясь микрофоном и звуковым редактором, например, редактором GoldWave, описанным в 3 главе нашей книги, Вы можете создать набор файлов различных звуковых фрагментов, а затем сохранить их содержимое в базе данных.
Создавая звуковые WAV-файлы с текстовыми сообщениями, можно озвучить операционную систему Microsoft Windows и многие ее приложения, такие как почтовые программы, инструментальные средства разработки и пр.
Если Вы умеете создавать программы, то для Вас не составит труда сделать простейший синтезатор речи, составляющий фразы из отдельных фрагментов. Информацию, необходимую для составления программ, работающих со звуком, можно найти, например, в [10], а также в библиотеке MSDN (http://msdn.microsoft.com).
Модель компилятивного синтеза подходит, главным образом, только в простейших случаях, когда синтезатор должен произносить относительно небольшой и заранее известный набор фраз. При этом обеспечивается довольно высокое качество речи. Впрочем, этот факт не слишком удивителен, если вспомнить, что для синтеза используется естественная человеческая речь.
Тем не менее, на стыке составляемых звуковых фрагментов возможны интонационные искажения и разрывы, заметные на слух. Кроме того, создание крупной базы данных звуковых фрагментов, учитывающей все особенности произношения фонем и аллофонов с разными интонациями, представляет собой сложную и кропотливую работу.
2. Формантно-голосовая модель Форматно-голосовая модель основана на моделировании речевого тракта человека.
Эта модель может быть реализована с применением нейронных сетей и допускает самообучение. К сожалению, ввиду сложности точного моделирования особенностей речевого тракта, а также учета интонационной модуляции речи форматноголосовая модель обладает относительно низкой точностью синтезируемых звуков речи. Тем не менее, современные программы синтеза речи, построенные с использованием этой модели, синтезируют вполне разборчивую речь и могут применяться в ряде случаев.
Заметим, что системы голосового предупреждения о возникновении аварийных ситуаций лучше строить с использованием модели компилятивного синтеза, так как разборчивость речи в таких системах выходит на передний план.
Что же касается «бытовых» синтезаторов речи, то в них можно с успехом применять и форматно-голосовую модель.
При построении модели использовались данные об артикуляционном аппарате человека, а также данные фонетики и лингвистики. Как видите, в качестве исходного сигнала применяется комбинация голосового источника и генератора шума. Прерыватель и резонансное устройство моделирует работу речевого тракта. В результате этого моделирования образуется излучаемый звук речи.
При этом для достижения компромисса между качеством модели и ее сложностью были выбраны следующие основные параметры исследуемой системы:
- · частота основного тона;
- · частота шума;
- · количество формант;
- · центральная частота каждой форманты;
- · вклад каждой форманты.
Частота основного тона определяет высоту голоса. Этот параметр не должен вызывать у Вас никаких вопросов. Что же касается частоты шума, то здесь нужно сделать пояснение.
Образование шума представляет собой достаточно сложный процесс, зависящий от многих факторов, таких как давление и скорость воздушной струи, геометрической формы воздушного тракта, акустических свойств материала и пр. Чтобы полностью смоделировать шум речи на физическом уровне, необходимо создать точную модель речевого аппарата человека, что представляет собой очень сложную задачу.
В качестве альтернативы используется белый шум, спектр которого распределен по некоторому закону (например, по Гауссу) относительно некоторой центральной частоты. При этом закон распределения подбирается экспериментально, а частотой шума в этом случае является упомянутая выше центральная частота.
Количество активных формант, участвующих в образовании речи, выбирается экспериментально, причем в качестве ориентировочного значения используется 4.
Так как форманта представляет собой резонанс в речевом тракте, у неё есть частота резонанса и огибающая. Вид огибающей также определяется экспериментально, в первом приближении это Гауссово распределение.
Вклад каждой форманты определяет, насколько сильно форманта воздействует на основной сигнал.
Все приведенные выше параметры, кроме количества формант, изменяются в процессе образования речи для получения различных звуков. Хотя для более качественного синтеза речи необходимо строить более детальную модель, чтобы синтезированные звуки были разборчивы.
3. Синтез речи с помощью нейронной сети Для исследования форматно-голосовой модели синтеза речи был создан инструмент Модель синтеза, в котором ручным заданием параметров можно синтезировать практически любой гласный или шипящий звук.
Алгоритм синтеза речи Процесс синтеза речи выглядит следующим образом.
Уровни выходов нейронов эффекторного слоя нейросети при помощи карты эффекторов преобразуются в значения выбранных параметров модели синтеза. Карта эффекторов определяет соответствие между каждым нейроном эффекторного слоя и конкретным параметром модели синтеза, а также предельные значения каждого параметра. Число эффекторов и число параметров модели может не совпадать. Если параметру не соответствует ни один эффектор, используется некоторое фиксированное значение (значение по умолчанию).
Далее по текущему состоянию модели синтезируется сигнал в пространстве частот: генерируется линейка частот, представляющих голосовой источник. На эту линейку частот накладывается формантная структура (резонансы). Для синтеза шума используется генератор случайной амплитуды и фазы.
На последнем этапе выполняется обратное преобразование Фурье для получения звуков речи.
При обучении системы формировались нейронные ансамбли для каждого звука из обучающей последовательности а, б, в, г, д. Затем проводилось обучение синтезу. В результате в эффекторном слое установились правильные связи с символьным слоем.
Система успешно обучилась синтезу — синтезируемые звуки в точности соответствуют тонам из обучающей выборки.
Ограничения использованного алгоритма Автор работы отмечает, что в этом алгоритме узким местом является размер окна дискретного преобразования Фурье ДПФ. В данной модели синтезируются статичные звуки, при этом не происходит изменение параметров в процессе синтеза.
В реальной же речи параметры звука меняются при переходе от одного звука к другому, причем меняются непрерывно. Очевидно, при использовании окон ДПФ такой результат получить невозможно — в пределах окна параметры звука меняться не будут. Теоретически благодаря полной обратимости дискретного преобразования Фурье возможно получить спектр для любого сигнала, в том числе и с динамически меняющимися параметрами.
Поэтому для генерации звука с изменяющимися параметрами нужно сокращать размер окна ДПФ или брать не весь сгенерированный кадр, а только его часть (не забывая при этом синхронизировать фазу сигнала). В идеале размер кадра можно свести к одному отсчету дискретизации по времени. Этот способ генерации речи дает лучшие результаты по сравнению с ДПФ, но работает гораздо медленнее ДПФ. В системе SAS можно выбрать используемый способ генерации.