Обзор промышленных систем речевого общения

РефератПомощь в написанииУзнать стоимостьмоей работы

Синтез речевых сигналов в большинстве устройств осуществляется методом линейного предиктивного кодирования либо форматным; при этом каждый из них используется как при синтезе ограниченного словаря — компилятивный метод, так и при универсальном синтезе — фонемный или дифонный метод. Объем словаря у компилятивных синтезаторов — от 100 до 1000 слов, у универсальных — неограниченный. Под надежностью… Читать ещё >

Обзор промышленных систем речевого общения (реферат, курсовая, диплом, контрольная)

Начало промышленного выпуска СРО в разных странах относится к середине 70-х — началу 80-х годов. К настоящему времени число различных промышленных СРО достигло нескольких сотен или даже тысяч и продолжает расти. Одновременно наблюдается рост сбыта СРО.

В США и Японии выпускаются различные СРО стоимостью от 99 до 99 тыс. дол., имеющие габаритные размеры от одной БИС до стойки оборудования, потребляемую мощность от долей ватта до 1 кВт, назначение — от игрушек до телефонных справочных систем [6]. Соответственно меняются и качественные показатели: синтез речи — от машиноподобного воспроизведения нескольких десятков слов до синтезаторов речи неограниченного словаря с управляемыми характеристиками голоса; анализ речи — от распознавания 10 команд с надежностью 75−80% до систем понимания речи со словарем в 1000 слов и надежностью 99%. В США есть небольшие фирмы, которые занимаются исключительно системами распознавания и синтеза речи (VOTRAX, SRS, VOTAN, KAI), а также крупные компьютерные фирмы (TTI, DES, Intel, IBM), имеющие собственные подразделения по созданию СРО. Большое внимание уделяется разработке средств распознавания и синтеза речи в Японии (фирмы NES, Matsuchiba, Sanyo). В Западной Европе для проведения работ по созданию СРО сформирован специальный консорциум в составе 10 фирм (Plessay, Ferranty, GEC Marconi, Thorr-EMI, Pocal, Olivetti и др.).

Как уже отмечалось, СРО строятся на базе специализированных устройств: синтезаторов и анализаторов (распознавателей) речи. Поэтому в дальнейшем, характеризуя особенности устройств, мы будем пользоваться отдельными наборами параметров для синтезаторов и анализаторов речи.

Характеристики отечественных и зарубежных синтезаторов речи приведены в табл.1.1 Таблица охватывает ряд отечественных и наиболее типичные зарубежные разработки синтезаторов речи на конец 1998 г.

Входной информацией для компилятивных синтезаторов являются номера слов или фраз из заранее заданного словаря, а для универсальных — это обычный орфографический текст сообщения, как правило, предварительно размеченный дополнительными знаками ударения и интонации. Важным параметром синтезаторов является объем входной информации, необходимый для синтеза 1 с речи. Этот параметр определяет емкость памяти, необходимую для хранения слов заданного словаря (примерно 2 слова на 1 с речи). Для компилятивных синтезаторов объем информации от 1200 до 3200 бит/с, для универсальных — 80 бит/с.

Разборчивость синтезированной речи характеризуется процентом правильно воспринятых аудиторами звуков, слогов, слов или фраз в специально подобранных текстах. В настоящее время нет единой методики определения разборчивости синтезированной речи, поэтому данные, приведенные в табл.1.1, в значительной степени неоднородны и субъективны. Известна только одна попытка применения единой методики для измерения слоговой разборчивости речи трех различных синтезаторов: TYPE-N-TALK, PROSE-2000 и DES-talk. По этой же методике проведено измерение слоговой разборчивости отечественных синтезаторов ФОНЕМОФОН-П и ФОНЕМОФОН-5.

Важным параметром с точки зрения потребителя является возможность синтеза речи на различных языках с различными типами голосов. Сфера применения синтезаторов резко расширяется, если дополнить его телекоммуникационным интерфейсом, позволяющим абоненту получать информацию по телефонной или иной коммутируемой сети.

Характеристики отечественных устройств распознавания речи приведены в табл.1.2.

Анализ речевых сигналов в большинстве устройств осуществляется с помощью спектрально-полосных анализаторов различных модификаций, а анализ сообщений (распознавания слов) — с помощью ДП-анализаторов. В некоторых устройствах анализ речевых сигналов осуществляется путем измерения корреляционных функций, форматных параметров, плотности нулей клиппированного сигнала. В последнее время анализируются различные фонетические характеристики речи: звонкость, шумность, гласность, взрывность и др.

Под надежностью распознавания подразумевается процент правильно распознанных слов из заданного словаря в заданных условиях работы. В настоящее время нет единой методики тестирования устройств по надежности распознавания. Поэтому данные, приведенные в табл.1.2, в значительной степени субъективны: неизвестны степень обученности дикторов, данные о микрофоне и т. д.

Наличие телекоммуникационного интерфейса в устройстве предполагает не только введение специальных блоков сопряжения со стандартной телефонной или иной сетью, но и принятие специальных мер для эффективной обработки полученных сигналов.

Наличие синтезатора речи расширяет сферу применения устройства распознавания, позволяя использовать СРО в полном объеме.

Таблица 1.1.

Устройства синтеза речи.


Название устройства (фирма, страна).	Метод синтеза речи.	Объем словаря.	Входная информация.	Разборчивость речи, %.	Синтезируемые.	Наличие телефонного интерфейса.	Сфера применения.
			Вид.	Объем 1 с речи.		языки.	голоса.
DES-talk (Des., США).	Фонемно-формантный.	Неограниченный.	Орфографический текст.		92 (слоговая).	Англ.	3 мужских, женский, детский.	Есть.	АСУ, САПР, АРМ.
КРМ (KURZ WELL, США).	То же.	То же.	То же.		Нет данных.	То же.	Мужской.	Нет.	Читающая машина для слепых.
М-140 (Spech. Techn. Соф, США).	" .	120 слов.	" .		Нет данных.	" .	То же.	То же.	ПЭВМ, АРМ.
PROSE-2000 (TSS, США).	ЛПК, фонемный.	Неограниченный.	Размеченный текст.		63 (слоговая).	" .	" .	" .	ПЭВМ.
SPARTE (CnetOpaHu).	ЛПК, дифонный.	То же.	То же.		Нет данных.	Фр.	Мужской, женский.	" .	ПЭВМ.
SPEAK-N-SPELL (Texas TNSTR CIIIA).	ЛПК, компилятивный.	200 слов.	Номера слов и фраз.		Нет данных.	Англ.	Мужской.	" .	Обучение.
TYPE-N-TALK (Votrax, США).	Фонемно-формантный.	Неограниченный.	Размеченный текст.	80 (слоговая).	27 (слоговая).	То же.	То же.	" .	ПЭВМ.
EKO-11 (Street Elektr, США).	ЛПК, фонемный.	То же.	То же.		;	" .	" .	" .	То же.
ФОНЕМОФОН-4Т (РФ).	То же.	" .	Орфографический текст.		94 (звуковая).	Русский.	Мужской.	Есть.	АСУ, САПР.
15КС2000;14 (РФ).	" .	Нет данных.	То же.		90 (звуковая).	То же.	То же.	То же.	То же.
МСР-1 (РФ).	ЛПК, компилятивный.	100 слов.	Номера слов и фраз.		95 (словесная).	" .	" .	" .	Технологическое оборудование.
ФОНЕМОФОН-5 (РФ).	То же.	То же.	То же.		96 (звуковая).	Русский, англ.	3 мужских, 2 женских.	Нет.	САПР, АРМ, ПЭВМ.
ФС-05 (РФ).	" .	" .	" .		93 (слоговая).	Русский.	Мужской.	То же.	Речевой вывод на ЭВМ.
РЕТЕР-С (РФ).	Формантный, компилятивный.	Неограниченный.	Размеченный текст.		93 (звуковая).	То же.	То же.	" .	ПЭВМ.

Таблица 1.2

Устройства распознавания речи.


Название устройства (фирма, страна).	Метод анализа и распознавания.	Вид распознаваемой речи.	Объем словаря, слова.	Надежность распознавания, %.	Допустимый уровень помех.	Способ адаптации к директору.	Наличие телефонного интерфейса.	Наличие синтезатора речи.	Область применения.
РЕЧЬ-121 (СССР).	Полосный, ДП.	Изолированные слова (слитная речь).		99 (93 на 200 слов).		(1−10) — кратное произнесение.	Есть.	Есть.	САПР, АСУ, АСУПТ.
БАРС (СССР).	То же.	Изолированные слова.				Однократное произнесение.	То же.	То же.	САПР.
СИБИРЬ-1 (СССР).	" .	То же.				То же.	Нет.	" .	Диспетчерские системы.
СИРИУС-1 (СССР).	Клиппированный сигнал, ДП.	" .				" .	То же.	" .	Специальное.

Показать весь текст

Заполнить форму текущей работой