Помощь в написании студенческих работ
Антистрессовый сервис

Обзор промышленных систем речевого общения

РефератПомощь в написанииУзнать стоимостьмоей работы

Синтез речевых сигналов в большинстве устройств осуществляется методом линейного предиктивного кодирования либо форматным; при этом каждый из них используется как при синтезе ограниченного словаря — компилятивный метод, так и при универсальном синтезе — фонемный или дифонный метод. Объем словаря у компилятивных синтезаторов — от 100 до 1000 слов, у универсальных — неограниченный. Под надежностью… Читать ещё >

Обзор промышленных систем речевого общения (реферат, курсовая, диплом, контрольная)

Начало промышленного выпуска СРО в разных странах относится к середине 70-х — началу 80-х годов. К настоящему времени число различных промышленных СРО достигло нескольких сотен или даже тысяч и продолжает расти. Одновременно наблюдается рост сбыта СРО.

В США и Японии выпускаются различные СРО стоимостью от 99 до 99 тыс. дол., имеющие габаритные размеры от одной БИС до стойки оборудования, потребляемую мощность от долей ватта до 1 кВт, назначение — от игрушек до телефонных справочных систем [6]. Соответственно меняются и качественные показатели: синтез речи — от машиноподобного воспроизведения нескольких десятков слов до синтезаторов речи неограниченного словаря с управляемыми характеристиками голоса; анализ речи — от распознавания 10 команд с надежностью 75−80% до систем понимания речи со словарем в 1000 слов и надежностью 99%. В США есть небольшие фирмы, которые занимаются исключительно системами распознавания и синтеза речи (VOTRAX, SRS, VOTAN, KAI), а также крупные компьютерные фирмы (TTI, DES, Intel, IBM), имеющие собственные подразделения по созданию СРО. Большое внимание уделяется разработке средств распознавания и синтеза речи в Японии (фирмы NES, Matsuchiba, Sanyo). В Западной Европе для проведения работ по созданию СРО сформирован специальный консорциум в составе 10 фирм (Plessay, Ferranty, GEC Marconi, Thorr-EMI, Pocal, Olivetti и др.).

Как уже отмечалось, СРО строятся на базе специализированных устройств: синтезаторов и анализаторов (распознавателей) речи. Поэтому в дальнейшем, характеризуя особенности устройств, мы будем пользоваться отдельными наборами параметров для синтезаторов и анализаторов речи.

Характеристики отечественных и зарубежных синтезаторов речи приведены в табл.1.1 Таблица охватывает ряд отечественных и наиболее типичные зарубежные разработки синтезаторов речи на конец 1998 г.

Синтез речевых сигналов в большинстве устройств осуществляется методом линейного предиктивного кодирования либо форматным; при этом каждый из них используется как при синтезе ограниченного словаря — компилятивный метод, так и при универсальном синтезе — фонемный или дифонный метод. Объем словаря у компилятивных синтезаторов — от 100 до 1000 слов, у универсальных — неограниченный.

Входной информацией для компилятивных синтезаторов являются номера слов или фраз из заранее заданного словаря, а для универсальных — это обычный орфографический текст сообщения, как правило, предварительно размеченный дополнительными знаками ударения и интонации. Важным параметром синтезаторов является объем входной информации, необходимый для синтеза 1 с речи. Этот параметр определяет емкость памяти, необходимую для хранения слов заданного словаря (примерно 2 слова на 1 с речи). Для компилятивных синтезаторов объем информации от 1200 до 3200 бит/с, для универсальных — 80 бит/с.

Разборчивость синтезированной речи характеризуется процентом правильно воспринятых аудиторами звуков, слогов, слов или фраз в специально подобранных текстах. В настоящее время нет единой методики определения разборчивости синтезированной речи, поэтому данные, приведенные в табл.1.1, в значительной степени неоднородны и субъективны. Известна только одна попытка применения единой методики для измерения слоговой разборчивости речи трех различных синтезаторов: TYPE-N-TALK, PROSE-2000 и DES-talk. По этой же методике проведено измерение слоговой разборчивости отечественных синтезаторов ФОНЕМОФОН-П и ФОНЕМОФОН-5.

Важным параметром с точки зрения потребителя является возможность синтеза речи на различных языках с различными типами голосов. Сфера применения синтезаторов резко расширяется, если дополнить его телекоммуникационным интерфейсом, позволяющим абоненту получать информацию по телефонной или иной коммутируемой сети.

Характеристики отечественных устройств распознавания речи приведены в табл.1.2.

Анализ речевых сигналов в большинстве устройств осуществляется с помощью спектрально-полосных анализаторов различных модификаций, а анализ сообщений (распознавания слов) — с помощью ДП-анализаторов. В некоторых устройствах анализ речевых сигналов осуществляется путем измерения корреляционных функций, форматных параметров, плотности нулей клиппированного сигнала. В последнее время анализируются различные фонетические характеристики речи: звонкость, шумность, гласность, взрывность и др.

Под надежностью распознавания подразумевается процент правильно распознанных слов из заданного словаря в заданных условиях работы. В настоящее время нет единой методики тестирования устройств по надежности распознавания. Поэтому данные, приведенные в табл.1.2, в значительной степени субъективны: неизвестны степень обученности дикторов, данные о микрофоне и т. д.

Наличие телекоммуникационного интерфейса в устройстве предполагает не только введение специальных блоков сопряжения со стандартной телефонной или иной сетью, но и принятие специальных мер для эффективной обработки полученных сигналов.

Наличие синтезатора речи расширяет сферу применения устройства распознавания, позволяя использовать СРО в полном объеме.

Таблица 1.1.

Устройства синтеза речи.

Название устройства (фирма, страна).

Метод синтеза речи.

Объем словаря.

Входная информация.

Разборчивость речи, %.

Синтезируемые.

Наличие телефонного интерфейса.

Сфера применения.

Вид.

Объем 1 с речи.

языки.

голоса.

DES-talk (Des., США).

Фонемно-формантный.

Неограниченный.

Орфографический текст.

92 (слоговая).

Англ.

3 мужских, женский, детский.

Есть.

АСУ, САПР, АРМ.

КРМ (KURZ WELL, США).

То же.

То же.

То же.

Нет данных.

То же.

Мужской.

Нет.

Читающая машина для слепых.

М-140 (Spech. Techn. Соф, США).

" .

120 слов.

" .

Нет данных.

" .

То же.

То же.

ПЭВМ, АРМ.

PROSE-2000 (TSS, США).

ЛПК, фонемный.

Неограниченный.

Размеченный текст.

63 (слоговая).

" .

" .

" .

ПЭВМ.

SPARTE (CnetOpaHu).

ЛПК, дифонный.

То же.

То же.

Нет данных.

Фр.

Мужской, женский.

" .

ПЭВМ.

SPEAK-N-SPELL (Texas TNSTR CIIIA).

ЛПК, компилятивный.

200 слов.

Номера слов и фраз.

Нет данных.

Англ.

Мужской.

" .

Обучение.

TYPE-N-TALK (Votrax, США).

Фонемно-формантный.

Неограниченный.

Размеченный текст.

80 (слоговая).

27 (слоговая).

То же.

То же.

" .

ПЭВМ.

EKO-11 (Street Elektr, США).

ЛПК, фонемный.

То же.

То же.

;

" .

" .

" .

То же.

ФОНЕМОФОН-4Т (РФ).

То же.

" .

Орфографический текст.

94 (звуковая).

Русский.

Мужской.

Есть.

АСУ, САПР.

15КС2000;14 (РФ).

" .

Нет данных.

То же.

90 (звуковая).

То же.

То же.

То же.

То же.

МСР-1 (РФ).

ЛПК, компилятивный.

100 слов.

Номера слов и фраз.

95 (словесная).

" .

" .

" .

Технологическое оборудование.

ФОНЕМОФОН-5 (РФ).

То же.

То же.

То же.

96 (звуковая).

Русский, англ.

3 мужских, 2 женских.

Нет.

САПР, АРМ, ПЭВМ.

ФС-05 (РФ).

" .

" .

" .

93 (слоговая).

Русский.

Мужской.

То же.

Речевой вывод на ЭВМ.

РЕТЕР-С (РФ).

Формантный, компилятивный.

Неограниченный.

Размеченный текст.

93 (звуковая).

То же.

То же.

" .

ПЭВМ.

Таблица 1.2

Устройства распознавания речи.

Название устройства (фирма, страна).

Метод анализа и распознавания.

Вид распознаваемой речи.

Объем словаря, слова.

Надежность распознавания, %.

Допустимый уровень помех.

Способ адаптации к директору.

Наличие телефонного интерфейса.

Наличие синтезатора речи.

Область применения.

РЕЧЬ-121 (СССР).

Полосный, ДП.

Изолированные слова (слитная речь).

99 (93 на 200 слов).

(1−10) — кратное произнесение.

Есть.

Есть.

САПР, АСУ, АСУПТ.

БАРС (СССР).

То же.

Изолированные слова.

Однократное произнесение.

То же.

То же.

САПР.

СИБИРЬ-1 (СССР).

" .

То же.

То же.

Нет.

" .

Диспетчерские системы.

СИРИУС-1 (СССР).

Клиппированный сигнал, ДП.

" .

" .

То же.

" .

Специальное.

Показать весь текст
Заполнить форму текущей работой