Обзор промышленных систем речевого общения
Синтез речевых сигналов в большинстве устройств осуществляется методом линейного предиктивного кодирования либо форматным; при этом каждый из них используется как при синтезе ограниченного словаря — компилятивный метод, так и при универсальном синтезе — фонемный или дифонный метод. Объем словаря у компилятивных синтезаторов — от 100 до 1000 слов, у универсальных — неограниченный. Под надежностью… Читать ещё >
Обзор промышленных систем речевого общения (реферат, курсовая, диплом, контрольная)
Начало промышленного выпуска СРО в разных странах относится к середине 70-х — началу 80-х годов. К настоящему времени число различных промышленных СРО достигло нескольких сотен или даже тысяч и продолжает расти. Одновременно наблюдается рост сбыта СРО.
В США и Японии выпускаются различные СРО стоимостью от 99 до 99 тыс. дол., имеющие габаритные размеры от одной БИС до стойки оборудования, потребляемую мощность от долей ватта до 1 кВт, назначение — от игрушек до телефонных справочных систем [6]. Соответственно меняются и качественные показатели: синтез речи — от машиноподобного воспроизведения нескольких десятков слов до синтезаторов речи неограниченного словаря с управляемыми характеристиками голоса; анализ речи — от распознавания 10 команд с надежностью 75−80% до систем понимания речи со словарем в 1000 слов и надежностью 99%. В США есть небольшие фирмы, которые занимаются исключительно системами распознавания и синтеза речи (VOTRAX, SRS, VOTAN, KAI), а также крупные компьютерные фирмы (TTI, DES, Intel, IBM), имеющие собственные подразделения по созданию СРО. Большое внимание уделяется разработке средств распознавания и синтеза речи в Японии (фирмы NES, Matsuchiba, Sanyo). В Западной Европе для проведения работ по созданию СРО сформирован специальный консорциум в составе 10 фирм (Plessay, Ferranty, GEC Marconi, Thorr-EMI, Pocal, Olivetti и др.).
Как уже отмечалось, СРО строятся на базе специализированных устройств: синтезаторов и анализаторов (распознавателей) речи. Поэтому в дальнейшем, характеризуя особенности устройств, мы будем пользоваться отдельными наборами параметров для синтезаторов и анализаторов речи.
Характеристики отечественных и зарубежных синтезаторов речи приведены в табл.1.1 Таблица охватывает ряд отечественных и наиболее типичные зарубежные разработки синтезаторов речи на конец 1998 г.
Синтез речевых сигналов в большинстве устройств осуществляется методом линейного предиктивного кодирования либо форматным; при этом каждый из них используется как при синтезе ограниченного словаря — компилятивный метод, так и при универсальном синтезе — фонемный или дифонный метод. Объем словаря у компилятивных синтезаторов — от 100 до 1000 слов, у универсальных — неограниченный.
Входной информацией для компилятивных синтезаторов являются номера слов или фраз из заранее заданного словаря, а для универсальных — это обычный орфографический текст сообщения, как правило, предварительно размеченный дополнительными знаками ударения и интонации. Важным параметром синтезаторов является объем входной информации, необходимый для синтеза 1 с речи. Этот параметр определяет емкость памяти, необходимую для хранения слов заданного словаря (примерно 2 слова на 1 с речи). Для компилятивных синтезаторов объем информации от 1200 до 3200 бит/с, для универсальных — 80 бит/с.
Разборчивость синтезированной речи характеризуется процентом правильно воспринятых аудиторами звуков, слогов, слов или фраз в специально подобранных текстах. В настоящее время нет единой методики определения разборчивости синтезированной речи, поэтому данные, приведенные в табл.1.1, в значительной степени неоднородны и субъективны. Известна только одна попытка применения единой методики для измерения слоговой разборчивости речи трех различных синтезаторов: TYPE-N-TALK, PROSE-2000 и DES-talk. По этой же методике проведено измерение слоговой разборчивости отечественных синтезаторов ФОНЕМОФОН-П и ФОНЕМОФОН-5.
Важным параметром с точки зрения потребителя является возможность синтеза речи на различных языках с различными типами голосов. Сфера применения синтезаторов резко расширяется, если дополнить его телекоммуникационным интерфейсом, позволяющим абоненту получать информацию по телефонной или иной коммутируемой сети.
Характеристики отечественных устройств распознавания речи приведены в табл.1.2.
Анализ речевых сигналов в большинстве устройств осуществляется с помощью спектрально-полосных анализаторов различных модификаций, а анализ сообщений (распознавания слов) — с помощью ДП-анализаторов. В некоторых устройствах анализ речевых сигналов осуществляется путем измерения корреляционных функций, форматных параметров, плотности нулей клиппированного сигнала. В последнее время анализируются различные фонетические характеристики речи: звонкость, шумность, гласность, взрывность и др.
Под надежностью распознавания подразумевается процент правильно распознанных слов из заданного словаря в заданных условиях работы. В настоящее время нет единой методики тестирования устройств по надежности распознавания. Поэтому данные, приведенные в табл.1.2, в значительной степени субъективны: неизвестны степень обученности дикторов, данные о микрофоне и т. д.
Наличие телекоммуникационного интерфейса в устройстве предполагает не только введение специальных блоков сопряжения со стандартной телефонной или иной сетью, но и принятие специальных мер для эффективной обработки полученных сигналов.
Наличие синтезатора речи расширяет сферу применения устройства распознавания, позволяя использовать СРО в полном объеме.
Таблица 1.1.
Устройства синтеза речи.
Название устройства (фирма, страна). | Метод синтеза речи. | Объем словаря. | Входная информация. | Разборчивость речи, %. | Синтезируемые. | Наличие телефонного интерфейса. | Сфера применения. | |||
Вид. | Объем 1 с речи. | языки. | голоса. | |||||||
DES-talk (Des., США). | Фонемно-формантный. | Неограниченный. | Орфографический текст. | 92 (слоговая). | Англ. | 3 мужских, женский, детский. | Есть. | АСУ, САПР, АРМ. | ||
КРМ (KURZ WELL, США). | То же. | То же. | То же. | Нет данных. | То же. | Мужской. | Нет. | Читающая машина для слепых. | ||
М-140 (Spech. Techn. Соф, США). | " . | 120 слов. | " . | Нет данных. | " . | То же. | То же. | ПЭВМ, АРМ. | ||
PROSE-2000 (TSS, США). | ЛПК, фонемный. | Неограниченный. | Размеченный текст. | 63 (слоговая). | " . | " . | " . | ПЭВМ. | ||
SPARTE (CnetOpaHu). | ЛПК, дифонный. | То же. | То же. | Нет данных. | Фр. | Мужской, женский. | " . | ПЭВМ. | ||
SPEAK-N-SPELL (Texas TNSTR CIIIA). | ЛПК, компилятивный. | 200 слов. | Номера слов и фраз. | Нет данных. | Англ. | Мужской. | " . | Обучение. | ||
TYPE-N-TALK (Votrax, США). | Фонемно-формантный. | Неограниченный. | Размеченный текст. | 80 (слоговая). | 27 (слоговая). | То же. | То же. | " . | ПЭВМ. | |
EKO-11 (Street Elektr, США). | ЛПК, фонемный. | То же. | То же. | ; | " . | " . | " . | То же. | ||
ФОНЕМОФОН-4Т (РФ). | То же. | " . | Орфографический текст. | 94 (звуковая). | Русский. | Мужской. | Есть. | АСУ, САПР. | ||
15КС2000;14 (РФ). | " . | Нет данных. | То же. | 90 (звуковая). | То же. | То же. | То же. | То же. | ||
МСР-1 (РФ). | ЛПК, компилятивный. | 100 слов. | Номера слов и фраз. | 95 (словесная). | " . | " . | " . | Технологическое оборудование. | ||
ФОНЕМОФОН-5 (РФ). | То же. | То же. | То же. | 96 (звуковая). | Русский, англ. | 3 мужских, 2 женских. | Нет. | САПР, АРМ, ПЭВМ. | ||
ФС-05 (РФ). | " . | " . | " . | 93 (слоговая). | Русский. | Мужской. | То же. | Речевой вывод на ЭВМ. | ||
РЕТЕР-С (РФ). | Формантный, компилятивный. | Неограниченный. | Размеченный текст. | 93 (звуковая). | То же. | То же. | " . | ПЭВМ. |
Таблица 1.2
Устройства распознавания речи.
Название устройства (фирма, страна). | Метод анализа и распознавания. | Вид распознаваемой речи. | Объем словаря, слова. | Надежность распознавания, %. | Допустимый уровень помех. | Способ адаптации к директору. | Наличие телефонного интерфейса. | Наличие синтезатора речи. | Область применения. | |
РЕЧЬ-121 (СССР). | Полосный, ДП. | Изолированные слова (слитная речь). | 99 (93 на 200 слов). | (1−10) — кратное произнесение. | Есть. | Есть. | САПР, АСУ, АСУПТ. | |||
БАРС (СССР). | То же. | Изолированные слова. | Однократное произнесение. | То же. | То же. | САПР. | ||||
СИБИРЬ-1 (СССР). | " . | То же. | То же. | Нет. | " . | Диспетчерские системы. | ||||
СИРИУС-1 (СССР). | Клиппированный сигнал, ДП. | " . | " . | То же. | " . | Специальное. | ||||