Готовые решения технологии TTS

РефератПомощь в написанииУзнать стоимостьмоей работы

Готовые решения технологии TTS (реферат, курсовая, диплом, контрольная)

По технологии TTS построено уже довольно много приложений. Речевые технологии используются в широком спектре задач: чтение электронной почты, веб-страничек, баз данных, в интеллектуальных бортовых системах или, в идеальном случае, при обучении произношению слов иностранного языка. Но большинство этих приложений строится на основе готовых речевых «движков» таких фирм, как Microsoft, Lucent, Lernout & Hauspie, Unisys, Elan и др. Последовательно расмотрим технологии TTS этих фирм.

Технология Microsoft Text-to-Speech

Она предназначена для синтеза речи из компьютерных текстовых файлов, возможно, содержащих информацию, полученную механизмами распознавания человеческой речи. Выходной сигнал может быть сгенерирован для двух различных случаев — чтения по телефону (частота дискретизации 8 кГц) или воспроизведения через звуковую плату ПК с частотой дискретизации около 22 кГц. Предусмотрена также возможность сохранения сгенерированной речи в разнообразных звуковых форматах.

Корпорация создала программный интерфейс для работы со звуком — SAPI 4.0 (Speech Application Programming Interface) и дополняет его набором инструментов и утилит для быстрого построения речевых приложений. В него входят функции распознавания речи ASR (Automated Speech Recognition) и технология TTS. В настоящее время идет разработка нового интерфейса SAPI 5.0, являющегося, по заявлениям компании, полностью обновленной версией.

Для разработчиков речевых приложений предложено несколько вариантов SAPI SDK. Наиболее полный из них — SAPI Speech SDK 4.0a Suit — включает подробное описание интерфейсных библиотек SAPI, документацию, примеры исходного кода и приложений, утилиты для тестирования, а также речевой инструментарий Microsoft Speech engines.

В архиве этот набор занимает более 39 Мб. Но если отказаться от Microsoft Speech engines, то получится набор SAPI Speech SDK 4.0a, занимающий всего 7,9 Мб и свободно доступный на сайте компании. Этот пакет лишает возможности использовать речь в приложениях, а позволяет только создать программную оболочку управления ею.

В речевой технологии TTS от Microsoft можно выбрать три различных типа голосов: «Майк», «Мэри» и «Сэм». Речевой инструментарий поддерживает операционные системы Windows 95, 98, NT 4.0 или 2000, требует наличия звуковой платы, процессора не ниже Pentium, ОЗУ от 16 Мб.

Unisys Corporation (www.unisys.com): Natural Language Speech Assistant. Пакет корпорации Unisys построен по технологии NLU (natural language understanding), позволяющей распознавать и «понимать» человеческую речь, а также вести полноценный диалог с компьютером. Разработан полный набор утилит и тестов для создания речевых приложений. NLSA на ежегодной конференции AVIOS (American Voice Input/Output Society) назван лучшим продуктом 1999 года в номинации Best Industrial/Professional Application.

Очень интересна совместная инициатива Unisys и Microsoft по созданию нового сайта www.speechdepot.com, предназначенного для обеспечения программистов полной информацией, экспертизой и всеми необходимыми средствами для создания речевых программ от самых простых до более сложных. Естественно, сайт предоставляет информацию только по продуктам и новациям этих компаний.

Lucent Technologies (www.lucent.com/speech) представила новую версию LTTS3.1 (Lucent TTS 3.1) многоязычного синтезатора речи по технологии Text to Speech. Разработанный в лаборатории Bell Labs (являющейся собственностью Lucent Technologies), новый многоязычный синтезатор речи поддерживает множество разнообразных языков, в том числе и русский, но особенно хорошо «разговаривает» на английском, испанском, французском и немецком языках. Небольшой размер, и высокое качество синтезатора не могли остаться незамеченными на рынке, и уже несколько компаний, в том числе Intellivoice Communications и Pronexus, объявили о его интеграции в свои продукты. Использовать этот синтезатор можно на любом компьютере, оснащенном процессором Pentium 133 и выше, с операционными системами Windows 9x и NT, Solaris, UnixWare; больших вычислительных мощностей не требуется. А можно приобрести пакет разработчика за $ 595 и писать свои собственные речевые программы. На сайте Bell Labs есть множество синтезированных примеров, включая песни. При желании можно с заранее выбранным голосом (мужской, женский, детский, или писк комара, если хотите) воспроизвести любой английский текст или получить звуковой файл (реализована поддержка форматов aiff, au и wav) и прослушать его у себя на компьютере в автономном режиме.

Elan Informatique (www.elantts.com/speech/). В отличие от других эта компания предлагает широкий спектр продуктов, использующих технологию TTS: Speech cube, Speech platform, Speech unit, Speech engine, Speech engine for Windows CE, Elan talk embedded. В совокупности они могут читать электронную почту, факсы, веб-страницы, применяются в качестве электронного ассистента в автомобилях, конвертируют текстовые базы данных в голосовые. Поражает количество партнеров Elan Corporation, использующих ее технологию TTS: это такие громкие имена, как Dialogic, Novavox, France Telecom, Dragon System (уже подразделение L&H), BMW, Bosch, OKI и множество других.

Речевой синтезатор Elan поддерживает SAPI 4.0; позволяет воспроизводить синтезированную речь и записывать ее в различных звуковых форматах; включает библиотеку препроцессора e-mail (MIME), примеры кода на Си и Visual C++; осуществляет поддержку всех популярных операционных систем: Windows 9x, 2000, NT, UNIX SCO, UNIX Solaris, Linux; работает с английским, француским, испанским, немецким, русским и португальским языками.

Lernout & Hauspie (L&H, www.lhs.com или www.lhsl.com): RealSpeak. По мнению компании, этот продукт представляет собой «квантовый скачок» в улучшении технологии TTS: речь робота заменяется на речь вполне конкретного человека. Алгоритм конкатенации позволяет компьютеру запоминать человеческую речь и использовать ее для синтеза. Для генерации речи служат не только озвученные человеком слоги, но и его же длинные фонемные предложения. Набор этих голосовых сегментов и применение лингвистических знаний обеспечили интеллектуальность компьютерной речи.

RealSpeak поддерживает американскую версию английского, французский и корейский языки. В ближайшее время планируется добавить поддержку немецкого, испанского, итальянского, голландского, шведского и классического английского языков. А к началу 2001 года этот список пополнят японский и китайский.

Продукт широко используется в приложениях, предназначенных для автомобилей, телевидения, телефонных сетей, бытовой электроники и Интернета.

Алгоритм конкатенации обеспечивает интеллектуальное произношение, основанное на реальных образцах человеческой речи. Создана модель для обеспечения натуральной интонации в предложениях и фразах.

Компания L&H предлагает два функционально различных пакета разработчика для создания голосовых программ под Windows 95 и NT. Это пакет для чтения текстов TTS 3000/M SDK и специальный препроцессор e-mail.

С помощью первого пакета приложения можно создавать на Си/Си++, Visual Basic или в других средах разработки, позволяющих обращаться к функциям TTS3000/M, установленных над Windows 95 и NT. Пакет дает также возможность изменять громкость и ритм речи и тембр голоса говорящего.

Препроцессор e-mail позволяет корректно читать почту в голосовых приложениях, работающих под Windows. Он конвертирует почтовые заголовки, сокращения и аббревиатуры в обыкновенный текст, читаемый описанным выше основным модулем синтеза речи. Например, чтобы прочитать почтовый адрес Этот адрес e-mail защищен от спам-ботов. Чтобы увидеть его, у Вас должен быть включен Java-Script, распознается имя человека (Eric) и дальнейшие сокращения (lhs и be), и на вход модуля TTS V5 поступает сообщение: Erict at Lernout & Hauspie Speech Products Belgium).

Расположенный в научном парке МГУ Клуб голосовых технологий (web.science.park.ru/pcv/) предлагает «говорящую мышь» — конструктор мультимедийных спектаклей с использованием технологии синтеза речи. С ее помощью можно создавать и редактировать, а затем и проигрывать сценарии различных представлений, уроков, анекдоты или поздравления. Фактически этот продукт позволяет создать домашний компьютерный театр, который осуществляет соединение звуковых, музыкальных, графических и видеоформ. В его состав входят «прочитыватель» русских текстов (английские тексты также могут читаться — по правилам английской грамматики, но с «русским акцентом»), речевой драйвер для Windows 95 (озвучивает навигацию по меню, читает экранные сообщения и выделенные тексты в любых приложениях), интегратор основных мультимедийных файлов с универсальным средством просмотра, расширяемый словарь сокращений и иностранных слов, библиотека мультимедийных файлов и примеры готовых сценариев. «Говорящая мышь» может читать текстовые файлы вслух различными голосами с регулируемыми темпом и высотой, автоматически расставлять ударения, озвучивать клавиатурный ввод, осуществлять чтение двумя голосами в унисон или со сдвигом по частоте; кроме того, она имеет встроенную реверберацию, позволяет редактировать голоса, поет, в том числе под MIDI-аккомпанемент с настройкой голоса на музыкальный инструмент, читает вслух текущую дату и время.

Уже выпущен тираж с новой версией 5.0, в которую добавлены поддержка полноценного чтения на английском языке и возможность сохранять синтезированный голос в виде WAV-файла. Программа занимает весь CD-ROM (около 650 Мб) и требует процессора Pentium 75 и выше, Windows 95 и звуковой платы.

Показать весь текст

Заполнить форму текущей работой