Помощь в написании студенческих работ
Антистрессовый сервис

Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Вопросы, касающиеся проблем дикторонезависимости и помехоустойчивости, остаются актуальными в настоящее время. Современные системы распознавания речи, которые позиционируются как дикторонезависимые, осуществляют распознавание изолированных слов с ограниченным словарём (достигает 500 слов). Точность распознавания в таких системах достигает 95%. Системы распознавания слитной речи, как правило… Читать ещё >

Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи (реферат, курсовая, диплом, контрольная)

Содержание

  • Глава 1. Аналитический обзор методов обработки речевого сигнала. Общая структура систем распознавания речи. Основные принципы построения СРР с применением нейросетевых технологий
    • 1. 1. Основные особенности задачи распознавания речи
    • 1. 2. Многоуровневое представление речевых сигналов
  • Общая структура систем распознавания речи
    • 1. 3. Аналитический обзор существующих методов первичной обработки речевых сигналов
    • 1. 4. Аналитическое обзор методов распознавания речи
    • 1. 5. Анализ нейросетевых подходов к решению задачи распознавания речи
    • 1. 6. Дикторонезависимость и помехоустойчивость систем распознавания речи
    • 1. 7. Аналитический обзор верхних уровней анализа систем распознавания речи
    • 1. 8. Выводы

    Глава 2. Теоретические принципы обработки информации в многомерном пространстве на основе нейросетевой технологии с применением радиально-базисных нейронов и иерархических структур (ИС) из динамических ассоциативных запоминающих устройств (ДАЗУ).

    2.1. Радиально-базисные нейронные сети.

    2.1.1. Теоретические принципы функционирования радиально-базисных нейронных сетей.

    2.1.2. Модификация радиально-базисной сети. Радиально-базисная сеть встречного распространения.

    2.1.2.1. Структурная схема и функциональные свойства РБНС BP.

    2.1.2.2. Алгоритм обучения РБНС встречного распространения.

    2.1.2.3. Алгоритм распознавания в радиально-базисных нейронных сетях встречного распространения.

    2.1.2.4. Отличительные особенности радиально-базисной нейронной сети встречного распространения.

    2.1.2.5. Механизм помехоустойчивости радиально-базисной нейронной сети встречного распространения.

    2.2. Структура из динамических ассоциативных запоминающих устройств.

    2.2.1. Нейроподобный элемент с временной суммацией сигналов.

    2.2.2. Динамическое ассоциативное запоминающее устройство как модель многомерного пространства.

    2.2.3. Механизм ассоциативного доступа к информации посредством ДАЗУ.

    2.2.4. Модификация алгоритма ассоциативного доступа в ДАЗУ.

    2.3. Выводы.

    Глава 3. Применение радиально-базисных нейронных сетей и динамических ассоциативных запоминающих устройств в задаче распознавания речи.

    3.1. Акустико-фонетическое пространство диктора.

    3.1.1. Основные особенности речевых сигналов.

    3.1.2. Построение акустико-фонетического пространства диктора.

    3.1.3. Особенности представления речевого сигнала в базисе акустико-фонетического пространства.

    3.1.4. Алгоритм снижения шумовой составляющей в векторе параметров на основе автоматического определения степени зашумлённости PC.

    3.2.1. Применение радиально-базисных нейронных сетей встречного распространения для настройки системы распознавания речи на нового диктора.

    3.2.2. Применение радиально базисной нейронной сети для распознавания изолированно произносимых слов.

    3.3. Применение динамических ассоциативных запоминающих устройств для организации верхних уровней системы распознавания речи.

    3.4. Выводы и основные результаты.

    Глава 4. Практическая реализация и экспериментальное исследование разработанных методов и алгоритмов в задаче распознавания речи.

    4.1. Первичная обработка речевых сигналов.

    4.1.1. Детектор пауз.

    4.1.2. Формирование вектора параметров речевого сигнала.

    4.2. Акустико-фонетический уровень.

    4.2.1. Алгоритм построения акустико-фонетического пространства.

    4.2.2. Организация процесса распознавания.

    4.3. Экспериментальные исследования.

    4.3.1. Настройка параметров системы.

    4.3.2. Проведение экспериментов.

    4.3.2.1. Распознавание методом динамического программирования.

    4.3.2.2. Распознавание при помощи алгоритма локального поиска.

    4.3.2.3. Распознавание при помощи радиальнобазисной нейронной сети.

    4.3.2.4. Распознавание аллофонов при помощи многослойного персептрона.

    4.3.2.5. Радиально-базисная нейронная сеть встречного распространения.

    4.3.2.6. Настройка на нового диктора.

    4.3.2.7. Обнаружение помехи в речевом сигнале при помощи акустико-фонетического пространства диктора.

    4.4. Использование информации верхних уровней для сокращения состава оперативного словаря эталонов.

    4.5. Выводы.

    Выводы.

Значительные успехи в области развития вычислительной техники, информационных технологий, микроэлектроники создают предпосылки для создания нового поколения систем — интеллектуальных. Этому также способствуют достижения в области нейрофизиологии, которые стимулируют развитие бионичных (природосообразных) подходов к разработке интеллектуальных систем.

Способность накапливать знания об окружающем мире (предметной области), реорганизовывать их, принимать решения на их основе — всё это относят к основным и отличительным свойствам интеллектуальных систем (ИС). Поэтому ядром любой ИС является некоторая модель мира (предметной области), которая представляет собой базу знаний или, в общем случае, динамическую экспертную систему (ДЭС) [93, 54], позволяющую на основании информации разного рода (о внешней среде, внутреннем состоянии системы, прогнозных и реальных результатах действий системы, информации из базы знаний) вырабатывать требуемое управление.

Наиболее важным достижением нейрофизиологии, которое в настоящее время актуализируется в теории управления это познание о способности человека осуществлять прогнозирование развития некоторой ситуации и, сравнивая прогноз с реальной действительностью, адаптироваться, корректировать собственную модель мира и вырабатывать адекватные действия. [6, 93, 54, 94]. Поэтому структурная схема интеллектуальной системы должна включать в себя блок прогноза (акцептора действия), наделяющего ИС свойством: «. важнейший феномен, связанный с функционированием интеллектуальной системы, — когда в конце процесса получается результат, который уже в начале этого процесса имелся в представлении системы» [54]. Здесь необходимо отметить, что система распознавания речи (СРР), как интеллектуальная система должна иметь в своей структуре аналог акцептора действия, модуль формирования прогнозных шаблонов, с которыми осуществляется сравнение входной информации. В этом случае, СРР на основании информации о предметной области, личности диктора, семантике предыдущих сообщений и пр. формирует множество прогнозных шаблонов распознавания, с которыми сравнивается поступающая речевая информация. В случае успешного распознавания, при котором происходит соотнесение прогнозируемого и реального, блок ДЭС сохраняет свои текущие параметры, считая их удачными, в противном случае возникает необходимость более полного анализа входной информации, что может привести к модификации отдельных параметров ДЭС, дообучению системы распознавания.

Если рассматривать интеллектуальную систему в аспекте ее взаимодействия с человеком встаёт вопрос о способе такого взаимодействия или, другими словами, об интерфейсе системы. Преимущества речевого диалога перед традиционными средствами общения исследованы достаточно давно и многократно описаны в литературе [53, 5, 52]. Привлекательность речевого общения, успехи в области автоматического распознавания речи, а также сопутствующее им развитие и удешевление электронно-вычислительной микропроцессорной техники в последнее время привели к тому, что сфера внедрения систем распознавания речи (СРР) существенно расширяется, захватывая различные отрасли производственной, административной, и даже бытовой деятельности.

Речевой канал управления техническими средствами и вычислительными машинами позволяет освободить руки, разгрузить зрение, обеспечить независимость от механических вибраций и условий освещения. Для управления сложными техническими системами человеку приходится осваивать, образно выражаясь, «язык интерфейса», на что часто тратится достаточно много времени. Поэтому требование эргономичности к разработке человеко-машинных интерфейсов подразумевает обеспечение наиболее естественных форм взаимодействия, одной из которых, очевидно, является речевой диалог. Кроме того, речевой ввод информации может играть роль дополнительного канала управления, который оказывается во многих ситуациях незаменимым, особенно в случаях, связанных с ограниченной подвижностью человека-оператора.

21-ый век со всей очевидностью заявил о себе, как эпоха «информационного взрыва». Несомненно, на этом этапе технического прогресса, одними из приоритетных становятся технологии по обеспечению интеллектуальных форм взаимодействия человека с информационно вычислительными машинами. Постоянное усложнение технических систем приводит к тому, что, с одной стороны, каждое элементарное управляющее воздействие человека-оператора должно становиться всё более содержательным, а с другой стороны — обеспечение необходимого разнообразия и гибкости в управлении приведет в этом случае к существенному усложнению человеко-машинного интерфейса. Возникает противоречие, которое может быть успешно разрешено благодаря организации речевого управления, так как формулирование команд на естественном языке обладает необходимой гибкостью и содержательностью.

Есть и другие преимущества речевого общения, число которых будет расти по причине всё большей интеграции вычислительной техники в повседневную жизнь человека. Например, благодаря системам речевого общения, управление справочными службами, традиционно осуществляемое человеком-оператором, уже возможно перекладывать на вычислительную технику.

Несмотря на многолетнюю историю и значительные достижения в области распознавания речи, в полном объеме задача остаётся нерешенной. Особенность современного развития речевых технологий во многом проявляется процессом переосмысления многолетнего опыта и наработок на современной технологической базе.

Вопросы, касающиеся проблем дикторонезависимости и помехоустойчивости, остаются актуальными в настоящее время. Современные системы распознавания речи, которые позиционируются как дикторонезависимые, осуществляют распознавание изолированных слов с ограниченным словарём (достигает 500 слов). Точность распознавания в таких системах достигает 95%. Системы распознавания слитной речи, как правило, требуют кропотливой процедуры настройки на диктора, словарь может достигать больших размеров (200.000 слов) [68]. В таких системах, единицей распознавания на акустико-фонетическом уровне, обычно является фонемоподобные элементы языка (аллофоны, дифоны, фонемы и т. д.). Надежность распознавания отдельных фонемоподобных элементов низкая, однако, их относительная малочисленность (по сравнению со словами или слогами) делает их привлекательными для использования, особенно для организации процедуры настройки на нового диктора, изменяющей параметры эталонов системы.

Проблема помехоустойчивости систем распознавания речи должна решаться по двум основным направлениям. С одной стороны, необходим комплекс мер, направленных на устранение помех, шумов и искажений, воздействующих на речевой сигнал. С другой стороны, учитывая практическую ограниченность мер по очистке речевых сигналов, но, не отменяя их, возникает потребность в методах выделения полезного речевого сигнала из акустической среды. Как правило, такие методы используют априорную информацию о полезном сигнале, и они продемонстрировали высокую эффективность в борьбе с различными типами помех [98, 99, 100, 101, 102]. Конечно, требование наличия априорной информации о полезном сигнале существенно сужает область применения данных методов.

Известно, что человек в процессе распознавания речи активно использует априорную информацию о полезном речевом сигнале [6, 71]. Это касается всех уровней системы, начиная с акустического и заканчивая и верхними, интеллектуальными уровнями анализа. Использование априорной информации во многом определяет способность человека оставаться устойчивым к помехам различного рода.

В системах распознавания речи, процедура настройки на нового диктора должна моделировать процесс получения части априорной информации об акустико-фонетических свойствах речевого сигнала данного диктора. Верхние уровни анализа должны обеспечивать систему частью априорной информации языкового, семантического и прагматического свойства. Поэтому актуальной задачей при создании систем распознавания речи является разработка алгоритмов повышения помехоустойчивости СРР, использующих априорную информацию на разных уровнях анализа.

Основные трудности создания систем распознавания и синтеза речи, обозначенные еще на первых этапах исследований, остаются прежними. Предельные возможности вычислительных машин в задаче распознавания речи связаны, прежде всего, с тем, что человек, которого можно взять за эталон распознающей системы, распознаёт осмысленную речь, а компьютеру в полной мере это не дано. Современные системы автоматического распознавания речи принципиально не могут с требуемой надёжностью исправлять ошибки и неоднозначности распознавания, используя семантическую и синтаксическую информацию.

Современное состояние в области распознавания речи можно рассмотреть в свете нового стандарта, принятого сейчас практически всеми известными разработчиками подобных систем, стандарта Microsoft Speech API [69]. Согласно этому стандарту системы распознавания речи можно классифицировать по следующим критериям:

Интервал меяеду отдельными словами. Различаются системы, работающие с отдельно произносимыми словами, и системы, распознающие слитную речь. Распознавание слитной речи обладает принципиальными трудностями, возникающими в результате отсутствия информации о начале и конце слова, что усугубляется объективным отсутствием точных координат слова в связи с эффектами коартикуляции. Нередко конец одного слова является началом следующего, и провести границу между ними невозможно. В результате этого, разработчики вынуждены переходить в область менее надёжных фонетических единиц: фонемы, аллофоны, слоги, надёжность распознавания которых значительно меньше надёжности распознавания отдельных слов. В системах, работающих с изолированно произносимыми командами, диктор должен делать паузы между словами, которые составляют примерно четверть секунды.

Отдельно можно выделить системы, распознающие ключевые слова в потоке слитной речи.

Зависимость от диктора. Системы, обладающие относительной независимостью от диктора, позволяют пользователю работать с системой без предварительной настройки, однако улучшают надёжность после обучения. Независимость от диктора в таких системах достигается за счет хранения звуковых эталонов для всех наиболее типичных голосов носителей данного языка. Это требует в несколько раз большей производительности и объема памяти. Настройка на голос диктора дикторонезависимых систем занимает обычно от 30 минут до нескольких часов, что является основным неудобством для пользователя. Третьей разновидностью систем по данному признаку являются системы, автоматически настраивающиеся на голос диктора в процессе их использования. Системы последнего типа обладают двумя особенностями — им постоянно нужно знать результат своей работы на первом этапе эксплуатации, иначе обучение будет неверным. После настройки на одного диктора, такие системы перестают надежно работать с другими дикторами.

Степень детализации при задании эталонов. Различают алгоритмы, в которых в качестве эталонов используются целые слова, и алгоритмы, использующие эталоны элементов слов.

Сравнение целых слов. Сравнение целых слов дает большую точность, скорость, однако требуют значительно большего объема памяти для хранения эталонов. В этом случае требуется обучение каждому слову отдельно.

Сравнение элементов слов. Эти алгоритмы приходится применять в случае больших словарей, так как объем требуемой памяти пропорционален количеству этих эталонных элементов слов и не зависит от объема словаря.

Размер словаря. Размер актуального (оперативного) словаря системы распознавания почти не связан с реальным количеством слов, которые данная система может распознать. Он определяется количеством слов, требуемых для распознавания в данном конкретном состоянии системы. Системы, работающие с малыми словарями (порядка 50−100 слов) позволяют пользователю давать простые команды компьютеру. Для диктовки текстов необходимы большие словари (несколько десятков тысяч слов). Если системы диктовки учитывают контекст для определения активного подсловаря в конкретном состоянии, то фактически они работают со словарями среднего размера (около 1000 слов).

Несмотря на то, что возможна любая комбинация этих характеристик, в настоящее время наиболее применимыми являются системы голосового управления компьютером и системы дискретной диктовки текстов.

В приложении 7 приведены характеристики наиболее известных сейчас систем распознавания речи [89].

Как наиболее известных производителей систем распознавания речи следует выделить фирмы IBM и Dragon systems. Разработанные ими системы способны распознавать связную англоязычную речь, произносимую с паузами между словами, с подстройкой под произвольного диктора, и имеют словари объемом до 20 и 30 тысяч слов, соответственно [65, 64]. В качестве системы распознавания, обладающей максимальным словарем, следует отметить СРР на 200 тысяч слов французского языка [68], которая, однако, требует произнесения фраз не пословно, а послогово — с паузами между слогами [70].

Вместе с тем на фоне большого числа зарубежных коммерческих СРР отчетливо проявляется отсутствие на рынке русскоязычных систем распознавания речи. Несмотря на то, что именно отечественным разработкам принадлежит первенство в этой области [12], есть все основания утверждать, что их уровень существенно не изменился вплоть до настоящего времени. Это ясно выражается в неизвестности хотя бы одной реально работающей русскоязычной СРР со словарем более или менее приличного объема, не говоря уже о системах распознавания слитной речи.

Системы диктовки текстов являются пока привлекательными для покупателей в силу новизны предоставляющихся для пользователя возможностей. Однако реальные системы диктовки должны, очевидно, обладать следующими тремя свойствами: время набора текста с голоса, включая время на исправление ошибок, должно быть меньше времени набора того же текста с клавиатурыпользователь не должен уставать от набора текста голосом больше чем от набора текста клавиатуройстоимость системы диктовки должна быть ниже, чем преимущества от ввода информации голосом.

Тестирование существующих систем [13] показывает, что они не удовлетворяют ни одному из этих требований. Поэтому они пока являются не более чем дорогими мультимедиа игрушками.

Стоит упомянуть, что системы диктовки текстов на западе нашли свое практическое применение в медицине. Это связано в первую очередь с тем, что область научных разработок для использования в медицине на Западе хорошо финансируется. Кроме того, задача упрощается тем, что словари медицинских терминов в узкой предметной области имеют меньший объем, чем словари повседневного общения, а синтаксис и семантика диктуемых предложений чрезвычайно строгие, что повышает надёжность распознавания. А медицинские работники консервативны в части использования новой техники. Системы диктовки текстов применяются в медицине тогда, когда руки и глаза диктующего заняты, например, во время операции. В этом случае до использования речевых технологий либо вообще не практиковалось документирование происходящего, либо требовало привлечения дополнительных людских ресурсов [13].

Анализируя современное состояние речевых технологий можно сделать вывод о том, что проблема распознавания речи остаётся актуальной, при этом центр внимания переносится из области разработок алгоритмов направленных непосредственно на распознавание речевых сигналов в область обеспечения помехоустойчивости и дикторонезависимости систем распознавания речи.

Цель диссертационной работы: Разработка комплексного подхода, использующего нейросетевые технологии, направленного на повышение надёжности систем распознавания речи за счёт использования априорных сведений о распознаваемом речевом сигнале.

Достижение указанной цели требует решить следующие основные задачи исследования:

1. Изучение и анализ существующих подходов к решению задачи автоматического распознавания речи.

2. Разработка способа представления акустико-фонетической информации, учитывающего особенности восприятия речи человеком.

3. Разработка метода повышения помехоустойчивости СРР, использующего априорную информацию о некоторых свойствах полезного речевого сигнала.

4. Разработка нейросетевого алгоритма настройки системы распознавания речи на нового диктора.

5. Разработка структуры и определение параметров нейронной сети для задачи распознавания речевого сигнала.

6. Разработка методов использования языковых знаний для сокращения состава оперативного словаря СРР.

7. Практическая реализация и экспериментальное исследование разработанных методов и алгоритмов.

Диссертационная работа состоит из введения, четырёх глав, заключения и приложений.

Выводы, полученные в результате тестовых и экспериментальных мероприятий:

1. Представление речевого сигнала в акустико-фонетическом пространстве позволяет:

— повысить надёжность распознавания приблизительно на 2% относительно метода распознавания, реализующего сравнение траекторий реализаций и эталона в МПП методом динамического программирования;

— повысить помехоустойчивость за счет использования априорной информации о характеристиках голоса диктора;

2. Алгоритм локального поиска демонстрирует тот же показатель точности распознавания, что и метод ДП в условиях офисных шумов и снижение точности распознавания в условиях повышенного уровня шума. При этом снижение точности для последовательностей ВП составило 3%, для последовательностей элементов АФП 0,7%;

3. Надёжность распознавания аллофонов при помощи нейронных сетей (типа многослойный персептрон) в целом соизмерима с показателями, демонстрируемыми вероятностно-статистическими методами распознавания (например, вероятностной моделью, реализуемой смесью Гауссовых распределений). Привлечение контекста позволяет существенно (практически в 2 раза) повышать надёжность распознавания аллофонов.

4. Проявляется существенное различие в распознаваемости отдельных аллофонов. Явным образом выделяется группа аллофонов с высоким показателем распознаваемости. Отсюда вытекает, что большое значение для распознавания фонемоподобных речевых единиц имеет качество разметки речевой базы. Кроме того, следует необходимость выделения группы хорошо распознаваемых аллофонов в качестве «островков надёжности». В соответствии с данным выводом получается интересная постановка задачи для перспективных исследований в области распознавания речи: разработка эффективных алгоритмов восстановления полной цепочки распознаваемых аллофонов по последовательностям хорошо распознаваемых аллофонов. Предлагаемый в настоящей работе алгоритм ассоциативного доступа к информации может служить основой для решения поставленной задачи.

5. Радиально-базисная нейронная сеть встречного распространения продемонстрировала свою работоспособность. Сходимость алгоритма минимизации функционала ошибки по сравнению с алгоритмом обучения (градиентными способами) многослойных персептронов гораздо выше, что объясняется начальным расположением искомой точки в окрестности глобального минимума.

6. Применение радиально-базисной сети встречного распространения для настройки на нового диктора органично вписывается в концепцию акустико-фонетического пространства диктора. Результаты тестирования качества настройки СРР на нового диктора показывают корректность метода в целом, однако снижение точности распознавания на 6% по сравнению с базовым диктором диктует необходимость дополнительных исследований и доработок. В качестве наиболее очевидных мер можно рассматривать построение АФП на динамических векторах параметров, таких как первая и вторая производная исходного вектора параметров, и последующее обучение РБНС BP для более точной настройки на диктора.

7. Алгоритм обнаружения помех в речевом сигнале показал свою работоспособность. Опыт применения описанного в четвёртой главе алгоритма сглаживания последовательности параметров PC использующего информацию о зашумлённости отдельных участков сигнала позволяет сделать вывод о высокой эффективности подхода. Кроме того, при включении в алгоритм построения АФП процедуру отсеивания кластеров с малым весом, соответствующим переходным участкам, можно существенно снизить вариативность параметров и, тем самым, повысить устойчивость результатов распознавания, что также было проверено экспериментально.

Заключение

.

В диссертационной работе представлены результаты исследований и практических разработок в области распознавания речи. Изучение причин высокой надёжности распознавания речи, присущей человеку, позволило сделать один из ключевых выводов, который определяет стержневую составляющую диссертационной работы. А именно: использование априорной информации о распознаваемом речевом сигнале во многом определяет способность человека оставаться устойчивым к помехам различного рода. В соответствие с этим, основное внимание уделялось вопросам повышения надёжности СРР, за счет снижения вариативности параметров речевого сигнала, а также за счет использования априорной информации акустико-фонетического и языкового уровней анализа.

В качестве итога или основного результата диссертационной работы следует рассматривать методику построения СРР, базирующуюся на перечисленных далее разработках, направленных на повышение надёжности СРР (перечислены в порядке уровней представления и анализа речевой информации в системе распознавания):

1. Разработан способ представления акустико-фонетической информации в многомерном пространстве признаков (МПП), позволяющий использовать информацию об акустических особенностях голоса диктора в качестве априорной информации о свойствах распознаваемого речевого сигнала.

2. На основе предложенного способа представления акустико-фонетической информации разработан алгоритм обнаружения и компенсации помех в речевом сигнале.

3. Разработан алгоритм распознавания изолированно произносимых слов при помощи радиально-базисной сети, позволяющий выделять наиболее информативные признаки эталонов для реализации последующего механизма уточнения.

4. Разработана и экспериментально исследована новая модификация радиально-базисной нейронной сети — радиальная сеть встречного распространения (РБНС BP), которая позволяет ассоциативно связывать между собой разные пространства признаков.

5. На основе радиально-базисной нейронной встречного распространения и предложенного способа представления акустико-фонетической информации разработан алгоритм настройки СРР на нового диктора.

6. Модифицирован алгоритм ассоциативного доступа к информации по ее фрагменту для динамических ассоциативных запоминающих устройств (ДАЗУ).

Практическая значимость полученных результатов.

Алгоритм обнаружения и компенсации помех позволил существенно снизить вариативность параметров речевого сигнала в условиях присутствия помех, что снизило частоту появления ошибочного результата распознавания практически в два раза.

Реализация механизма уточнения в системе распознавания речи на базе радиально-базисной нейронной сети позволяет значительно (в три раза) повысить частоту правильного результата распознавания проблемных слов (акустически похожих). В целом, для представленного в приложении № 2 словаря это даёт выигрыш в 2.8% по сравнению с распознаванием без механизма уточнения в условиях низкого уровня шумов (офисное помещение).

Благодаря разработанной радиально-базисной нейронной сети встречного распространения удалось сократить объём обучающего речевого материала для процедуры настройки системы распознавания речи на нового диктора.

Проведённые эксперименты по распознаванию аллофонов при помощи нейронных сетей позволили выделить группу надёжно распознаваемых аллофонов.

Разработанный алгоритм ассоциативного поиска информации по ее фрагменту может быть использован в качестве ядра ассоциативно-поисковой системы представления языковых знаний за счет очень низкой чувствительности к объему обрабатываемой информации.

Внедрение результатов диссертационной работы:

1. Разработанные методы и алгоритмы использовались при разработке 8-ми разрядного микроконтроллера UNC81SVR01 (Unicore Microsystems), выполняющего в частности распознавание изолированно произносимых слов. Акт о внедрении прилагается.

2. Разработанные методы и алгоритмы использованы в ОАО «Концерн «РТИ Системы» в рамках проекта по разработке системы автоматического распознавания команд для управления мобильным телефоном. Акт о внедрении прилагается.

3. Результаты диссертационной работы также использовались в НПИЦ «Микросистемы» при разработке речевого интерфейса для управления системой анализа текстовой информации TextAnalyst. Важной особенностью данного внедрения является то обстоятельство, что сама система TextAnalyst выступает в качестве модуля верхнеуровнего анализа при решении задачи распознавания речи.

Показать весь текст

Список литературы

  1. В. Н., Суханов В. А., Жигулевцев Ю. Н. Речевой диалог в системах управления. — М.: Машиностроение, 1988. — 224 с.
  2. Методы автоматического распознавания речи /Пер. с англ. под ред. У. Ли М.: Мир, 1983. -Т.1.-328 е.- - Т.2. — 392 с.
  3. С. Нейронные сети для обработки информации /Пер. с польского И. Д. Рудинского М.: ФиС, 2002. — 343 с.
  4. А. Р. Основы нейропсихологии М.: Академия, 2003. — 384 с.
  5. Р. К. Речевое управление роботом М.: Радио и связь, 1989. -248 с.
  6. К. Языки мозга. М.: Прогресс, 1975. — 248 с.
  7. Л. В., Потапова Р. К., Трунин-Донской В. Н. Общая и прикладная фонетика. М.: МГУ, 1986. — 303 с.
  8. В. Н. Синтез речи. М.: Наука, 1992. — 392 с.
  9. В. Я., Чичагов А. С., Маковкин К. А. Цифровая фильтрация зашумлённых речевых сигналов. М.: ВЦ РАН, 1998. (http://www.ccas.ru/DCM/Chichag/index.htm)
  10. Г. А. Синтаксический словарь: репертуар элементарных единиц русского синтаксиса. М.: УРСС, 2001. — 440 с.
  11. Л.Г., Максимов А. В. Нейрокомпьютеры М.: Изд. МГТУ им. Н. Э. Баумана, 2001. — 320 с.
  12. Т.К. Анализ распознавание и интерпретация речевых сигналов Киев: Наукова думка, 1987. — 262 с.
  13. И. Л. Компьютерные системы распознавания речи //Интеллектуальные системы 1998. — Т. 3, № 1−2. — С. 117−134
  14. Я., Арбиб М. Концептуальные модели нервной системы -М.: Мир, 1976. 198 с.
  15. Г. Нейробиология М.: Мир, 1987. — Т.1. — 454 е.- Т.2. — 368 с.
  16. Е. Д. Нейропсихология М.: МГУ, 1987. — 288 с.
  17. С. Н. Фонемы русского языка, их сочетаемость и функциональная нагрузка М.: Наука, 1985. — 232 с.
  18. Методы классической и современной теории автоматического управления /Под общей ред. К. А. Пупкова М.: МГТУ им. Н. Э. Баумана, 2000. Т.1. — 747 е.- Т.2 — 735 е.- Т. З — 747 с.
  19. Е. Ф. Теоретические проблемы моделирования языка Казань: Казанский университет, 1989. — 265 с.
  20. В. В. Статистика объектов нечисловой природы -Набережная Челны, 2001. 144 с.
  21. ., Рэйдер Ч. Цифровая обработка сигналов М.: Советское радио, 1973.-368 с.
  22. JI. Р., Шафер Р. В. Цифровая обработка речевых сигналов /Пер. с англ.- Под ред. М. В. Назарова, Ю. Н. Прохорова М.: Радио и связь, 1981.-496 с.
  23. В. В. Системы искусственного интеллекта М.: МГТУ им. Н. Э. Баумана, 2001.-352 с.
  24. В.Е. Теория вероятностей и математическая статистика М.: Высшая школа, 2001. — 479 с.
  25. А.И. Теория нейронных сетей М.: Радиотехника, 2000. -415 с.
  26. Сигеру Омату, Марзуки Халид, Рубия Юсоф /Пер. с японского- под. ред. А. И. Галушкина М.: Радиотехника, 2000. — 272 с.
  27. В., Отт А. Автоматический синтез речи: Алгоритмы преобразования буква-знак и управление длительностью речевых сегментов Таллин: Валгус, 1989. — 121 с.
  28. В. В., Дли М. И., Голунов Р. Ю. Нечеткая логика и искусственные нейронные сети М.: Физматлит, 2001. -224 с.
  29. JI. В. Основы Вейвлет-анализа сигналов СПб.: Модус, 1999. — 152 с.
  30. А. В. Системы искусственного интеллекта Новосибирск: изд. НГТУ, 2001.-78 с.
  31. А. В. Системы искусственного интеллекта: Учебное пособие- В 2 ч. Новосибирск: Изд-во НГТУ, 2002. — Ч. 1. — 78 с.
  32. Э. М. Ассоциативные нейроподобные структуры Киев: Наукова Думка, 1990. — 144 с.
  33. В. Я. Распознавание образов: Учеб. пособие для студентов специальности Вычислит, машины, системы, комплексы и сети -Владивосток: ВГУЭС, 2000. 138 с.
  34. Ф. Нейрокомпьютерная техника /Пер. с англ.- Под ред. А. И. Галушкина М.: Мир, 1992. — 236 с.
  35. Р.К. Лингвистические ограничения и сегментация слитной речи: проблемы построения систем понимания речи-М.: Наука, 1980.-С. 18−30
  36. В. Н., Теория речеобразования М.: Радио и связь, 1985. -312 с.
  37. Г. Акустическая теория речеобразования: Пер. с англ. М.: Наука, 1964. — 284 с.
  38. Физиология речи. Восприятие речи человеком / А. А. Чистович, А. В. Венцов, М. П. Гранстрем и др. Л.: Наука, 1976. — 388 с.
  39. Классификация и кластер /Пер. с англ.- Под ред. Ю. И. Журавлева М.: Мир, 1980.-309 с.
  40. Дж. Макхоул., С. Рунос, Г. Гиш Векторное квантование при кодировании речи//ТИИЭР -1985.-Т.73, № 11 С. 19−61
  41. Фу К. С. Структурные методы в распознавании образов: Пер. с англ. -М.: Мир, 1977.-319 с.
  42. С. Е. Структурные методы автоматического распознавания речи // ТИИЭР 1985. — Т. 73 — С. 100−129
  43. А. В. Формальные грамматики и языки М.: Наука, 1973. -368 с.
  44. Н. Принципы Искусственного интеллекта М.: Радио и связь, 1985.-376 с.
  45. Представление знаний в человеко-машинных и робото-технических системах М.: ВЦ АН СССР ВИНИТИ, 1984. — Том, А -Фундаментальные исследования в области представления знаний -262 с.
  46. П. Искусственный интеллект: Пер. с англ. М.: Мир, 1980. -519 с.
  47. А.А., Муравьев И. П. Нейронные модели ассоциативной памяти -М.: Наука, 1987.- 161 с.
  48. А.А. Нейроподобные элементы с временной суммацией входного сигнала и блоки ассоциативной памяти на основе этих элементов //Вопросы кибернетики. Устройства и системы М.: МИРЭА, 1983. — С. 57−68
  49. А.Н. Моделирование основных механизмов мозга Л.: Наука, 1969.-212 с.
  50. Искусственный интеллект: Справочник. М.: Радио и связь, 1990. -Т.1.-Системы общения и экспертные системы/Под ред. Э.В. Попова- 464 с.
  51. Т.2. Модели и методы /Под ред. Д. А. Поспелова — 304 с.
  52. Т.З. Программные и аппаратные средства /Под ред. В. Н. Захарова, 1. В. Ф. Хорошевского 368 с.
  53. Picone J. W. Signal Modeling Techniques in Speech Recognition //Proceedings of IEEE. 1993. Vol. 81, № 9 — P. 1215−1247
  54. Ю.А. Естественная форма диалога с ЭВМ. JL: Машиностроение, 1989.- 143 с.
  55. Организация взаимодействия человека с техническими средствами АСУ /Ю.Н. Филиппович, Е. В. Родионов, Г. А. Черкасова- Под ред. В. Н. Четверикова. М.: Высшая школа, 1990. — Т.2. — Языковые средства диалога человека с ЭВМ. -159 с.
  56. К.А., Коньков В. Г. Интеллектуальные системы М.: Изд. МГТУ им. Н. Э. Баумана, 2003. — 347 с.
  57. К.А. Динамические экспертные системы в управлении //Вестник МГТУ. Приборостроение. 1996. — № 8−9 — С. 39−50.
  58. Hermansky Н. Automatic speech recognition and human auditory perception //Eur. Conf. On speech Technology. Edinburgh, 1987. — Vol.1, -P. 79−82.
  59. Cohen J.R. Application of an auditory model to speech recognition //J. Acoust. Soc. Am., 1989. № 6, — P. 2623−2629.
  60. Furui S. Speaker-independent isolated word recognition based on emphasized spectral dynamics // Int. Conf. On Acoustic, Speech and Signal processing. Tokyo, 1986.-P. 1991−1994.
  61. Abut H., Gray R.M., Rebolledo G. Vector quantization of speech-like waveforms //IEEE Trans. On Acoustic, Speech and Signal Processing. -1982. Vol. 30, — № 3. — P. 423−435.
  62. Ney H. A data-driven organization of the dynamic programming beam-search for continuous speech recognition //Proc. IEEE Int’l. Conf. On Acoustic, Speech and Signal Processing. Dallas, 1987. — P. 833−836.
  63. Ney H. Dynamic programming as a technique for pattern recognition //Proc. 6th Int’l Conf. On Pattern recognition. Munich. — 1982. — P. 11 191 125.
  64. Pearl J. Knowledge vsrsus search: A quantitative analysis using A* //Artificial Intelligence. 1983. — Vol. 20, — P. 1−13.
  65. Pearl J. Some recent results in heuristics search theory //IEEE Trans. On Pattern Analysis and Machine Intelligence. 1984. — Vol. PAMI-6, — P. 113.
  66. Gorin A.L., Roe D.B. Parallel level building on a tree machine // Proc. IEEE Int’l. Conf. On Acoustic, Speech and Signal processing. New York, 1988.-P. 295−298.
  67. Forney G.D. The Viterby algorithm //Proceedings of the IEEE. 1973. -Vol. 61,-P. 268−278.
  68. Averbuch A. Experimrnts with the Tangora 20.000 word speech recognizer //Proc. Int’l Conf. on Acoustic, Speech and Signal Processing. Dallas, 1987.-P. 701−704.
  69. Large vocabulary natural language continuous speech recognition / L.R. Bahl, S. V. Gennaro, P. S. Gopalakrishnan, et.al. //Proc. IEEE Int’l. Conf. on Acoustic, Speech and Signal Processing. Glasgow, 1989. — P. 465−467.
  70. Cerf-Dannon H. Speech recognition in French with a very large dictionary // Proc. Eurospeech, European Conf. on Speech Communication and Technology.-Paris, 1989.-P. 150−153.
  71. Microsoft Speech SDK 3.0 Documentation (www.microsoft.com).
  72. A.B. О некоторых проблемах построения систем распознавания инвариантных к диктору //Тезисы докл. Всесоюзной Школы-семинара. Таллинн, 1989. — С. 103−104.
  73. А.О. Нейросетевой анализ и сопоставление частотно-временных векторов на основе краткосрочного спектрального представления и адаптивного преобразования Эрмита М: ИПМ им. Келдышева, 2001. (http://audio.rightmark.org/lukin/pub/rffineuro.pdf)
  74. А.И., Дубровский В. В. Об анализе слуховых образов речевого сигнала. Иркутск, 1997. http://fccl.ksu.ru/issue001/confspe.97/egordub.pdf).
  75. В.В., Егоров А. И. О проблеме дикторонезависимости при распознавании речи на фонемном уровне //Диалог-2003: материалы международной конф. Москва, 2003. (http://www.dialog21 .ru/Archive/2003/Dubro vskij. pdf).
  76. И.В., Акатьев И. Ю. Распознавание речевых сигналов на основе корреляционного метода //Исследовано в России: электронный журнал.-2003.-С. 1547−1557
  77. О.И., Гладунов С. А. Организация ввода речевой информации на основе нейросетевой аппроксимации фонем. (http://www.ulstu.ru/conf/is/doclads/is2003/rus230.doc)
  78. В.Н., Циплихин А. И. Сегментация и распознавание гласных // Информационные процессы. 2004. — № 2 — С. 202−220.
  79. А.Т., Горячев А. Г. Адаптивный координатный базис для обработки речевых сигналов //Вестник Новгородского Государственного университета. 2001. — № 19 (http://www.admin.novsu.ac.ru/uni/uni.nsf)
  80. Kaneda Y., Ohga J. Adaptive microphone-array system for noise reduction. //IEEE trans. ASSP.- 1986. -Vol. 34, № 6.-P. 1931−1400.
  81. Т.К. Распознавание слов речи с помощью динамического программирования //Кибернетика -1968.-№ 1-С.81−88.
  82. О.И., Гладунов С. А. Фонетический анализ речи на основе нейросетевой аппроксимации сигнала //Нейрокомпьютеры и их применение: Труды VIII всероссийской конференции НКП-2002 -Москва, 2002.-С. 435−438.
  83. О.И., Гладунов С. А. Распознавание речевых слов при помощи искусственных нейронных сетей //Информатика, кибернетика ивычислительная техника: Научн. тр. Донецкого гос. унив. -1999. № 1. -С. 145−150.
  84. А.В., Петровский А. А. Методы построения устройств распознавания речи на базе гибрида нейронная сеть марковская модель //Нейрокомпьютеры и их применение: Труды VIII всероссийской конференции НКП-2002 Москва, 2002. — С. 423−434
  85. Система распознавания изолированных рукописных символов на основе иерархической структуры из динамических ассоциативных запоминающих устройств /А.А. Харламов, P.M. Жаркой, В. И. Волков, Г. Н. Мацаков //Информационные технологии. 1998. — № 5. — С. 27−31.
  86. J. К. The dragon system An overview //IEEE Trans. Acoust. Speech Signal Process. — 1975. — Vol. 23 -P. 24−29
  87. Rabiner L., Juang B. An introduction to Hidden Markov Models //IEEE Acoustic, Speech, and Signal Processing Magazine. 1986. — № 3, -P. 4−16.
  88. Huang X., Acero A., Hon H. Spoken Language Processing: A guide to theory, algorithm, and System Development. Prentice Hall, 2001.- 965 p.
  89. Электронные страницы фирмы 21st Sentury Eloquence (http://www.voicerecognition.com)
  90. Dal Degan-N. Prati-C. Acoustic Noise Analysis and Speech Enhancement Techniques for Mobile Radio Applications. //Signal Processing. -1988. -Vol. 15,-P. 43−56.
  91. Frost-O-L. An algorithm for linearly constrained adaptive array processing. // Proc. Of IEEE. 1972. — Vol. 60, — № 8. — P. 926−935.
  92. Hermansky Hynek Should Recognizers Have Ears? //Proc. ESCA Tutorial and Research Workshop on Robust Speech Recognition for Unknown Communication Channels. Pont-a-Mousson, 1997. — P. 1−10
  93. Hermansky Hynek Perceptual linear predictive (PLP) analysis of speech //Journal Acoust. Soc. Am., 1990. — Vol. 87, № 4. — P. 1738−1752
  94. П.К. Проблема центра и периферии в современной физиологии нервной деятельности //Проблема центра и периферии в нервной деятельности. -Горький, 1935. С. 9−70
  95. Г. В. Модуль морфологического анализа слов русского языка //Искусственный интеллект: научно-теоретический журнал. -2004.-№ 3-С. 636−642
  96. И. В. Система автоматического извлечения знаний из текста и её приложения //Искусственный интеллект: научно-теоретический журнал. 2004. — № 3 — С. 668−677
  97. С. Ю., Сарана Д. В. Система автоматического распознавания речи SPIRIT ASR Engine //Цифровая обработка сигналов: научно-технический журнал. 2003. — № 3 — С. 11−21
  98. В.Г., Журавский Ю. И., Прохоров Ю. Н. Формирование банка априорных данных о речи диктора //АРСО-12: Материалы всесоюзного семинара. Киев, 1982. — С. 49−52
  99. Ю.Н. Рекуррентное оценивание параметров //Проблемы построения систем понимания речи М.: Наука, 1980. — С. 97−109.
  100. Н., Morgan N. //RASTA Processing of speech. IEEE Trans. On ASSP. 1994. — Vol. 2, — P. 578−589
  101. Sheikhzadeh H., Sameti H., Deng L. Comparative performance of spectral subtraction and HMM Based speech enhancement strategies with application to hearing aid design //Proc. ICASSP-94. Adelaide, 1994. — P. 1−13 -1−17
  102. Malah D., Cox R.V. A Generalized comb filtering technique for speech enhancement //Proc. IEEE Int. Conf ASSP. Paris, 1982. — Vol. l, — P. 160 163
  103. Key-phrase spotting using an integrated language model of n-grams andfinite-state grammar /Qiguang Lin, Dave Lubensky, Michael Picheny et. al. th
  104. European Conference on Speech Communication and Technology. Rhodes, 1997.-P. 255−258.
  105. Caroline Bousquet-Vernhettes Context Use to Improve the Speech Understanding Processing //Speech and Computer. Moscow, 2001. — P. 89−92.
  106. Refining the N-best Hypotheses List in Large Vocabulary Speech Recognition by applying Lexical Rules / K. Georgila, A. Tsopanoglou, N. Fakotakis, et al. //Speech and Computer. Moscow, 2001. — P. 97−102.
  107. Brigitte Bigi, Armelle Brun A Hierarchical Approach for Topic Identification//Speech and Computer. Moscow, 2001. — P. 85−88.
  108. McWhirter J.S., Palmer K.J., Roberts J.B. A Digital Adaptive Noise-Canceller Based on a Stabilizer Version of the Widrow L.M.S. Algorithms //Proc. of IEEE Int. Cong. ASSP. New York, 1982. — P. 1384−1387
  109. Ю.Ю., Прохоров Ю. Н., Алгоритм рекуррентной фильтрации речевых сигналов //АРСО-12: Материалы всесоюзного семинара. -Киев, 1982.-С. 39−42
  110. Hansen J.H.L., Pellom B.L. Text-directed speech enhancement employing phone class parsing and feature map constrained vector quantization //Speech Communication. 1997. Vol. 21, — P. 169−189
  111. Hansen J.H.L. Analysis and compensation of speech under stress and noise for environmental robastness in speech recognition //Speech Communication. 1996. Vol. 20,-P. 151−173
  112. Laughans Т., Strube H. W. Speech enhancement by nonlinear multiband envelop filtering //Proc. IEEE Trans ASSP. Paris, 1982. — P. 156−159
  113. H.H. О механизмах нарушения памяти. Л.:Наука. — 1973. -133 с.
  114. Н.Н. Психофизиология. М.: Аспект Пресс, 2000. — 373 с.
  115. А. В., Леднов Д. А. Математическая модель распознавания речи с использованием протяженных контекстов // Информационные технологии. 1997. — № 7. — С. 33−36.
  116. Burr D.J. A Neural Network Digit Recognizer //Proceedings of the IEEE Conference on Systems, Man, and Cybernetics. Atlanta, 1986. — P. 16 211 625.
  117. Huang W., Lippmann R. Comparisons between neural net and conventional classifiers //Proceedings IEEE First International Conference on Neural Networks. San Diego, 1987. — P. 485−493
  118. Bengio Y., Simard P., Frasconi P. Learning long-term dependencies with gradient descent is difficult //IEEE Trans, on Newral Networks. New York, 1994. — Vol.5, — № 2. — P. 157−166.
  119. Lippman R.P., Gold В. Neural-net classifiers useful for speech recognition //IEEE Int. Conf. Neural Networks. San Diego, 1984. — P. 417−425.
  120. R. Folk, A. Kartashov, A simple elastic model for self-organizing topological mappings //Computation in Neural Systems. 1994. № 5 — P. 369−387
  121. Huang W., Lippman R.P., GoldB. A neural net approach to speech recognition //Proc. IEEE Int’l Conf. on Acoustic, Speech and Signal Processing. New York, 1988. — P. 99−102.
  122. Rosenblatt F. Principles of Neurodynamics. New York: Spartan. — 1962.
  123. А.А. Статические и динамические нейронные сети на примере задачи распознавания образов //Приборостроение. Интеллектуальные системы автоматического управления. -1991. № 1 -С. 58−66.
  124. Phoneme recognition: neural networks vs. hidden Markow model / A. Waibel, T. Hanazava, G. Hinton, K. Shikano, K. Lang //ICASSP-88. New York, 1988.-P. 107−110
  125. Robinson A.J., Fallside F. Static and dynamic error propagation networks with application to speesh coding //Neural Inf. Procsess. New York, 1988. -P. 632−641
  126. Sholl D.A. Dendritic organization in the neurons of the visual and motor cortices //Journal of Anatomy. 1953. — № 87 — P. 387−406.
  127. Представление и использование знаний /Пер с япон.- Под ред. Н. Г. Волкова М.: Мир, 1989. — 220 с.
  128. УинстонП. Искусственный интеллект/Пер. с англ.- Под ред. Д.А. Поспелова-М.: Мир, 1980. 519 с.
  129. Н. Принципы искусственного интеллекта: Пер. с англ. М.: Радио и связь, 1985. — 376 с.
  130. В.И. Представление и анализ смысла в интеллектуальных информационных системах М.: Наука, 1989. — 189с.
  131. Cover Т. Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition //IEEE Trans. Electronic computers. 1965. — Vol. 14, — P. 326−334
  132. СегаловичИ. Как работают поисковые системы /Мир Интернет: Электронный журнал. 2002. — № 2 (http://old.company.yandex.ru/articles/articlelO.html)
  133. Phoneme Recognition Using Time-Delay Neural Networks / A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, K. Lang //IEEE Trans, on Acoustics, Speech, and Signal Processing. 1989. -Vol. 37, № 3. — P. 1888−1898.
  134. McDermott, E. and Katagiri, S. LVQ-Based Shift-Tolerant Phoneme Recognition //IEEE Trans, on Signal Processing. 1991. -Vol. 39, № 6. — P. 1398−1411.
  135. Ostendorf M. Moving beyond the beads-on-a-string model of speech //Proc. of IEEE ASRU Workshop. Keystone, 1999. — P. 79−84.
  136. Peeling S M and Moore R K. Isolated digit recognition experiments using the multi-layer perceptron //Speech Communication. 1988. — № 7, -P. 403 409.
  137. Kammerer B, Kupper W. Experiments for isolated-word recognition using single and two-layer perceptrons //Neural Networks. 1990. — № 3. — P. 693 706.
  138. Huang, X.D. Speaker Normalization for Speech Recognition //in Proc. of ICASSP-92. San Francisco 1992. — Vol. 1, — P. 465−468.
  139. Ariki Y., Tagashira S., Nishijima M. Speaker recognition and speaker normalization by projection to speaker subspace //ICASSP-96. Atlanta, 1996.-P. 1859−1862.
  140. Ariki Y., Doi K., Speaker recognition based on subspace methods //ICSLP-94.-Pittsburgh, 1994.-P. 1859−1862.
  141. A.B., Молчанов А. Ю. Системное программное обеспечение -СПб.: Питер, 2001.- 736 с.
  142. JI.Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи //Обзор ТИИЭР. -1989. Т.77, № 2 — С. 86−120.
  143. Domouchel P. Three probabilistic language models for a large-vocabulary speech recognizer //Proc. IEEE Int’l. Conf. on Acoustic, Speech and Signal Processing. New York, 1988. — P. 513−516.
Заполнить форму текущей работой