Понятие помех в общем смысле включает в себя и понятие шумов, иногда эти понятия различают, поскольку шумы составляют наиболее обширный класс помех [8, с. 100]. Известно довольно большое количество разновидностей помех с самыми разнообразными свойствами, в частности, по способу воздействия на речевые сигналы все разновидности помех можно разделить на две группы:
1). Радиотехнические помехи. Возникают в аппаратуре и каналах звукопередачи под воздействием тепловых шумов, электромагнитных наводок и т. п.
2). Акустические помехи. Их источниками служат звуки, создаваемые природными явлениями, работающими механизмами, бытовой техникой и транспортными средствами, кроме этого источниками акустических помех являются удаленные голоса посторонних людей, играющая музыка, звуки «эха» и реверберации в помещениях [1].
В данном диссертационном исследовании рассматриваются методы обработки речевых сигналов, которые позволяют повысить разборчивость речи, воспринимаемой на фоне акустических помех.
Актуальность исследования. Общеизвестно, что восприятие речи на фоне акустических помех сопровождается снижением ее разборчивости. Вместе с тем существуют такие сферы деятельности человека, в которых восприятие речи, переданной посредством телекоммуникационных систем, по объективным причинам происходит в условиях высокого уровня акустических помех. Причем часто от достоверности и своевременности получения информации, содержащейся в речевом сигнале, зависят жизнь и здоровье людей, а также сохранность материальных ценностей. Например, организация оповещения и передача речевых команд управления на водном, наземном и воздушном транспортена промышленных предприятиях, где высокий уровень шумов является характерной особенностью производствапри проведении спасательных операций в зонах стихийных бедствийпри проведении антитеррористических и войсковых операций и т. п. В обозначенных сферах деятельности человека разборчивость речи определяется не только качеством канала звуко-передачи, в значительной степени разборчивость зависит от уровня и спектрального состава акустических помех, мешающих прослушиванию полезного речевого сигнала. Поэтому проблема повышения разборчивости речи, воспринимаемой на фоне акустических помех не потеряла своей актуальности и по сегодняшний день.
Один из очевидных путей решения названной проблемы заключается в повышении уровня полезного сигнала, передаваемого по каналу звукопередачи, и таким образом, повышении отношения сигнал/шум в прослушиваемом сигнале. Однако этот путь имеет ограниченные возможности, поскольку увеличение уровня речевого сигнала сопровождается усилением эффекта прямой и обратной маскировки согласных фонем гласными. В итоге, увеличение уровня полезного сигнала позволяет повысить разборчивость речи только до определенного порога, после чего происходит снижение ее разборчивости. В настоящее время для повышения разборчивости речи, воспринимаемой на фоне помех различной природы происхождения, широко применяются различные электронные (как аналоговые, так и цифровые) шумоподавители. Вместе с тем, подобные устройства не позволяют избавиться от негативного влияния на разборчивость речи тех акустических помех, которые воздействуют на слушателя одновременно с полезным речевым сигналом. Для борьбы с этой разновидностью помех могут быть использованы индивидуальные средства защиты от шума (наушники, шлемофоны и т. п.). Однако область их применения ограничена, поскольку в ряде случаев отсутствует возможность обеспечить всех людей в зоне оповещения индивидуальными средствами защиты от шума (например, на вокзалах, в аэропортах и т. п.). Кроме этого, полная изоляция от звуков окружающего мира, например, водителя транспортного средства, может привести к запаздыванию, либо к полному отсутствию его реакции на возникшую в ходе движения опасность.
Таким образом, разработка нового метода обработки речевых сигналов, позволяющего в реальном масштабе времени повысить разборчивость речи, воспринимаемой на фоне акустических помех, является актуальной проблемой для различных систем служебной связи и речевого оповещения. Одним из путей решения указанной проблемы может служить использование сжатия части частотного диапазона речевого сигнала путем точного деления его мгновенной частоты.
Объект исследования: обработка речевых сигналов.
Предмет исследования: метод и технические средства сжатия частотного диапазона речи путем нелинейной безинерционной обработки ее мгновенной частоты без необходимости выделять эту модулирующую функцию в виде отдельного субсигнала. Исследование зависимости разборчивости речи от параметров компрессирования, уровня речевого сигнала и уровня акустической помехи в точке прослушивания сообщения.
Основная цель исследования заключается в разработке нового метода и технических средств частотного компрессирования речевых сигналов путем нелинейной обработки их мгновенной частоты для повышения разборчивости речи, воспринимаемой на фоне акустических помех.
В соответствии с основной целью и предметом исследования определены следующие задачи исследования:
— теоретически и экспериментально исследовать пригодность нового метода нелинейной обработки мгновенной частоты речевых сигналов для повышения разборчивости речи, воспринимаемой на фоне акустических помех;
— теоретически и экспериментально проработать возможные варианты и пути построения точного нелинейного частотного компрессора с целью обеспечить его практическую реализацию;
— экспериментально определить влияние нелинейной обработки мгновенной частоты на восприятие компрессированных речевых сигналов на фоне акустических помех;
— обеспечить внедрение полученных результатов.
Методологическую и теоретическую основы исследования составили научные труды отечественных и зарубежных авторов в области передачи и преобразования аналоговых сигналов, а также физиологии слуха и речи человека: Д. Габора, П. Марку, Ж. Дагэ, Г. И. Цемеля, A.A. Харкевича, A.C. Винницкого, В. И. Тихонова, Б. Р. Левина, Д. В. Агеева, Ю. М. Ишуткина, В. К. Уварова, Н. Б. Покровского, М. А. Сапожкова, Л. А. Чистович, Э. Цвикера, Р. Фелькеллера, И. А. Алдошиной.
Методы исследования. Во время проведения исследования применялись методы теоретического анализа (математического, логического, системного, моделирования, обобщения опыта), спектрального анализа (экспериментального и теоретического), артикуляционных измерений и экспертных оценок.
Информационная база исследования. В качестве информационных источников проведенного исследования использованы:
— научные источники в виде: данных и сведений из них, журнальных статей, научных докладов и отчетов, материалов научных конференций;
— официальные документы в виде ГОСТов и технических описаний на устройства обработки звуковых сигналов;
— результаты собственных расчетов и проведенных экспериментов.
Научная новизна исследования:
1. Разработан новый метод повышения разборчивости речи, воспринимаемой на фоне акустических помех. Отличие разработанного метода состоит в том, что разборчивость повышается за счет сжатия части частотного диапазона речевых сигналов путем точного аналогового деления их мгновенной частоты без выделения этой модулирующей функции в виде отдельного субсигнала.
2. Разработан новый способ точного сжатия части диапазона изменения мгновенной частоты речевых сигналов, позволяющий в реальном масштабе времени сжимать необходимую часть частотного диапазона речевых сигналов.
3. Предложено оценивать полезность и эффективность преобразования речевых сигналов в нелинейном частотном компрессоре введением новой характеристики, а именно: эквивалентного отношения сигнал/шум, которое определяется по разборчивости речи и показывает субъективное увеличение соотношения сигнал/шум при восприятии речи на фоне акустических помех.
4. Установлены зависимости эквивалентного отношения сигнал/шум для речевого сигнала с частично сжатым частотным диапазоном от частоты порога компрессии, коэффициента деления мгновенной частоты и величины верхней граничной частоты полосы пропускания канала звукопередачи. С помощью установленных зависимостей определены оптимальные (по критерию максимального повышения разборчивости речи) коэффициент деления мгновенной частоты, частота порога компрессии и верхняя граничная частота полосы пропускания канала звукопередачи, при которых достигается максимальное увеличение эквивалентного отношения сигнал/шум в прослушиваемом на фоне акустических помех речевом сигнале, а также зависимость разборчивости речи от величины отношения сигнал/шум при оптимальных параметрах частотного компрессирования.
Обоснованность и достоверность полученных результатов подтверждается:
1. Согласованностью теоретических выводов с результатами их экспериментальной проверки.
2. Использованием традиционных методов измерений.
3. Соответствием полученных результатов, логически аргументированным ожиданиям.
4.0бщепринятой статистической обработкой результатов измерений.
5. Патентом РФ на изобретенные способ точного аналогового сжатия части частотного диапазона звуковых сигналов и устройство для его реализации.
6. Апробацией результатов работы.
Научная ценность результатов исследования:
1. Разработан новый подход к повышению разборчивости речи в условиях акустических помех.
2. Полученные в диссертации зависимости могут служить научным фундаментом для широкого практического использования результатов работы, например, для разработки систем речевого оповещения с автоматическим включением частотного компрессирования в канале звукопередачи при превышении акустическими помехами порога шумности в зоне прослушивания сообщений.
Практическая значимость и реализация результатов работы:
1. Теоретическое решение задачи точного сжатия части частотного диапазона звуковых сигналов позволило создать работоспособный нелинейный частотный компрессор. Новое решение позволило устранить известные недостатки, свойственные методу сжатия частотного диапазона звуковых сигналов путем выделения и обработки их мгновенной частоты в виде отдельного субсигнала.
2. Частотно компрессированные с помощью созданного нелинейного частотного компрессора речевые сигналы можно прослушивать, не восстанавливая масштаб мгновенной частоты, что подтверждено результатами артикуляционных измерений.
3. Установлена зависимость разборчивости речи от величины отношения сигнал/шум при оптимальных параметрах частотного компрессирования. Полученная зависимость показывает возможность практического использования нелинейного частотного компрессирования в широком диапазоне изменения отношения сигнал/шум.
4. Решение задачи точного сжатия части частотного диапазона звуковых сигналов получено впервые и позволяет по аналогии решать и другие задачи по обработке частотного диапазона звуковых сигналов (например, экспандирование части частотного диапазона).
5. Материалы диссертационной работы используются в учебном процессе Санкт-Петербургского государственного университета кино и телевидения, а также Института переподготовки и повышения квалификации сотрудников ФСБ РФ (С.-Петербург). Внедрение результатов диссертационной работы подтверждено соответствующими актами.
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на научно-технических конференциях СПбГУКиТ в 2004;2007 годах.
Публикации. Основное содержание диссертации изложено в 5 опубликованных и депонированных статьях, а также в одной заявке на изобретение, по которой получен патент РФ на «Способ и устройство точного аналогового сжатия части частотного диапазона звуковых сигналов».
Структура и объем работы. Диссертация содержит введение, основной текст из четырех глав, заключение, библиографических список использованной литературы и приложение. Объем основного текста с введением и заключением составляет 166 страниц, включая 37 рисунков на 32 страницах и 4 таблицы на 2 страницах.
Список литературы
содержит 68 наименований.
4.4. Выводы по главе 4.
Реализация разработанного точного аналогового нелинейного частотного компрессора позволила провести исследования зависимости разборчивости речевого сигнала с частично сжатым частотным диапазоном, воспринимаемым на фоне акустических помех, от частоты порога компрессии, коэффициента деления мгновенной частоты и от верхней граничной частоты полосы пропускания канала звукопередачи. Целью данных исследований было определить значения частоты порога компрессии и коэффициента деления мгновенной частоты в надпороговой области, при которых разборчивость речи повышается максимально.
Проанализированы известные на сегодняшний день объективные и субъективные методы оценки разборчивости речи. Отмечено, что в объективных методах оценки разборчивости речи не учитываются изменения полезного речевого сигнала, происходящие во временной области, либо учитываются только изменения его огибающей, которая не подвергается преобразованию в разработанном точном аналоговом нелинейном частотном компрессоре. Поэтому принято решение провести артикуляционные испытания нелинейного частотного компрессора. Во время артикуляционных испытаний проводились измерения слоговой разборчивости, так как она обладает наибольшей разрешающей способностью.
Результаты артикуляционных испытаний точного аналогового нелинейного частотного компрессора подтвердили, что речевой сигнал, преобразованный путем точного аналогового деления мгновенной частоты части частотного диапазона, можно прослушивать, не восстанавливая масштаб его мгновенной частоты.
Предложено оценивать эффективность преобразования’рече-вых сигналов в точном аналоговом нелинейном частотном компрессоре введением новой характеристики — эквивалентного отношения сигнал/шум, которое определяется по разборчивости речи и иллюстрирует субъективное повышение отношения сигнал/шум при прослушивании речевого сигнала с частично компрессированным частотным диапазоном на фоне акустических помех.
По результатам экспериментальных исследований построены графики, иллюстрирующие зависимость слоговой разборчивости, а также эквивалентного отношения сигнал/шум для речевого сигнала с частично сжатым частотным диапазоном от частоты порога компрессии, коэффициента деления мгновенной частоты и от верхней граничной частоты полосы пропускания канала связи.
Определен оптимальный коэффициент передачи частоты в надпороговой области К=0,125 (что соответствует коэффициенту деления мгновенной частоты Кдел=8), а также оптимальное значение частоты порога компрессии — 4 кГц. При этом достигается увеличение эквивалентного отношения сигнал/шум на 14 дБ (с 23 до 37 дБ, при отношении сигнал/шум 20 дБ).
Эффективность применения разработанного точного аналогового нелинейного частотного компрессора для повышения разборчивости речевого сигнала прослушиваемого на фоне акустических помех подтверждена артикуляционными испытаниями компрессора при оптимальных параметрах компрессии и различных соотношениях уровней речевого сигнала и акустической помехи.
Дополнительно проведены экспериментальные исследования зависимости слоговой разборчивости русской речи от ограничения сверху ширины полосы частот спектра огибающей. Исследования проводились с помощью канала неполного анализа-синтеза, по результатам измерения слоговой разборчивости построен график, иллюстрирующий зависимость разборчивости речевого сигнала от степени ограничения полосы частот спектра огибающей. Установленные зависимости показали, что сужение полосы частот спектра огибающей нецелесообразно использовать для повышения разборчивости речи.
ЗАКЛЮЧЕНИЕ
.
Одним из путей повышения разборчивости речевых сигналов, воспринимаемых на фоне акустических помех, может служить их нелинейное преобразование путем точного деления одной из модулирующих функций — мгновенной частоты. В ходе исследования возможных вариантов нелинейного частотного преобразования речевых сигналов получены следующие теоретические и практические результаты:
1. Разработан новый метод повышения разборчивости речи, воспринимаемой на фоне акустических помех, путем сжатия части частотного диапазона речевых сигналов за счет точного деления их мгновенной частоты.
2. Теоретически исследована возможность использования нелинейного преобразования мгновенной частоты речевых сигналов для повышения разборчивости речи, воспринимаемой на фоне акустических помех. Показано, что известные свойства звуков русской речи подтверждают возможность прослушивать речевые сигналы с нелинейно преобразованной мгновенной частотой без восстановления ее масштаба.
3. Проведен математический анализ процесса сжатия частотного диапазона речевых сигналов, который позволил разработать новый способ точного сжатия части диапазона изменения мгновенной частоты речевых сигналов.
4. Теоретически и экспериментально проработаны возможные пути построения нелинейного частотного компрессора. На основании результатов исследования разработаны технические средства нелинейного частотного компрессирования речевых сигналов, позволяющие повышать разборчивость речи, воспринимаемой на фоне акустических помех. На разработанные способ и одно из устройств для его реализации получен патент РФ.
5. Экспериментально исследовано влияние ограничения сверху ширины полосы частот спектра огибающей на слоговую разборчивость русской речи. Установленные зависимости позволяют утверждать, что сужение полосы частот огибающей нецелесообразно использовать для повышения разборчивости речи.
6. Установлены зависимости изменения разборчивости речи при нелинейном частотном компрессировании. Предложено оценивать эффективность преобразования речевых сигналов введением новой характеристики, а именно: эквивалентного отношения сигнал/шум, которое определяется по разборчивости речи. Определены зависимости эквивалентного отношения сигнал/шум от частоты порога компрессии, коэффициента деления мгновенной частоты и от верхней граничной частоты полосы пропускания канала звукопере-дачи.
7. Определены оптимальные, по критерию максимального увеличения разборчивости речи: коэффициент деления мгновенной частоты (равен 8), частота порога компрессии (4 кГц) и верхняя граничная частота полосы пропускания канала звукопередачи (4 кГц). При названных оптимальных параметрах частотного компрессирования установлена зависимость разборчивости речи от изменения соотношения уровней полезного речевого сигнала и акустической помехи. Полученная зависимость показывает возможность практического использования нелинейного частотного компрессирования в широком диапазоне изменения отношения сигнал/шум.
8. Результаты диссертационного исследования внедрены в учебный процесс Санкт-Петербургского государственного университета кино и телевидения, а также в учебный процесс Института переподготовки и повышения квалификации сотрудников ФСБ РФ (С.-Петербург).
Таким образом, в диссертационной работе поставлена и решена новая актуальная задача в области преобразования речевых сигналов — разработаны метод и технические средства сжатия частотного диапазона речевых сигналов для повышения их разборчивости на фоне акустических помех.