Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Экспериментальная проверка программного комплекса проводилась с использованием многодикторпого речевого корпуса со следующими параметрами: 1) 50 дикторов — носителей русского языка (25 женщин и 25 мужчин) — 2) возраст дикторов от 16 до 60 лет- 3) отношение сигнал/шум выше 20 дБ- 4) текстовая часть корпуса содержит 327 фонетически сбалансированных осмысленных фраз на русском языке и 1140… Читать ещё >

Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний (реферат, курсовая, диплом, контрольная)

Содержание

Положения, выносимые на защиту
Глава 1. Обзор подходов к решению проблем сопровождения распределенных мероприятий
- 1. 1. Анализ основных проблем разработки систем сопровождения распределенных мероприятий
- 1. 2. Анализ существующих программных платформ по удаленной обработке мультимедийных сигналов
- 1. 3. Методы предварительной обработки аудиосигналов
- 1. 4. Методы автоматической диаризации речи дикторов
- 1. 5. Выводы по главе 1
Глава 2. Методы и модели обработки мультимедийных данных при сопровождении мероприятий
- 2. 1. Информационная модель сопровождения распределенных мероприятий
- 2. 2. Метод формирования мультимедийного контента
- 2. 3. Метод автоматической диаризации речи дикторов
- 2. 4. Выводы по главе 2
Глава 3. Технические и программные средства сопровождения распределенных мероприятий
- 3. 1. Модель управления техническими средствами поддержки проведения мероприятий в интеллектуальном зале
- 3. 2. Архитектура системы сопровождения распределенных мероприятий
- 3. 3. База данных системы сопровождения распределенных мероприятий
- 3. 4. Выводы по главе 3
Глава 4. Комплекс программных средств распределенной обработки речевых данных
- 4. 1. Архитектура комплекса программных средств ПАРАД-Р
- 4. 2. Программные модули комплекса ПАРАД-Р
- 4. 3. Описание исследовательского стенда экспериментального образца ПАРАД-Р
- 4. 4. Выводы по главе 4

Актуальность темы

диссертации. Организация совместной работы и обсуждений между территориально распределенными участниками с использованием мультимедийных Интернет-приложений и мобильных устройств становится реальной альтернативой традиционным совещаниям. Интернет-приложения для проведения телеконференций и дистанционного обучения Е-тееип§, Е-1есШге становятся всё более популярными при проведении распределенных мероприятий, вебинаров. Такие системы позволяют сэкономить на транспортных расходах, использовать персонифицированную форму обучения, а также предоставляют удобные средства поиска и доступа к информации.

Современные системы связи и совместной работы не позволяют полностью автоматизировать процесс информационного сопровождения совещаний, поэтому часть работы по обслуживанию удаленных участников выполняется операторами-людьми. Кроме того, при проведении деловых встреч, заседаний, совещаний и других формальных мероприятий обязательной процедурой является протоколирование выступлений участников. Однако анализ и расшифровка аудиозаписей совещаний требует привлечения специалистов-стенографистов и занимает длительное время. Методы анализа речи и идентификации дикторов могут использоваться для автоматизации процесса выделения реплик участников совещания. Одним из перспективных способов увеличения эффективности систем анализа речи является применение параметров, полученных на основе многоканального и многомодального анализа поведения участников в зале совещаний.

Другим ограничением систем телеконференций является пропускная способность коммуникационных сетей и мультимедийные возможности клиентского устройства, которые существенным образом влияют на параметры пользовательского интерфейса и выбор информационных каналов, доступных для удаленных участников. Поэтому актуальность разработки методов и программного обеспечения аудиовизуальной обработки сигналов при сопровождении распределенных совещаний, отличающихся применением средств автоматического анализа и оценки информационной значимости передаваемого контента и обеспечивающих передачу только актуального аудиовизуального потока данных для удаленного участника и уменьшение потребляемых ресурсов мобильным устройством, не вызывает сомнений.

Цель работы и задачи исследования. Основной целыо диссертационной работы является разработка методов и программно-аппаратных средств автоматической обработки аудиовизуальных сигналов, повышающих возможности удаленного участника при участии в дискуссиях во время распределенных мероприятий, а также снижении затрат на подготовку мультимедийных отчетных материалов. Для достижения указанной цели в работе поставлены и решены следующие задачи:

1. Анализ современных методов и программных систем сопровождения распределенных совещаний.

2. Разработка информационной модели сопровождения участников совещаний.

3. Разработка метода формирования мультимедийного контента для вывода на устройство удаленного участника мероприятия.

4. Разработка метода диаризации речи дикторов для протоколирования выступлений участников совещаний.

5. Разработка архитектуры системы сопровождения участников распределенных совещаний и генерации отчетных материалов.

6. Разработка комплекса программных средств распределенной обработки мультимедийных данных для сопровождения распределенных мероприятий.

Методы исследования. Для решения поставленных задач в работе используются методы цифровой обработки сигналов, теории множеств, теории компьютерных сетей, распознавания образов, теории объектно-ориентированного проектирования и программирования.

Научная новизна работы состоит в следующем:

1. Предложена информационная модель сопровождения участников распределенных мероприятий, описывающая совместную работу средств автоматической обработки мультимедийных сигналов, записанных встроенными средствами зала совещаний и клиентскими устройствами, отличающаяся применением упорядочивания информационных потоков, необходимых для восприятия текущей ситуации в зале удаленными участниками и подготовки отчетных материалов по заранее заданным шаблонам.

2. Разработан метод формирования текущего мультимедийного контента, отличающийся использованием событийной модели анализа информационной значимости аудиовизуальных потоков для компиляции данных, используемых при трансляции и архивировании результатов мероприятия.

3. Разработан метод диаризации речи дикторов, анализирующий спектральные и временные характеристики голосового источника речевого сигнала независимо от контекста и языка, отличающийся фильтрацией фонационных паралингвистических явлений на основе комбинированного анализа стационарности речевых сегментов, обеспечивающий временную сегментацию отрезков речи, принадлежащих одному диктору, позволяющий определить число выступающих и выделить их фразы в одноканальном аудиопотоке.

4. Разработана архитектура системы сопровождения распределенных мероприятий, учитывающая состояние аудио-, видеои презентационного оборудования и формирующая необходимый для восприятия хода дискуссии и поддержания диалога мультимедийный контент веб-интерфейса, отличающаяся адаптивностью к характеристикам клиентского устройства и применением регулярно обновляемой реляционной базой данных мероприятий с персонифицированной информацией по участникам, используемой при генерации протоколов по проведенным мероприятиям, содержащих очередность выступлений, реплики и видеозаписи участников, а также другие статистические данные по событиям, автоматически накапливаемым в ходе совещания.

5. Разработан экспериментальный образец программного комплекса автоматического анализа, распознавания и диаризации разговорной русской речи, отличающийся многофункциональной системой пакетной обработки аудиосигналов с доступом по стандартному протоколу МЯСРу2, обеспечивающий обработку архивных аудиозаписей мероприятий, а также поддержку функционирования других кроссплатформенных приложений по распределению и управлению динамическими речевыми сервисами.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет анализа состояния исследований в данной области, согласованности теоретических выводов с результатами экспериментальной проверки моделей, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.

Практическая ценность работы. Разработанные методы и программные средства направлены на увеличение возможностей удаленного участника при принятии решений и участии в дискуссиях во время распределенных мероприятий. Применение адаптивного к устройству пользователя способа формирования веб-интерфейса позволяет транслировать совещания на различные программно-аппаратные платформы. Разработанная система сопровождения мероприятий дает возможность составлять мультимедийные отчеты распределенных совещаний, значительно сократив время ручной обработки речевых записей. Разработка сети интеллектуальных залов позволит организовать совещания для участников, разделенных пространством, будет способствовать повышению сотрудничества между различными коллективами, позволит сократить расходы на транспорт и обслуживающий персонал. Эффективное отображение информации и коллективное принятие решенияодни из главных достоинств ситуационных центров, поэтому разрабатываемые технологии информационного сопровождения телеконференций будут востребованы государственными министерствами и ведомствами, военными структурами, круппьтми корпорациями, общественно-политическими организациями, активно использующими ситуационные центры в своей работе.

Реализация результатов работы. Исследования, отраженные в диссертации, проведены в рамках научно-исследовательских работ: Министерства образования и науки РФ «Математическое и программное обеспечение автоматического анализа и распознавания разговорной русской речи и диаризации дикторов», ГК № 07.514.11.4139, 2012;2013, «Разработка математического и программного обеспечения ассистивного многомодального интеллектуального пространства», ГК№ 11.519.11.4025, 2011;2013 гг. в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007;2013 годы" — «Разработка принципов и инновационных информационных технологий для взаимодействия пользователей с интеллектуальным пространством», ГК № 14.740.11.0357, 2010;2012 гг.- «Разработка методов человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов для интеллектуальных информационных систем», ГК№ П2360, 2011;2013 гг. в рамках федеральной целевой программы «Научные и научно-педагогические кадры инновационной России на 2009;2013 гг." — грант РФФИ № 12−08−31 520-МОЛа, 2012;2013; грант Президента РФ № 16.120.11.501-МД, 2011;2012. Разработанные методы, алгоритмы, программное обеспечение, а также технические решения были использованы при выполнении МИР с ОАО «Концерн «Океанприбор», а также в рамках учебных курсов на кафедрах Санкт-Петербургского государственного политехнического университета, Санкт-Петербургского государственного университета.

Апробация результатов работы. Результаты диссертационного исследования представлялись на международной конференции «Р1ШСТ» (Санкт-Петербург, 2010; Москва, 2011), международной конференции «Региональная информатика» (Санкт-Петербург, 2010; Санкт-Петербург, 2012) — международной конференции ЮиМТ’Ю (Москва, 2010), всероссийской мультиконференции по проблемам управления МКПУ'11 (Дивноморск, 2011), международной конференции по интеллектуальным пространствам 1Е'12 (Гуанохуато, Мексика, 2012), всероссийской конференции «Информационные технологии в управлении» (ИТУ-2012), (Санкт-Петербург, 2012).

Публикации. По материалам диссертации опубликовано 36 печатных работ, включая 7 публикаций в научных журналах, рекомендованных ВАК: «Доклады ТУСУР», «Известия ВУЗов. Приборостроение», «Вестник компьютерных и информационных технологий», «Информационно-управляющие системы», «Автоматизация и современные технологии», «Труды СПИИРАН», получены 4 свидетельства о регистрации программ для ЭВМ и 1 патент на полезную модель в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам.

Структура и объем работы. Диссертация объемом 145 машинописных страниц содержит введение, четыре главы и заключение, список литературы (125 наименований), 9 таблиц, 22 рисунка, 1 приложение с копиями актов внедрения.

4.4 Выводы по главе 4.

1. Методы и алгоритмы, описанные в главах 2 и 3 были реализованы в программном комплексе автоматического анализа, распознавания и диаризации разговорной русской речи ПАРАД-Р, отличающемся многофункциональной системой пакетной обработки аудиосигналов с доступом по стандартному протоколу М11СРу2, применяющемся для разработки и поддержки функционирования кроссплатформенных приложений по распределению и управлению динамическими речевыми и многомодальными сервисами, в том числе по обработке архивных записей мероприятий.

2. Разработка исследовательского стенда и экспериментального образца автоматического анализа, распознавания и диаризации разговорной русской речи ПАРАД-Р, а также разработка технической документации была выполнена в ходе научно-исследовательской работы по государственному контракту № 07.514.11.4139 «Математическое и программное обеспечение автоматического анализа и распознавания разговорной русской речи и диаризации дикторов» в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007;2013 годы» Минобрнауки РФ.

3. Экспериментальная проверка программного комплекса проводилась с использованием многодикторпого речевого корпуса со следующими параметрами: 1) 50 дикторов — носителей русского языка (25 женщин и 25 мужчин) — 2) возраст дикторов от 16 до 60 лет- 3) отношение сигнал/шум выше 20 дБ- 4) текстовая часть корпуса содержит 327 фонетически сбалансированных осмысленных фраз на русском языке и 1140 орфографически и фонетически разнообразных слов- 5) всего корпус содержит 16 350 фраз- 6) общий объем корпуса -13,5 Гб. При тестировании всего речевого корпуса точность сегментации реплик разных дикторов была выше 85% при использовании разработанного метода диаризации дикторов в одноканальном аудиопотоке.

Заключение

Совокупность предложенных методов и программных средств автоматической обработки аудиовизуальных потоков данных, а также их практическая реализация представляют собой решение актуальной научно-технической задачи информационного и технологического сопровождения распределенных мероприятий на основе анализа информационной значимости мультимедийных потоков, трансляции выбранного контента удаленным участникам и генерации отчетных материалов по результатам мероприятия, внедрение которых вносит значительный вклад в развитие страны. При решении данной задачи были получены следующие результаты:

1. Информационная модель сопровождения участников распределенных мероприятий, отличающаяся применением средств автоматической обработки мультимедийных сигналов с целью автоматизации процесса трансляции и подготовки отчетных материалов по результатам мероприятия.

2. Метод формирования текущего мультимедийного контента, использующий событийную модель анализа информационной значимости мультимедийных потоков при подготовке данных для трансляции удаленному участнику и отчетных материалов по мероприятия.

3. Метод диаризации речи дикторов, отличающийся анализом паралингвистических фонационных явлений, спектральных и временных характеристик голосового источника речевого сигнала независимо от контекста и языка, обеспечивающий временную сегментацию отрезков речи, принадлежащих одному диктору.

4. Архитектура системы сопровождения распределенных мероприятий, формирующая на основе анализа состояния аудио-, видео-, и презентационного оборудования мультимедийный контент, необходимый удаленному участнику для восприятия хода дискуссии, и применяющая персонифицированную базу данных мероприятий при подготовке отчетных материалов по заданным шаблонам.

5. Экспериментальный образец программного комплекса автоматического анализа, распознавания и диаризации разговорной русской речи, отличающийся многофункциональной системой пакетной обработки аудиосигналов с доступом по стандартному протоколу МЯСРу2, применяющийся для разработки и поддержки функционирования кроссплатформенных приложений по распределению и управлению динамическими речевыми и многомодальными сервисами, в том числе по обработке архивных записей мероприятий.

Полученные результаты соответствуют п. 7 «Человеко-машинные интерфейсы, модели, методы, алгоритмы и программные средства машинной графики, визуализации, обработки изображений, систем виртуальной реальности, мультимедийного общения» и п. 8 «Модели и методы создания программ и программных средств для параллельной и распределенной обработки данных, языки и инструментальные средства параллельного программирования» паспорта специальности 05.13.11 — «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей».

Показать весь текст

Список литературы

Будков, В.Ю. Контекстно-осведомленная система управления оборудованием и веб-трансляции мероприятий из интеллектуального зала / В. Ю. Будков, М. В. Прищепа, C.B. Глазков // Вестник БГУ, Выпуск 9, 2011. С. 75−82.
Будков, В.Ю. Многоканальная система анализа речевой активности участников совещания / В. Ю. Будков, М. В. Прищепа, A.JI. Ронжин, К. Марков // Третий междисциплинарный семинар «Анализ разговорной русской речи» АРЗ. 2009. СПб. 2009. С. 57−62.
Будков, В.Ю. Анализ современных методов и систем диаризации дикторов / В. Ю. Будков, АЛ. Ронжин // Известия вузов. Приборостроение. № 11. 2012. С. 43−46.
Будков, В.Ю. Методы и программные средства обработки мультимедийных данных при сопровождении распределенных совещаний //Доклады ТУСУР. № 1. 2013. С. 50−54.
Будков, В.Ю. Разработка модельно-алгоритмического обеспечения управления распределенными модулями интеллектуального зала / В. Ю. Будков, М. В. Прищепа // Труды СПИИРАН. Вып. 23. 2012. С. 431 438.
Будков, В.Ю. Технологии формирования аудиовизуального интерфейса системы телеконференций / В. Ю. Будков, A.JI. Ронжин, Ал.Л. Ронжин // Автоматизация и современные технологии. № 5. 2011, С. 20−26.
Будков, В.Ю. Формирование профиля пользователя на основе аудиовизуального анализа ситуации в интеллектуальном зале совещаний / В. Ю. Будков, Ал.Л. Ронжин, Ан.Л. Ронжин // Труды СПИИРАН. Вып. 23. 2012.-С. 482−494.
Городецкий, В.И. Агентская платформа для повсеместных вычислений / В. И. Городецкий, О. В. Карсаев, В. В. Самойлов, C.B. Серебряков // Информационные технологии и вычислительные системы. Вьтп. 4. М.: Наука, 2008.-С. 51−60.
Городецкий, В.И. Многоагентная система планирования и составления расписаний: разработка распределенной базы знаний / В. И. Городецкий, О. В. Карсаев // Известия Южного федерального университета. Технические науки. Т. 22. № 4. 2001. С. 25−38.
Даджион, Д. Цифровая обработка многомерных сигналов/ Д. Даджион, Р. Мерсеро // Пер. с англ., М.:Мир, 1988. 488 с.
Димариа, М.Д. Стандарт MRCP на службе у разработчиков голосовых приложений, интернет ресурс // (дата обращения: 05.09.2012).
Жожикашвили, В.А. Интеграция автоматизированных систем массового обслуживания на основе речевых технологий и web-сервисов / В. А. Жожикашвили, Р. В. Билик, А. Ю. Трощенко, Н. В. Петухова, М. П. Фархадов // Проблемы управления, № 3. 2007. С. 54−58.
Карпов, A.A. Речевые технологии в многомодальных интерфейсах / A.A. Карпов, А. Л. Ронжин, И. В. Ли, АЛО. Шалин // Труды СПИИРАН. Т. 1. № 2. 2004. С. 183−193.
Лаборатория № 17 «Автоматизированные системы массового обслуживания» Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В. А. Трапезникова РАН, интернет ресурс (дата обращения: 09.09.2012)
Мазуренко, И.Л. Многоканальная система распознавания речи, Сборник трудов VI всероссийской конференции «Нейрокомпьютеры и их применение», Москва, 2000 г.
Мясников, Л.Л. Объективное распознавание звуков речи // ЖТФ. 1943. -№ 3. — С. 109−115.
Никифоров, В.В. Маршрутные сети — графический формализм представления структуры программных приложений реального времени /
В.В. Никифоров, В. И. Шкиртиль // Труды СПИИРАН. Под общ.ред. Р. М. Юсупова. Вьтп. 14, — СПб.: Наука, 2010. — С. 7−28.
Никифоров, В.В. Оценка времени отклика цепочек задач в распределенных системах реального времени / В. В. Никифоров, В. И. Шкиртиль // Труды СПИИРАН, вып. 4(23), 2012. С.134−156.
Никифоров, В.В. Структурные модели для анализа многозадачных программных систем / В. В. Никифоров, В. А. Павлов // Адаптивные и интеллектуальные роботы, № 1−2, 2011. С. 19−29.
Никифоров, В.В. Условия взаимного блокирования заданий в многозадачных программных приложениях / В. В. Никифоров,
B.И. Шкиртиль // Информационно-измерительные и управляющие системы, № 11, 2011.-С. 52−56.
Речевые Технологии Стэл КС, интернет ресурс (дата обращения: 20.09.2012).
Ронжин, АЛ. Технологии поддержки гибридных е-совещаний на основе методов аудиовизуальной обработки / А Л. Ронжин, В. Ю. Будков // Вестник компьютерных и информационных технологий, № 4, 2011.1. C.31−35.
Ронжин, A.JI. Технологии формирования аудиовизуального интерфейса системы телеконференций / A. J1. Ронжин, В. Ю. Будков, Ал.Л. Ронжин // Автоматизация и современные технологии. № 5. 2011, С. 20−26.
Сапожков, М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963.-452 с.
Центр Речевых Технологий | ЦРТ, интернет ресурс // (дата обращения: 06.09.2012).
Эффективные совещания, интернет ресурс http://am-meetingpoint.com/2013/02/16/eflektivny e-soveshhaniya-podgotovka-provedenie-kontrol/ (дата обращения: 21.09.2012).
Юсупов, P.M. От умных приборов к интеллектуальному пространству / Р. МЛОсупов, АЛ. Ронжин // Вестник Российской Академии Наук: научный и общественно-политический журнал, Том 80, Вып. 1, 2010. С. 45−51.
Ajmera, J. Clustering and segmenting speakers and their locations in meetings / J. Ajmera, G. Lathoud, I. Mc-Cowan // In: Proc. of ICASSP 1, 2004. P. 605 608.
Ajmera, J. Robust speaker change detection / J. Ajmera, I. McCowan, II. Bourlard // IEEE Signal Process. Lett. 11 (8), 2004. P. 649−651.
Akita, Y. Unsupervised speaker indexing using anchor models and automatic transcription of discussions / Y. Akita, T. Kawahara // In: Proc. Of EUROSPEECI-I, 2003. P. 2985−2988.
Aldrich, F. Smart Homes: Past, Present and Future / Inside the Smart Home // Ed. Harper R. London: Springer-Verlag, 2003. P. 17−39.
Anguera, X. Friends and Enemies: A Novel Initialization for Speaker Diarization / X. Anguera, C. Wooters, J. Hernando // in Proc. ICSLP, 2006.
Anguera, X. Hybrid speech/non-speech detector applied to speaker diarization of meetings / X. Anguera, M. Aguilo, C. Wooters, C. Nadeu, J. Hernando// In: Proc. of Odyssey, 2006. P. 1−6.
Antolin, A.G. Speaker diarization for multiple-distant-microphone meetings using several sources of information / A.G. Antolin, X. Anguera, C. Wooters // IEEE Trans. Comput. 56 (9), 2007. P. 1212−1224.
Barras, C. Multistage speaker diarization of broadcast news / C. Barras, X. Zhu, S. Meignier, J.L. Gauvain // IEEE Trans. Audio Speech Language Process. 14 (5), 2006.-P. 1505−1512.
Basseville, M. Detection of Abrupt Changes: Theory and Application/ M. Basseville, I. Nikiforov // Prentice-Hall. 1993. 528 p.
Benesty, J. Handbook of Speech Processing / J. Benesty, M. Sondhi, Y. Huang // (Eds.), Springer, 2008. 1176 p.
Ben-IIarush, O. Weighted Segmental K-Means Initialization for SOM-Based Speaker Clustering / O. Ben-IIarush, I. Lapidot, II. Guterman // In: Proc. ICSLP, 2008.
Boehm, C. Effective metric-based speaker segmentation in the frequency domain / C. Boehm, F. Pernkopf// In: Proc. of ICASSP, 2009. P. 4081⁰⁸⁴.
Brandstein, M. Microphone Arrays Signal Processing Techniques and Applications / M. Brandstein, D. Ward // Springer-Verlag, Berlin Heidelberg New York, 2001.-398 p.
Budkov, V.Yu. Audiovisual Speaker Localization in Medium Smart Meeting Room / V.Yu. Budkov, An.L. Ronzhin, Al.L. Ronzhin // In Proc. of the 8th International Conference on Information, Communications and Signal Processing ICICS-2011, Singapore, 2011.
Budkov, V.Yu. Context-Aware Mobile Applications for Communication in Intelligent Environment / V.Yu. Budkov, A.L. Ronzhin, A.I. Saveliev // Springer-Verlag Berlin Heidelberg, S. Andreev et al. (Eds.): NEW2AN/ruSMART 2012, LNCS 7469. 2012. P. 307−315.
Budkov, V.Yu. Determination and Recording of Active Speaker in Meeting Room / V.Yu. Budkov, A.L. Ronzhin // In Proceedings of the 14-th International Conference SPECOM'2011, Kazan, 2011, P. 361−366.
Cetingul, H.E. Discriminative Lip-Motion Features for Biometric Speaker Identification/ I I.E. Cetingul, Y. Yemez, E. Erzin, A.M. Tekalp // IEEE Int. Conf. on Image Processing, Singapore, 2004. P. 2023- 2026.
Cheng, S.S. A sequential metric-based audio segmentation method via the Bayesian information criterion / S.S. Cheng, II.M. Wang // In: Proc. of Eurospeech, Geneva, Switzerland. 2003. P.945−948.
Chu, S.M. Fishervoice and semisupervised speaker clustering / S.M. Chu, I I. Tang, T.S. Huang // In: Proc. of ICASSP, 2009. P. 4089−4092.
Delacourt, P. DISTBIC: a speaker based segmentation for audio indexing/ P. Delacourt, C.J. Wellekens // Speech Commun. 32 (1−2), 2000. P. 111−127.
Deshayes, J. Online Statistical Analysis of Change-point Models Using Non-parametric and Likelihood Methods / J. Deshayes, D. Picard // Springer-Verlag. 1986.
Ducatel, K. ISTAG Scenarios of Ambient Intelligence in 2010/ K. Ducatel, M. Bogdanowicz, F. Scapolo, J. Leijten, J-C. Burgelman // European Commission Community Research. Feb. 2001. — 58 p.
Ellis, D.P.W. Speaker turn segmentation based on between-channel differences / D.P.W. Ellis, J.C. Liu // In: Proc. of NIST Meeting Recognition Workshop at ICASSP 2004. 2004. P. 112−117.
Evans, N.W.D. Speaker diarization using unsupervised discriminant analysis of inter-channel delay features / N.W.D. Evans, C. Fredouille, J.F. Bonastre // In: Proc. of ICASSP, 2009. P. 4061−4064.
Eveno, N. Accurate and Quasi-Automatic Lip Tracking / N. Eveno, A. Caplier, P.-Y. Coulon // IEEE Trans, on Circuits and Systems for Video Technology vol. 14, Iss. 5, 2004. P.706−715.
Friedland, A.G. Fusing short term and long term features for improved speaker diarization/ A.G. Friedland, B.O. Vinyals, C.Y.I-Iuang, D.C.Muller // In: ICASSP, 2009. P. 4077−4080.
Garau, G. Audio and Visual Synchronisation for Speaker Diarisation / G. Garau, A. Dielmann, I I. Bourlard // In Proc. of International Conference on Speech and Language Processing, Interspeech, Makuhari, Japan, 2010. P. 2654−2657.
Han, K. J. A robust stopping criterion for agglomerative hierarchical clustering in a speaker diarization system / K.J. Han, S.S. Narayanan // Proc. Interspeech 2007 Eurospeech, 2007. — P. 1853−1856.
Han, K. J. Novel inter-cluster distance measure combining GLR and ICR for improved agglomerative hierarchical speaker clustering / K.J. Han, S.S. Narayanan // In: Proc. of ICASSP, 2008. P. 4373³⁷⁶.
Hershey, J. Audio-Vision: Using Audio-Visual Synchrony to Locate Sound / J. Hershey, J. Movellan // In Proc. NIPS, 1999, P. 813−819.
Johnson, D. Array Signal Processing: Concepts and Techniques / D. Johnson, D. Dugeon // Prentice-Hall, Inc. Englewood Cliffs, New Jersey, 1993. 512 p.
Kemp, T. Strategies for automatic segmentation of audio data / T. Kemp, M. Schmidt, M. Westphal, A. Waibel // In: Proc. of ICASSP 3, Istanbul, Turkey, 2000.-P. 1423−1426.
Kinnunen, Т. An overview of text-independent speaker recognition: from features to supervectors / T. Kinnunen, I I. Li // SpeechComm.52 (1), 2010. -P. 12−40.
Koh, E. C. W. Speaker Diarization using Direction of Arrival Estimate and Acoustic Feature Information: the I2RNTU Submission for the NIST RT 2007 // in Proc. Rich Transcription Spring Meeting Recognition Evaluation, 2007.
Kotti, M. Speaker segmentation and clustering / M. Kotti, V. Moschou, C. Kotropoulos // Signal Process. 88 (5), 2008. P. 1091−1124.
Krim, H. Two decades of array signal processing research: the parametric approach / H. Krim, M. Viberg // Cambridge, MA Signal Processing Magazine, Jul 1996, Volume: 13, Issue: 4. P. 67−94.
Kristjansson, T. Voicing features for robust speech detection / T. Kristjansson, S. Deligne, P. Olsen // In: Proc. of ICSLP, Lisbon, Portugal. 2005.
Lapidot, I. Self organizing maps with BIC for speaker clustering // IDIAP Research Report 02−60. 2002.
Laskowski, K. Simultaneous multispeaker segmentation for automatic meeting recognition / K. Laskowski, T. Schultz // In Proc. of EUSIPCO, Poznan, Poland, 2007.-P. 1294−1298.
Lassman, J. MarketScope for IVR Systems and Enterprise Voice Portals/ J. Lassman, B. Elliot // Gartner Report, 8 August 2012, интернет ресурс
BRDFBF&ct=l 20 817&st-sg> (Дата обращения: 04.09.2012).
Leeuwan, D.A. The TNO speaker diarization system for NIST RT05s meeting data // In: Proc. of Machine Learning for Multimodal Interaction Workshop (MLMI), Edinburgh, UK, 2005. P. 440−449.
Liu, D. Fast speaker change detection for broadcast news transcription and indexing/D. Liu, F. Kubala//In: Eurospeech-1999, 1999.-P. 1031−1034.
Lu, L. Speaker change detection and tracking in realtime news broadcast analysis / L. Lu, I I. Zhang // In: Proc. of the ACM Multimedia, France, 2002. -P. 602−610.
Markov, K. Never-Ending Learning with Dynamic Hidden Markov Network / K. Markov, S. Nakamura // In: Interspeech-2007, 2007. P. 1437−1440.
Meignier, S. Step-by-step and integrated approaches in broadcast news speaker diarization / S. Meignier, D. Moraru, C. Fredouille, J.F. Bonastre, L. Besacier // Comput. Speech Language 20 (2−3), 2006. P.303−330.
Moh, Y. Toward domain independent clustering/ Y. Moh, P. Nguyen, J.-C. Junqua // In: Proc. of ICASSP II, 2003. P. 85−88.
Nguyen, P. Rich transcription 2002 site report / P. Nguyen, L. Rigazio, Y. Moh, J.C. Junqua // Panasonic speech technology laboratory (PSTL), In: Proc. Rich Transcription Workshop. 2002.
Nishida, M. Unsupervised speaker indexing using speaker model selection based on Bayesian information criterion / M. Nishida, T. Kawahara // In: Proc. of ICASSP 1,2003.-P. 172−175.
NIST, Rich Transcription 2009 Evaluation, интернет ресурс // (Дата обращения 12.05.2012).
Noulas, A. Multimodal Speaker Diarization/ A. Noulas, G. Englebienne, B.J.A. Krose // IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(1), 2012. P. 79−93.
Novavox, интернет ресурс (дата обращения: 11.09.2012).
Nwe, T.L. Speaker diarization in meeting audio / T.L. Nwe, H. Sun, H. Li, S. Rahardja // In: Proc. of ICASSP, 2010. P. 4073⁰⁷⁶.
Omar, M. Blind change detection for audio segmentation / M. Omar, U. Chaudhari, G. Ramaswamy // In: Proc. of ICASSP. 2005. P. 501−504.
Oualil, Y. A multiple hypothesis Gaussian mixture Filter for acoustic source localization and tracking / Y. Oualil, F. Faubel, D. Klakow // in Proc. IWAENC, Sep. 2012,-P. 233−236.
Ouellet, P. Flavors of Gaussian warping / P. Ouellet, G. Boulianne, P. Kenny // In Proceedings of the 9th European Conference on Speech Communication and Technology (Interspeech'2005-Eurospeech), 2005. P. 2957−2960.
Padilha, E. Nonverbal Behaviours Improving a Simulation of Small Group Discussion / E. Padilha, J. Carletta // In Proc. of the 1st Nordic Symposium on Multimodal Communications, 2003. P. 93−105.
Pelecanos, J. Feature warping for robust speaker verification / J. Pelecanos, S. Sridharan // In: Proc. of ISCA Speaker Recognition Workshop, Odyssey, Crete, Greece. 2001.-P. 213−218.
Reynolds, D. A Study of New Approaches to Speaker Diarization / D. Reynolds, P. Kenny, F. Castaldo // In Proc. of Int. Conf. ICSLP'2009, 6−10 September, Brighton, UK, 2009. P. 1047−1050.
Rich Transcription Evaluation Project. National Institute of Technology (NIST), 2002−2009, интернет ресурс // (дата обращения 03.09.2012).
Ronzhin, Al.L. Web-system for mobile participant support/ Al.L. Ronzhin, M.V. Prischepa, Budkov V.Yu. // In Proceedings of the 8th Conference of Open Innovations Framework Program FRUCT Finland, Lappeenranta, 2010, pp. 154−159.
Ronzhin, A. Multichannel System of Audio-Visual Support of Remote Mobile Participant at E-Meeting / A. Ronzhin, V. Budkov, A. Karpov // Springer-Verlag Berlin Heidelberg, S. Balandin et al. (Eds.): NEW2AN/ruSMART 2010, LNCS 6294, 2010.-P. 62−71.
SAMPA computer readable phonetic alphabet, интернет ресурс // (дата обращения: 10.09.2012).
Sargin, М.Е. Lip Feature Extraction based on Audio-Visual Correlation/ M.E. Sargin, E. Erzin, Y. Yemez, A.M. Tekalp // EUSIPCO 2005, Antalya, Turkey.
Schiele, B. Object recognition using multidimensional receptive field histograms / B. Schiele, J. L. Crowley // European Conference on Computer Vision. 1996. vol. I,-P. 610−619.
Shriberg, E. Higher-level features in speaker recognition speaker classification // Series Lecture Notes in Computer Science 4343, 2007. P. 241−259.
Sinha, R. The Cambridge University March 2005 speaker diarisation system / R. Sinha, S.E. Tranter, M.J.F. Gales, P.C. Woodland // In: Proc. of the European Conference on Speech Communication and Technology, 2005. P. 2437−2440.
Slaney, M. FaceSync: a linear operator for measuring synchronization of visual facial images and audio tracks / M. Slaney, M. Covell // in Proc. NIPS, 2000. -P. 814−820.
Speech Drive, интернет ресурс (дата обращения: 07.09.2012)
Speereo Software UK Ltd, интернет ресурс (дата обращения: 15.09.2012)
Sun, II. Speaker diarization system for Rt07 and Rt09 meeting room audio // In: Proc. of ICASSP, 2010. P. 4982−4985.
Tranter, S. An overview of automatic speaker diarization systems / S. Tranter, D. Reynolds // IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, no. 5, 2006.-P. 1557−1565.
Tritschler, A. Improved speaker segmentation and segment clustering using the Bayesian information criterion/ A. Tritschler, R. Gopinath // In: Proc. of EuroSpeech, 1999. P. 679−682.
Tsiaras, V. Video and audio based detection of filled hesitation pauses in classroom lectures / V. Tsiaras, C. Panagiotakis, Y. Stylianou. // Proc. of the 17th European Signal Processing Conference (EUSIPCO 2009). Glasgow, Scotland, 2009. P. 834−838.
Voitovetsky, I. Unsupervised speaker classification using self-organizing maps / I. Voitovetsky, II. Guterman, A. Cohen // In: Proc. of the IEEE Workshop Neural Networks for Signal Processing, Amelia Island, USA, 1997. P. 578 587.
Wu, T. UBM-based incremental speaker adaptation / T. Wu, L. Lu, K. Chen, H.J. Zhang // In: Proc. of ICME 2, 2003. P. 721−724.
Yamaguchi, M. Spectral crosscorrelation features for audio indexing of broadcast news and meetings / M. Yamaguchi, M. Yamashita, S. Matsunaga // In: Proc. of ICASLP. 2005. P. 613−616.
Yehia, H. Quantitative association of vocal tract and facial behavior / I I. Yehia, P. Rubin, E. Vatikiotis-Bateson // Speech Communication, vol. 26, 1998, -P. 23−43.
Zelkha, E. From Devices to Ambient Intelligence / E. Zelkha, B. Epstein // Digital Living Room Conference, June 1998.
Zhang, C. Boosting-Based Multimodal Speaker Detection for Distributed Meeting Videos/ C. Zhang, P. Yin, Y. Rui, R. Cutler, P. Viola, X. Sun, N. Pinto, Z. Zhang// IEEE Transactions on Multimedia, Vol.10, No.8, 2008. -P. 1541−1552.
Zhou, B. Efficient audio stream segmentation via the combined T2 statistic and the Bayesian information criterion / B. Zhou, J.H.L. Hansen // IEEE Trans. Speech Audio Process. 13 (4), 2005. P. 467¹⁷⁴.
Zhou, Y. An Improved Speaker Diarization System for Multiple Distance Microphone Meetings / Y. Zhou, H. Suo, J. Wang, Y. Yan // Intelligent Computation Technology and Automation (ICICTA), 2012 Fifth International Conference. 2012. P. 80−83.
Zhu, X. Combining speaker identification and BIC for speaker diarization/ X. Zhu, C. Barras, S. Meignier, J.L. Gauvain // In: Proc. of European Conf. on Speech Communications Technology, Lisbon, Portugal. 2005.
Zhu, X. Speaker diarization: from broadcast news to lectures / X. Zhu, C. Barras, L. Lamel, J.L. Gauvain // In: Proc. of MLMI, 2006. P. 396¹⁰⁶.
Zhu, Y. Unified fusion rules for multisensory multihypothesis network decision systems / Y. Zhu, X. Rong // IEEE Trans. System Man Cybernet. 33 (4), 2003. -P. 502−513.

Заполнить форму текущей работой