Системы видеоконференц-связи
Предположим, мы имеем неподвижную картинку (кадр) на экране компьютера размером 300×200 пикселов с глубиной цвета всего 1 бит/пиксел. На запись такого изображения потребуется 60 Kбайт. Скорость смены кадров в телевизоре составляет 25 кадров в секунду, в профессиональном кинопроекторе 24 кадра в секунду. Нам бы хотелось получить такую же частоту смены кадров размером 60 Kбайт каждый при сеансе… Читать ещё >
Системы видеоконференц-связи (реферат, курсовая, диплом, контрольная)
МИНОБРНАУКИ РОССИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования
«Южно-Российский государственный университет экономики и сервиса»
(ФГБОУ ВПО «ЮРГУЭС»)
Факультет __ФДО_________________
Кафедра _ «Информационные системы и радиотехника"__
Специальность _230 201 Информационные системы и технологии__
КУРСОВАЯ РАБОТА Тема _"Системы видеоконференц связи (ВКС)"
по дисциплине _ Информационные технологии Разработал ___________________ _Гребенкин А.С.
группа _ ИС-ДнD31____
Руководитель __ст. преподаватель__________ __Лободенко А.Г._____
ШАХТЫ 2012
МИНОБРНАУКИ РОССИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования
«Южно-Российский государственный университет экономики и сервиса»
(ФГБОУ ВПО «ЮРГУЭС»)
Факультет __ФДО_________________
Кафедра _ «Информационные системы и радиотехника"__
Специальность _230 201 Информационные системы и технологии__
ЗАДАНИЕ на курсовой проект по дисциплине __Информационные технологии на курсовую работу для студента «_3_» курса ИС-ДнD31_ группы Гребенкину Андрею Сергеевичу
(
Тема «Системы видеоконференц связи (ВКС)» ____________________
_________________________________________________________________________________________________________________________________________________________________________________________________
Исходные данные ____________________________________________
______________________________________________________________________________________________________________________________
Объем проекта (работы) _______________________________________
Срок проектирования _________________________________________
Руководитель _ ст. преподаватель____________ Лободенко А.Г.______
Задание к выполнению принял студент____ Гребенкин А.С.__________
Дата выдачи задания «____» ___________________ 2012 г.
Аннотация Курсовая работа выполнена на тему: «Системы видеоконференц связи (ВКС)».
Курсовая работа содержит следующие разделы:
— Введение
— Обзор систем видеоконференций
— Технические требования на абонентское устройство конференцсвязи
— Выводы и рекомендации
— Библиографический список В первой главе рассмотрено назначение систем видеоконференций, передача мультимедийных данных в INTERNET в реальном времени.
Во второй главе представлен выбор структуры и форматов данных в системе видеоконференций, выбор метода кодирования — декодирования, описание стандарта кодирования.
Курсовая работа выполнена на 41 стр., представлено 5 рисунков, 1 таблица, 20 источников библиографического списка.
Содержание Введение
1. Обзор систем видеоконференций
1.1 Назначение систем видеоконференций
1.2 Передача мультимедийных данных через сеть INTERNET в режиме реального времени
2. Технические требования к абонентским устройствам видеоконференцсвязи
2.1 Выбор структуры и форматов данных в системе видеоконференций
2.2 Выбор метода кодирования — декодирования, описание стандарта кодирования Выводы и рекомендации Библиографический список
Современный компьютерный мир не знает пространственных границ. Друзья, коллеги, работники предприятий могут находиться на расстоянии сотен или даже тысяч километров друг от друга. Поэтому возникает вопрос, как лучше всего организовать полноценный контакт с ними.
Личная встреча не всегда возможна. Часто электронная почта не способна решить все проблемы. Телефонные переговоры значительно ограничены в возможностях. Нужны инструменты, способные оперативно и качественно решать подобного рода задачи. Современные решения видеоконференцсвязи (ВКС), обладающие функциональностью систем высокого класса и доступностью простого телефона, существенно расширяют возможности телекоммуникаций.
Видеоконференцсвязь позволяет добавить к средствам передачи голоса и данных обмен визуальной информацией. То есть мы не только видим и слышим собеседника, но и демонстрируем ему цифровые документы, бумажные копии и предметы. Данный способ групповой работы находит все большее применение благодаря увеличению числа компаний, рабочие места сотрудников которых располагаются по месту жительства, что способствует повышению эффективности их работы и существенной экономии средств. В частности, исключается аренда помещений, оплата счетов за электроэнергию, рабочее время.
Системы видеоконференцсвязи способствуют росту динамичности и гибкости бизнеса, оптимизируя управление в крупных региональных, межрегиональных, транснациональных компаниях и в учреждениях государственной власти. Другими словами, применение видеоконференцсвязи дает людям и бизнесу следующие неоспоримые преимущества. Увеличивается производительность труда, экономится дорогостоящее время, появляется возможность быстро и эффективно распределять ресурсы, ускоряются процессы принятия решений за счет привлечения при необходимости дополнительных внештатных экспертов.
Снижается время на переезды и связанные с ними расходы, повышается комфортность работы и коммуникаций, устраняется усталость и даже стресс работников предприятий использующих (ВКС). Условия выживания на конкурентном рынке требуют от компаний высокой скорости принятия решений, что, в конечном счете, ввиду развития технологий электронных коммуникаций, все чаще служит основным мотивом применения электронных систем видеоконференций в бизнесе. Все вышеперечисленные факторы способствуют росту потребления услуг интерактивного общения и коммуникаций, порождая спрос, способствуя тем самым повышению качества и количества систем видеоконференцсвязи в мире.
1. Обзор систем видеоконференций
1.1 Назначение систем видеоконференций
В связи с бурным развитием сетевых, а так же коммуникационных технологий, возросшей производительностью компьютеров, и с необходимостью обрабатывать все большее количество информации (как локальной, так сетевой и межсетевой) возросла роль программного обеспечения и оборудования, что можно обозначить общим названием «persоn to persоn». Удаленный доступ, дистанционное образование и управление, а также средства проведения видеоконференций переживают период бурного роста. Неся собой назначение облегчить и увеличить эффективность взаимодействия как человека с компьютером, так и групп людей с компьютерами, объединенными в сеть. В данный момент в мире насчитывается более 250 компаний занимающихся разработкой программного обеспечения и оборудования для видеоконференций, не смотря на то, что экологическая ниша уже была сформирована уже около десяти лет назад.
Видеоконференции предоставляют нам возможность работать и общаться в режиме реального времени, а также использовать разделяемые приложения, интерактивного обмена информацией, ВКС начинают рассматривать не только как нечто экспериментальное, но и как частичное решение проблемы автоматизации деятельности на предприятии, дающее существенное преимущество по сравнению с традиционными решениями.
К концу1994 года во всем мире имелось уже свыше 100 тысяч настольных систем видеоконференций. Стоит отметить что, увеличение установленных систем ВКС осуществляется экспоненциально. В начале 1996 года число установленных во всем мире систем КС превышало 400 тысяч, из которых более половины в США. В штатах уже никто не удивлен тем фактом, что на визитных карточках помимо номера телефона и e-mail указываются данные о способе связи через ВКС.
Удаленная диагностика человека — еще одно перспективное направление применения средств КС, ведь даже находясь в тысяче километров от пациента, врач может правильно диагностировать больного пациента. Прибегая к «виртуальной» консультации высококлассных специалистов, присутствие которых в данном месте не является возможным, больной может получить рекомендации которые в редком случае могут, даже спасти ему жизнь. По аналогии с врачами, группа технических специалистов может проводить диагностирование поломок технического оборудования не неся затрат на поездку к месту поломки. Такую практику ввели на многих предприятиях занимающихся гарантийным обслуживанием сложной техники для производств.
Широкими шагами шагает практика получения образования через сеть интернет, она позволяет не просто увидеть и прослушать лекцию известного преподавателя, но осуществить интерактивное общение с ним при помощи видеоконференции.
Традиционно видеоконференции характеризовались как комбинация видео и звука, а также технологии работы с сетями связи для взаимодействия в режиме реального времени и часто использовались рабочими группами, которые собирались в определенном месте (как правило в зале заседаний, оснащенный специализированным оборудованием), чтобы связаться с другими группами людей. Стоимость систем видеоконференций, используемых для этого, была очень велика из-за необходимости использования арендованных каналов связи и дорогого качественного оборудования.
Так же всегда существовали проблемы с передачей информации, а так же ее искажением, тем более что имевшиеся тогда технические и программные средства, увы, не способствовали популяризации и, соответственно, распространению систем видеоконференцсвязи. [6]
Системы проведения видеоконференций можно разделить как по техническим характеристикам так и по принципам соответствия стандартам, но и на настольные (индивидуальные), студийные и групповые. Каждый из этих вариантов видеоконференций четко ориентирован на решение своих определенных задач. Самыми распространенными системами ВКС на сегодняшний день являются — настольные, в силу своей доступности и доступности цены.
Настольные видеоконференции (НВ)
Рисунок 1 — Настольные видеоконференции (НВ)
Аудитория и вариант общения: обычно диалог двух лиц. Качественная характеристика связи: отсутствие необходимости в большой производительности (ширине полосы связи). Стиль общения: спонтанный, неформальный. Необходимые затраты: только ПО, используемое на рабочем месте. Необходимое оборудование: ПК с установленной web-камерой, микрофон, динамики или наушники, LAN, ISDN соединение.
Настольная видеоконференция объединяет аудио и видео средства, технологии связи для обеспечения взаимодействия в режиме реальном времени, путем использования обычного персонального компьютера. При этом все участники находятся на своих рабочих местах, а подключение к сеансу видеоконференций производится с персонального компьютера способом, сходным с обычным телефонным звонком. [6]
Настольная видеоконференция позволяет пользователям эффектно заполнять промежутки времени между согласованием совместных действий и выполнением согласованных действий, что дает несравненно больший эффект, чем просто общение по телефону.
Для НВ требуются: ПК сконфигурированный для использования в сети, со звуковыми и видео возможностями, кодер-декодер (для сжатия/декомпрессии звуковых и видеосигналов), видеокамера, микрофон, быстродействующий модем, сетевое соединение или ISDN линия.
Способность совместно использовать приложения — неотъемлемая часть современных настольных систем видеоконференций. При совместном использовании идей или данных уже недостаточно видеть и слышать другого человека. Значимо больший эффект может дать совместное общение при помощи аудио и видеоинформации совмещенные с возможностью одновременно видеть и использовать различные документы и приложения.
В настоящее время большинство наиболее популярных систем использует «White Board», или виртуальную аудиторную доску (иногда называют «доска объявлений»). С ее помощью отдельная экранная область зарезервирована для просмотра и совместного использования документов в дополнение к окну конференцсвязи, на котором отображаются участники НВ.
Обычно под виртуальной аудиторной доской нужно понимать программное обеспечение, дающее возможность совместного создания и редактирования документа всеми участниками конференции. Причем сам документ может не только состоять из текстовой информации, но и иметь возможность отображать и графику, и различные элементы оформления, такие, как выделение участков текста маркером, например. Виртуальная аудиторная доска (White Board), применяемая практически во всех системах компьютерной видеоконференцсвязи, во многих случаях является одним из основных инструментов, приближающих партнеров к условиям реальных семинаров, дискуссий.
Рисунок 2 — Виртуальная аудиторная доска в системе VisitVideo (Nortel)
Групповые видеоконференции (ГВ)
Доступная аудитория и вариант общения: группа с группой. Качественная характеристика связи: необходима большая производительности (ширине полосы связи). Стиль общения: практически формальный, ориентирующийся на регламент или устав группы. Необходимые затраты: программное и аппаратное обеспечение, а также затраты на специализированные средства и помещения.
Рисунок 3 — Групповые видеоконференции (ГВ)
Необходимое оборудование: обязательны дисплей (по диагонали 29 или 37 дюймов) с возможностью масштабирования изображения, switched 56, ISDN соединение, специализированное оборудование.
Оптимально для совместной интерактивной выработки решений, организации группового взаимодействия между удаленными группами.
Как видно из вышеперечисленных характеристик, ГВ подходят для организации эффективного взаимодействия больших и средних групп пользователей. Причем благодаря значительно более высокому качеству видеоизображения сегодня возможны обмен и просмотр документов, демонстрация которых в НВ исключается. Кроме того, ГВ идеально подходят для проведения дискуссий и выступлений там, где личное присутствие не представляется возможным.
Число устанавливаемых систем ГВ сопоставимо с числом НВ, но возрастать оно будет не столь быстро, как НВ, из-за необходимости использования в ГВ, как минимум, ISDN линии.
Студийные видеоконференции (СВ)
Доступная аудитория и вариант общения: обычно один говорящий с аудиторией. Качественная характеристика связи: необходима максимальная производительность (ширина полосы связи). Стиль общения: формальный, жестко регламентированный, устанавливаемый ведущим. Необходимые затраты: на оборудование студии, на специализированное оборудование.
Необходимое оборудование: студийная камера (ы), соответствующее звуковое оборудование, контрольное оборудование и мониторы, доступ к спутниковой связи или оптоволоконной линии связи. Оптимально для решения задач, где требуется максимальное качество и максимум возможностей для организации обработки информации большим числом людей. Характерные представители: специализированное телеоборудование.
Студийные видеоконференции — относительно новая технология, появившаяся из нескольких других существующих технологий. В прошлом студийные видеоконференции были невозможны. Однако интенсивное развитие компьютерных технологий, особенно технологий связи, мультимедиа и персональных компьютеров, дало им жизнь. Сегодня большинство компаний ищут способы использования этой новой технологии, чтобы сохранить конкурентоспособность на своем сегменте рынка.
Первыми появились студийные видеоконференции, использующие специализированное телевизионное оборудование, которое стоило многие десятки, если не сотни тысяч долларов и которые напоминали собой телевизионную студию со специализированным осветительным и звуковым оборудованием, с десятком камер. Кроме того, либо приходилось арендовать специализированную линию, либо использовать спутниковую связь. Студийные видеоконференции — это своего рода «hi-end» системы. Их используют только большие корпорации, имеющие возможность вкладывать многие сотни тысяч долларов в создание, развитие и поддержание в рабочем состоянии оборудования.
Групповые системы видеоконференции представляют собой нечто более близкое к настольным, нежели к студийным. Поэтому большинство предприятий, выпускающих настольные средства ВКС, имеют в своем каталоге один-два варианта групповых средств ВКС.
Самая доступная и распространенная система видеоконференций базируется на базе ПК. Большинство настольных видеоконференций состоит из набора программного обеспечения и аппаратуры, интегрированных в компьютер. Типичный набор состоит из одной-двух периферийных плат, микрофона, видеокамеры, наушников либо колонок и программного обеспечения. Для связи используется либо ISDN, либо локальная сеть, либо аналоговые телефонные линии.
Наиболее оптимальный уровень быстродействия — это использование локальной вычислительной сети в качестве конвейера передачи. При этом на основе протокола CSMA-CD (Carrier-Sense Multiple Access/Collision Detection, или множественный доступ с контролем носителя и обнаружением конфликтов, стандартный метод и протокол асинхронного доступа к сети с широкой топологией) теоретическое быстродействие передачи составляет 10 Mbps (или даже 100 Mbps с более новыми системами). Данный вариант имеет преимущество в быстродействии, однако чтобы получить подобный высокий уровень производительности, сеть должна быть специально выделена для проведения видеоконференций (несколько неблагоразумно предполагать, что вся система локальной сети на основе протокола CSMA-CD будет создана для единственной цели — для видеоконференции). Действительно, если бы видеоконференция использовала существующую систему, то в итоге быстродействие было бы меньше оптимального из-за необходимости совмещать стандартные функции локальной сети с проведением видеоконференций. Большинство локальных вычислительных сетей использует посылку пакетов данных, в то время как системе видеоконференций требуется пересылка непрерывных потоков данных.
Нужно помнить, что нет стандартов для межсоединения сетей видеоконференций (H. 320 относится только к ISDN), следовательно, существуют проблемы корректного связывания разнородных сетей видеоконференций. Кроме того, стандарт Н.320, признанный сейчас базовым, на основе которого разрабатываются остальные стандарты видеоконференций, в свое время встретил противодействие Intel. Она в противовес ITU сформировала свой собственный комитет PCWG, который занимался продвижением стандарта Indeo фирмы Intel. Недовольство фирмы Intel было вызвано ограничениями, накладываемыми стандартом Н.320 (вернее, ее подразделом G.261). Ситуация со стандартами для видео (противостояния VHS и Video-8) не повторилась. Intel обеспечила совместимость с Н.320 (только QCIF, но не CIF, как PictureTel, например).
Идеи по развитию видеоконференцсвязи упираются в такие достаточно серьезные проблемы, как полное соответствие систем прежде всего принятым промышленным стандартам, таким, как H.320, который определяет, каким образом, в каком объеме и с каким качеством будут передаваться аудиои видеоданные по линиям ISDN.
Стремление привести все средства к единому стандарту весьма важно. Это дает возможность многим потенциальным поставщикам ввести в рынок различные решения, ориентированные как на разнообразные сферы применения, так и на различные ценовые группы и гарантирующие конечному пользователю возможность сделать выбор, не опасаясь несовместимости между декларированными системами. Это также означает, что настольная видеоконференцсвязь используется на предприятии, которое приобрело достаточное число однотипных комплектов. А это в свою очередь при соответствии всех систем стандартам видеоконференцсвязи позволит приобретать наборы, которые по своим характеристикам наиболее полно соответствуют требованиям специфических приложений пользователя без ограничения на использование других комплектов как программного, так и коммуникационного и аппаратного обеспечения.
Главная проблема с качеством видео состоит в том, что имеющиеся технологии позволяют осуществлять относительно низкую скорость передачи кадра (фрейма). Однако эта проблема может быть решена, если система будет использовать хорошую видео фиксацию и эффективную реализацию сжатия изображения без существенной потери качества.
Значительно проще решение проблем с качеством аудио. Несмотря на то, что среднее человеческое ухо в состоянии воспринимать колебания от 20 Герц до 20 кГерц, колебания, вызываемые человеческим голосом, лежат в значительно более узкой полосе. Это позволяет существенно уменьшить расходы сетевого трафика на передачу аудиоинформации. Вот почему многие поставщики систем настольных видеоконференций предпочитают класть в основу своих продуктов хорошее качество аудио и развитые средства групповой обработки информации.
Качество и объем данных
Чем выше передаваемый объем данных, тем более качественным получается видеоизображение. При скорости T1 (1536 Кб/с) качество видео наиболее оптимально. Однако большинство пользователей не могут использовать данную скорость из-зи большой стоимости. Именно поэтому для пользователей, которым требуется оптимальное сочетание качества видео и стоимости, особенно популярно использование 768 Кб/с. Большинство организаций использует 384 Кб/с. Наконец, 128 Кб/с доступно большинству частных пользователей ISDN.
Кроме того, существует целый ряд стандартов, прямо и косвенно базирующихся на Н.320: Н.310 (для АТМ и широкополосной ISDN), Н.322 (isoEthernet), Н.323 (Ethernet) и, Н.324 (для аналоговых линий). В стандарте Н.321 добавлен стандарт MPEG-2, позволяющий получить полноэкранное видеоизображение телевизионного качества. [7]
Если поддержка стандартов ряда Н.320, Н.323, Р.324 декларирована огромным количеством поставщиков, то наибольшее число проблем связано со стандартом Т.120). Т.120 регламентирует разделение документов, приложений, использование доски объявлений и пересылку файлов. Менее 10 процентов изделий ведущих поставщиков оборудования для настольных видеоконференций поддерживает указанный стандарт (из более чем 60 основных наименований — всего 6).
Видеоконференции — оптимальный выбор
Как сделать правильный выбор, необходимо ли вложить максимум средств, купить десяток дорогостоящих систем или ограничиться более простыми и приобрести вдвое больше?
Именно поэтому при решении вопроса использования средств видеоконференций необходимо исходить из ряда факторов, где цена и обилие возможностей стоят, отнюдь, не на первом месте. В первую очередь нужно знать несколько ключевых моментов, на основе которых и следует оценивать средства видеоконференций.
В основе любой современной системы проведения видеоконференций лежит устройство, называемое кодер-декодером (кодеком). Кодек ответствен за кодирование, декодирование, сжатие и декомпрессию звуковых и видеосигналов. При всех прочих равных условиях (например, при одинаковом качестве камер) чем лучше реализован кодек, тем лучше звуковой и видеосигнал. Функции кодек могут быть выполнены программным обеспечением либо аппаратным путем с помощью DSP или некоторой комбинации из программного и аппаратного обеспечения. Главный фактор, влияющий на цену системы, — цена и возможности кодека. Реализованные программно кодеки иногда в несколько раз дешевле аппаратных. Однако для успешного использования их необходима значительно более высокая производительность компьютера, а также нужно больше места на жестком диске и больше оперативной памяти. Иногда групповые и настольные системы так близки по возможностям и ценам между собой, что бывает трудно корректно позиционировать их, тем более что большинство поставщиков имеют в своем арсенале и те и другие.
Персональные системы обычно выполняются как приложения для Windows, с видеоизображением в маленьком окне на рабочем столе. Они также используют одиночную ISDN линию (один или два 64-Kбит/с b-канала). Кроме традиционной двухсторонней звуковой и видеосвязи, эти системы, как правило, предоставляют возможности, которые облегчают совместное использование данных, разделяемых приложений, что позволяет обеим сторонам редактировать документ или электронную таблицу. Термин «говорящие головы» иногда характеризует звуковое и видеокачество этих систем. Быстрые движения приводят к значительному искажению изображений, именуемому обычно эффектом тени. Такое качество — результат ограничений ширины полосы частот, компромиссов в реализации кодека, дешевой камеры и звуковых компонентов. Поэтому в данных системах, хотя и декларируется совместимость со стандартами Н.320 и G.261, в большинстве случаев частота кадров не превышает 10, а разрешение CIF вообще недоступно.
Системы групповых конференций, с другой стороны, иногда предлагают видео в полный экран, 30 кадров в секунду, а также высочайшее качество аудио. Достигается это путем использования сложных кодеков, высококачественных аудио и видео компонент и значительной полосы пропускания, лежащей вне пределов одноканальной ISDN. Поэтому неудивительно, что стоимость таких систем может в несколько раз превышать вроде бы близкую по характеристикам настольную систему. Так что если есть потребность в использовании групповых средств видеоконференций, то необходимо применение Т1 (как дробного, так и выделенного) или PRI соединения ISDN. Следовательно, минимум для них — 384 Кбит/с.
Еще одна серьезная проблема — проведение конференций с числом участников более 20 и совместное использование не совсем совместимых систем. Для решения этих проблем используются специализированные устройства MCU (Multipoint Control Unit), которые исторически являются своеобразными бриджами для соединения Н.320 совместимых устройств. В число основных функций MCU входит кодирование, декодирование, микширование аудиои видеосигнала, а также управление, контроль за проведением видеоконференции. Однако сейчас название MCU ошибочно дается тем бриджам, которые поддерживают многосторонние конференции с использованием только данных или данных и аудио и несовместимы с Н.320. На самом деле эти устройства называются MCS (Multimedia Conferencing Server).
Видеоконференции в настоящее времяотносительно новая технология, которая появилась путем использования лучших свойств других технологий, в том числе и столь популярной сегодня мультимедиа.
1.2 Передача мультимедийных данных через сеть INTERNET в режиме реального времени
Системы ВКС базируются на достижениях мультимедиа технологий и средств телекоммуникаций. Изображение и звук с помощью компьютера передаются по каналам связи локальных и глобальных вычислительных сетей. Ограничивающими факторами для таких систем будет пропускная способность канала связи и алгоритмы компрессии/декомпрессии цифрового изображения и звука.
Предположим, мы имеем неподвижную картинку (кадр) на экране компьютера размером 300×200 пикселов с глубиной цвета всего 1 бит/пиксел. На запись такого изображения потребуется 60 Kбайт. Скорость смены кадров в телевизоре составляет 25 кадров в секунду, в профессиональном кинопроекторе 24 кадра в секунду. Нам бы хотелось получить такую же частоту смены кадров размером 60 Kбайт каждый при сеансе связи в системе видеоконференции. Для этого наш канал связи должен обеспечить пропускную способность 1,5 Mбайт/с. Ни один современный канал связи такой пропускной способности за разумную цену не обеспечивает, поэтому возникает проблема сжатия видеосигнала. На сегодня известны два основных типа алгоритмов сжатия видеоизображения: алгоритмы сжатия без потерь и алгоритмы сжатия с потерями. Алгоритмы сжатия с потерями позволяют добиться очень высокой степени сжатия изображения, такой, что даже по низкоскоростным каналам связи можно передавать изображения с незначительной потерей качества, практически незаметной для человеческого глаза. Выполнение таких алгоритмов требует достаточно больших вычислительных мощностей. Для достижения приемлемых частот смены кадров на экране монитора требуется дорогостоящее аппаратное обеспечение, называемое общим словом CODEC (compression/decompression). Концепция настольных видеоконференций предполагает возможность доступа к телеконференциям с любого, даже домашнего, компьютера. Использование дорогостоящего оборудования CODEC идет вразрез с этой концепцией, что заставляет создателей аппаратуры систем видеоконференций прибегать к разумным компромиссам. Декомпрессия изображения требует меньшей вычислительной мощности, чем компрессия, поэтому некоторые производители используют аппаратные средства для компресcии данных, а декомпрессия осуществляется программно.
Стандарт JPEG и его производные
Стандарт JPEG (Joint Photographic Experts Group, группа экспертов по фотографическим изображениям) является стандартом ISO (International Standards Organization, Международная организация по стандартизации). Этот стандарт поддерживает компрессию как с потерями, так и без потерь. Однако если термин «формат стандарта JPEG» употребляется без каких-либо оговорок, то обычно это означает, что подразумевается компрессия с потерями. Сжатие изображения по методу JPEG предполагает преобразование блоков изображения в реальном цвете размером 8×8 пикселов в набор уровней яркости и цветности. К каждому блоку применяется двумерное дискретное преобразование Фурье, в результате чего получается набор из 64 коэффициентов, представляющих данный блок. Затем коэффициенты квантуются с помощью таблиц компонентов яркости и цветности, после чего информация о блоке упаковывается в коэффициенты, соответствующие меньшим частотам. В результате получается представление коэффициентов в двоичном виде. Этот метод обеспечивает сжатие изображения в пределах от 10:1 до 20:1 при приемлемом качестве. Основное назначение формата JPEG с потерями — получение фотографических изображений высокой степени сжатия при незначительных видимых потерях качества. Формат MJPEG, или Motion JPEG (JPEG для подвижных изображений) стандартом ISO не является. Тем не менее, так принято называть цифровой видеосигнал, представляющий собой последовательность изображений, сжатых с потерями в стандарте JPEG.
Стандарт Н.261 разработан организацией по стандартам телекоммуникаций ITU (Международный союз телефонной связи), которая раньше называлась CCITT (Международный консультативный комитет по телеграфии и телефонии). На практике, первый кадр в стандарте H.261 всегда представляет собой изображение стандарта JPEG, компрессированное с потерями и с высокой степенью сжатия. Последующие кадры строятся из фрагментов изображения (блоков), либо JPEG-подобных, либо фиксирующих отличия от фрагментов предыдущего кадра. Последовательные кадры видеоряда, как правило, очень похожи друг на друга. Поэтому стандарт Н.261 чаще всего используют в телеконференциях. Код, задающий перемещение части изображения, короче кода аналогичного фрагмента в стандарте MJPEG, то есть требует передачи меньшего количества данных. Поэтому при определенном значении пропускной способности линии связи изображение в формате H.261 зрительно воспринимается более качественным, чем изображение в формате MJPEG. Различия кадров всегда кодируются исходя из предыдущего кадра. Поэтому данная методика получила название «дифференциация вперед» (forward differencing). Итак, изображение в формате H.261 передается меньшим количеством данных, и, кроме того, для декодирования такого изображения требуется меньше вычислительной мощности, чем для декодирования видеопотока в формате MJPEG при аналогичном качестве.
Спецификация MPEG (Motion Picture Experts Group, Группа экспертов по подвижным изображениям) предлагает еще более изощренную, чем стандарт H.261, методику повышения качества изображения при меньшем объеме передаваемых данных, реализованную в стандартах MPEG-1 и MPEG-2. Помимо дифференциации вперед, стандарт MPEG-1 обеспечивает дифференциацию назад (backward differencing) и усреднение (averaging) фрагментов изображения. Даже на CD-ROM c одинарной скоростью передачи данных (1,2 Мбит/с) MPEG-1 позволяет добиться качества, сравнимого с качеством кассеты VHS, записанной на профессиональной аппаратуре. Кроме того, MPEG-1 нормирует кодирование аудиосигнала, синхронизированного с видеосигналом. 2.2.4.1. 10]
ВИДЕО MPEG
Цветное цифровое изображение из сжимаемой последовательности переводится в цветовое пространство YUV (YCbCr). Компонента Y представляет собой интенсивность, а U и V — цветность. Так как человеческий глаз менее восприимчив к цветности, чем к интенсивности, то разрешений цветовых компонент может быть уменьшено в 2 раза по вертикали, или и по вертикали и по горизонтали. К анимации и высококачественному студийному видео уменьшение разрешения не применяется для сохранения качества, а для бытового применения, где потоки более низкие, а аппаратура более дешевая, такое действие не приводит к заметным потерям в визуальном восприятии, сохраняя в то же время драгоценные биты данных.
Основная идея всей схемы — это предсказывать движение от кадра к кадру, а затем применить дискретное косинусное преобразование (ДКП), чтобы перераспределить избыточность в пространстве. ДКП выполняется на блоках 8×8 точек, предсказание движения выполняется на канале интенсивности (Y) на блоках 16×16 точек, или, в зависимости от характеристик исходной последовательности изображении (чересстрочная развертка, содержимое), на блоках 16×8 точек. Другими словами, данный блок 16×16 точек в текущем кадре ищется в соответствующей области большего размера в предыдущих или последующих кадрах. Коэффициенты ДКП (исходных данных или разности этого блока и ему соответствующего) квантуются, то есть делятся на некоторое число, чтобы отбросить несущественные биты. Многие коэффициенты после такой операции оказываются нулями. Коэффициент квантизации может изменяться для каждого «макроблока» (макроблок — блок 16×16 точек из Y-компонент и соответствующие блоки 8×8 в случае отношения YUV 4:2:0, 16×8 в случае 4:2:2 и 16×16 в случае 4:4:4. Коэффициенты ДКП, параметры квантизации, векторы движения и пр. кодируется по Хаффману с использованием фиксированных таблиц, определенных стандартом. Закодированные данные складываются в пакеты, которые формируют поток согласно синтаксису MPEG.
Соотношение кадров друг с другом
Существует три типа закодированных кадров. I-фремы — это кадры, закодированные как неподвижные изображения — без ссылок на последующие или предыдущие. Они используются как стартовые. Pфреймы — это кадры, предсказанные из предыдущих Iили P-кадров. Каждый макроблок в Pфрейме может идти с вектором и разностью коэффициентов ДКП от соответствующего блока последнего раскодированного I или P, или может быть закодирован как в I, если не соответствующего блока не нашлось.
И, наконец, существуют Bфреймы, которые предсказаны из двух ближайших I или P-фреймов, одного предыдущего и другого — последующего. Соответствующие блоки ищутся в этих кадрах и из них избирается лучший. Ищется прямой вектор, затем обратный и вычисляется среднее между соответствующими макроблоками в прошлом и будущем. Если это не работает, то блок может быть закодирован как в Iфрейме.
Последовательность раскодированных кадров обычно выглядит как
I B B P B B P B B P B B I B B P B B P B …
Здесь 12 кадров от I до I фрейма. Это основано на требовании произвольного доступа, согласно которому начальная точка должна повторяться каждые 0.4 секунды. Соотношение P и B основано на опыте.
Чтобы декодер мог работать, необходимо, чтобы первый P-фрейм в потоке встретился до первого B, поэтому сжатый поток выгдядит так:
0 x x 3 1 2 6 4 5 …
где числа — это номера кадров. xx может не быть ничем, если это начало последовательности, или Bфреймы -2 и -1, если это фрагмент из середины потока.
Сначала необходимо раскодировать Iфрейм, затем P, затем, имея их оба в памяти, раскодировать B. Во время декодирования P показывается Iфрейм, B показываются сразу, а раскодированный P показывается во время декодирования следующего. [11]
Сжатие аудио
В процессе сжатия аудио используются хорошо разработанные психо-акустические модели, полученные из экспериментов с самыми взыскательными слушателями, чтобы выбросить звуки, которые не слышны человеческому уху. Это то, что называется «маскированием», например, большая составляющая в некоторой частоте не позволяет услышать компоненты с более низким коэфициентом в близлежащих частотах, где соотношение между энергиями частот, которые маскируются, описывается некоторой эмпирической кривой. Существуют похожие временные эффекты маскирования, а также более сложные взаимодействия, когда временной эффект может выделить частоту или наоборот.
Звук разбивается на спектральные блоки с помощью гибридной схемы, которая объединяет синусные и полосные преобразования, и психо-акустической модели, описанной на языке этих блоков. Все, что может быть убрано или сокращено, убирается и сокращается, а остаток посылается в выходной поток. В действительности, все выглядит несколько сложнее, поскольку биты должны распределяться между полосами. И, конечно же, все, что посылается, кодируется с сокращением избыточности.
MPEG (коэффициент сжатия).
Коэффициент сжатия свыше 100:1.
Считают, что MPEG достигает необычайно высокого качества видео при степени сжатия свыше 100:1. Эти заявления обычно не включают понижение цветового разрешения исходного цифрового изображения. На практике, поток кодируемого изображения редко превышает величину потока, закодированного в MPEG, более чем в 30 раз. Предварительное сжатие за счет уменьшения цветового разрешения играет основную роль в формировании коэффициентов сжатия с 3 нулями во всех методах кодирования видео, включая отличные от MPEG.
Как MPEG-1, так и MPEG-2, могут быть применены к широкому классу потоков, частот и размеров кадров. MPEG-1, знакомый большинству людей, позволяет передавать 25 кадров/с с разрешением 352×288 в PAL или 30 кадр/с с разрешением 352×240 в NTSC при величине потока менее 1.86 Мбит/с — комбинация, известная как «Constrained Parameters Bitstreams». Это цифры введены спецификацией White Book для видео на CD (VideoCD).
Фактически, синтаксис позволяет кодировать изображения с разрешением до 4095×4095 с потоком до 100 Мбит/с. Эти числа могли бы быть и бесконечными, если бы не ограничение на количество бит в заголовках.
С появлением спецификации MPEG-2, самые популярные комбинации были объединены в уровни и профили. Самые общие из них:
Source Input Format (SIF), 352 точки x 240 линий x 30 кадр/с, известный также как Low Level (LL) — нижний уровень, и *" CCIR 601″ (например 720 точек/линию x 480 линий x 30 кадр/с), илиMain Level — основной уровень.
Компенсация движения заменяет макроблоки макроблоками из предыдущих картинок
Предсказания макроблоков формируются из соответствующих 16×16 блоков точек (16×8 в MPEG-2) из предыдущих восстановленных кадров. Никаких ограничений на положение макроблока в предыдущей картинке, кроме ее границ, не существует.
Исходные кадры — reference — (из которых формируются предсказания) показаны безотносительно своей закодированной формы. Как только кадр раскодирован, он становится не набором блоков, а обычным плоским цифровым изображением из точек.
В MPEG размеры отображаемой картинки и частота кадров может отличаться от закодированного в потоке. Например, перед кодированием некоторое подмножество кадров в исходной последовательности может быть опущено, а затем каждый кадр фильтруется и обрабатывается. При восстановлении интерполированы для восстановления исходного размера и частоты кадров.
Фактически, три фундаментальных фазы (исходная частота, кодированная и показываемая) могут отличаться в параметрах. Синтаксис MPEG описывает кодированную и показываемую частоту через заголовки, а исходная частота кадров и размер известен только кодеру. Именно поэтому в заголовки MPEG-2 введены элементы, описывающие размер экрана для показа видеоряда.
В I, P и B-фреймах все макроблоки одного типа.
В I — фрейме макроблоки должны быть закодированы как внутренние — без ссылок на предыдущие или последующие, если не используются масштабируемые режимы. Однако, макроблоки в P — фрейме могут быть как внутренними, так и ссылаться на предыдущие кадры. Макроблоки в Bфрейме могут быть как внутренними, так и ссылаться на предыдущий кадр, последующий или оба. В заголовке каждого макроблока есть элемент, определяющий его тип.
Без компенсации движения.
С компенсацией движения.
Пропущенные макроблоки в P — фреймах.
Пропущенные макроблоки в B — фреймах.
Структура последовательности строго фиксирована шаблоном I, P, B.
Последовательность кадров может иметь любую структуру размещения I, P и B фреймов. В промышленной практике принято иметь фиксированную последовательность (вроде IBBPBBPBBPBBPBB), однако, более мощные кодеры могут оптимизировать выбор типа кадра в зависимости от контекста и глобальных характеристик видеоряда. Каждый тип кадра имеет свои преимущества в зависимости от особенностей изображения (активность движения, временные эффекты маскирования). Например, если последовательность изображений мало меняется от кадра к кадру, есть смысл кодировать больше B — фреймов, чем P. Поскольку B — фреймы не используются в дальнейшем процессе декодирования, они могут быть сжаты сильнее, без влияния на качество видеоряда в целом.
Требования конкретного приложения также влияют на выбор типа кадров: ключевые кадры, переключение каналов, индексирование программ, восстановление от ошибок и т. д.
Коэффициенты сжатия.
Коэффициент сжатия MPEG видео часто заявляется как 100:1, тогда как в действительности он находится в районе от 8:1 до 30:1.
Можно получить «более 100:1» для видео на компакт-диске (White Book) с потоком 1.15 Мбит/с.
1 Высокое разрешение исходного видео.
Большинство источников видеосигнала для кодирования имеют большее разрешение, чем-то, которое актуально оказывается в закодированном потоке. Самый популярный студийный сигнал, известный как цифровое видео «D-1» или «CCIR 601», кодируется на 270 Мбит/с.
Цифра 270 Мбит/с получается из следующих вычислений:
Интенсивность (Y):858 точек/линию x 525 линий/кадр x 30 кадр/с x 10 бит/точку ≅ 135 Мбит/сR-Y (Cb):429 точек/линию x 525 линий/кадр x 30 кадр/с x 10 бит/точку ≅ 68 Мбит/сB-Y (Cb):429 точек/линию x 525 линий/кадр x 30 кадр/с x 10 бит/точку ≅ 68 Мбит/сИтого:27 млн. точек/с x 10 бит/точку = 270 Мбит/с
2 Следует выбросить гасящие интервалы.
Из 858 точек яркости на линию под информацию изображения задействованы только 720. В действительности, количество точек на линию — предмет многих ссор на инженерных семинарах, и это значение лежит в пределах от 704 до 720. Аналогично, только 480 линий из 525 задействованы под изображение по вертикали. Настоящее значение лежит в пределах от 480 до 496. В целях совместимости MPEG-1 и MPEG-2 определяет эти числа как 704×480 точек на интенсивность и 352×480 для цветоразностей. Пересчитывая исходный поток, будем иметь:
Y704 точек/линию x 480 линий x 30 кадр/с x 10 бит/точку ≅ 104 Мбит/сC2 компоненты x 352 точки/линию x 480 линий x 30 кадр/с x 10 бит/точку ≅ 104 Мбит/сИтого:~ 207 Мбит/сОтношение (207/1.15) составляет всего 180:1.
3 Следует учесть большее количество бит/точку.
В MPEG на точку отводится 8 бит. Принимая во внимание этот фактор, отношение становится 180 * (8/10) = 144:1.
4 Учтем более высокое разрешение цветности. Известный студийный сигнал CCIR-601 представляет сигнал цветности с половинным разрешением по горизонтали, но с полным вертикальным разрешением. Это соотношение частот оцифровки известно как 4:2:2. Однако, MPEG-1 и MPEG-2 Main Profile устанавливают использование формата 4:2:0, который считается достаточным для бытовых приложений. В этом формате разрешение цветоразностных сигналов в 2 раза меньше по горизонтали и вертикали, чем интенсивность. Таки образом, имеем:
720 точек x 480 линий x 30 кадр/с x 8 бит/отсчет x 1.5 остчетов/точку = 124 Мбит/с, и, таким образом, отношение становится 108:1.
5 Учтем размер кодируемого изображения.
Последняя стадия предварительной обработки — это преобразование кадра формата CCIR-601 в формат SIF уменьшением в 2 раза по горизонтали и вертикали. Всего в 4 раза. Качественное масштабирование по горизонтали выполняется с помощью взвешенного цифрового фильтра с 7 или 4-мя узлами, а по вертикали — выбрасыванием каждого второй линии, второго поля или, опять, цифровым фильтром, управляемым алгоритмом оценки движения между полями. Отношение теперь становится 352 точек x 240 линий x 30 кадр/с x 8 бит/отсчет x 1.5 отсчетов/точку ≅ 30 Мбит/с.
Таким образом, настоящее отношение A/B должно вычисляться между исходной последовательностью в стадии 30 Мбит/с перед кодированием, поскольку это есть действительная частота оцифровки, записываемая в заголовках потока и воспроизводимая при декодировании. Так, сжатия можно добиться уже одним сокращением частоты оцифровки.
6 Частота кадров.
Большинство коммерческих видеофильмов снимаются с киноленты, а не с видео. Основная часть фильмов, записанных на компакт-диски, была оцифрована и редактирована при 24 кадрах в секунду. В такой последовательности 6 из 30 кадров, отображаемых на телевизионном мониторе (30 кадр/с или 60 полей/с, а NTSC), фактически избыточна, и может быть не кодирована в MPEG поток. Это ведет нас к шокирующему выводу, что действительный поток был всего 24 Мбит/с (24 кадр/с / 30 кадр/с * 30 Мбит/с), и коэффициент сжатия составляет всего каких-то 21:1.
Даже при таком коэффициенте сжатия, как 20:1, несоответствия могут возникнуть между исходной последовательность изображений и восстановленной. Только консервативные коэффициенты в районе 12:1 и 8:1 демонстрируют почти полную прозрачность процесса сжатия последовательностей с сложными пространственно-временными характеристиками (резкие движения, сложные текстуры, резкие контуры и т. д.). Несмотря на это, правильно закодированное видео с использованием предварительной обработки и грамотного распределения битов, может достигать и более высоких коэффициентов сжатия при приемлемом качестве восстановленного изображения.
Сжатие видео
При сжатии видео используются следующие статистические характеристики:
1 Пространственная корреляция: дискретное косинусное преобразование 8×8 точек.
2 Особенности человеческого зрения — невосприимчивость к высокочастотным составляющим: скалярное квантование коэффициентов ДКП с потерей качества.
3 Большая пространственная корреляция изображения в целом: предсказание первого низкочастотного коэффициента преобразования в блоке 8×8 (среднее значение всего блока).
4 Статистика появления синтаксических элементов в наиболее вероятном кодируемом потоке: оптимальное кодирование векторов движения, коэффициентов ДКП, типов макроблоков и пр.
5 Разряженная матрица квантованных коэффициентов ДКП: кодирование повторяющихся нулевых элементов с обозначением конца блока.
6 Пространственное маскирование: степень квантования макроблока.
7 Кодирование участков с учетом содержания сцены: степень квантования макроблока.
8 Адаптация к локальным характеристикам изображения: кодирование блоков, тип макроблока, адаптивное квантование.
9 Постоянный размер шага при адаптивном квантовании: новая степень квантования устанавливается только специальным типом макроблока и не передается по умолчанию.
10 Временная избыточность: прямые и обратные векторы движения на уровне макроблоков 16×16 точек.
11 Кодирование ошибки предсказаний макроблоков с учетом восприятия: адаптивное квантование и квантование коэффициентов преобразования.
12 Малая ошибка предсказания: для макроблока может быть сигнализировано отсутствие ошибки.
13 Тонкое кодирование ошибки предсказания на уровне макроблоков: каждый из блоков внутри макроблока может быть кодирован или пропущен.
14 Векторы движения — медленное движение фрагмента изображения со сложным рисунком: предсказание векторов движения.
15 Появления и исчезновения: прямое и обратное предсказание в Bфреймах.
16 Точность межкадрового предсказания: билинейно интерполированные (фильтрованные) разности блоков. В реальном мире движения объектов от кадра к кадру редко попадают на границы точек. Интерполяция позволяет выяснить настоящее положение объекта, зачастую увеличивая эффективность сжатия на 1 дБ.
17 Ограниченная активность движения в P — фреймах: пропущенные макроблоки. Когда вектор движения и ошибка предсказания нулевые. Пропущенные макроблоки очень желательны в кодированном потоке, поскольку не занимают битов, кроме как в заголовке следующего макроблока.
18 Компланарное движение в B — фреймах: пропущенные макроблоки. Когда вектор движения тот же, а ошибка предсказания нулевая.
Стандарт MPEG-2 полностью перекрывает стандарт MPEG-1 и содержит новые, более строгие нормы, ориентированные на требования телевизионного вещания. Например, он поддерживает чересстрочную развертку, как в аналоговом телевидении. Широкое распространение стандарта MPEG-2 способно привести к цифровой революции в области видео, которую давно ожидают и которая будет сравнима с цифровой революцией в области аудио, свершившейся в последнее десятилетие.
Хорошие рыночные перспективы имеются у всех описанных выше стандартов: JPEG, H.261 и MPEG.
Так, формат JPEG лучше всего применять для неподвижных изображений, а также для видеомонтажа, если требуется высокая точность монтажа отдельных кадров. Стандарт MPEG годится для видеопродукции, потребитель которой ждет качества изображения, сравнимого с качеством изображения на бытовой аналоговой видеокассете: компьютерных обучающих материалов, игр, кинофильмов на CD, а также видео по требованию (video on demand). Для на сегодняшний день чаще всего используется стандарт H.261, так как для них не требуется видеоизображения очень высокого качества.
Стандарт Cell
Компания Sun Microsystems предложила свой стандарт компрессии видеоизображения — Cell. Существуют два метода компрессии по этому стандарту: CellA и CellB. Метод CellA требует большей вычислительной мощности для компрессии/декомпрессии сигнала, чем метод CellB. Поэтому в системах ВКС, требующих работы видео в реальном времени, используется метод CellB. В этом методе изображение делится на 4×4 группы пикселов, называемых ячейками (cell). В основу алгоритма компрессии положен метод BTC (Block Truncation Coding). 16 пикселов в каждой ячейке преобразуются в 16-битовую маску цветности и две 8-битовых маски интенсивности, поэтому для кодировки 384 битов требуются всего 32 бита. Это означает степень сжатия 12:1. Преимущество метода Cell заключается в том, что в процессе декомпрессии можно использовать графические примитивы Windows-подобных систем. Такие примитивы выполняются аппаратно стандартными графическими акселераторами, что позволяет пользоваться аппаратной декомпрессией, используя стандартное оборудование, уже установленное в компьютере.
Стандарт NV
Подразделение PARC компании Xerox предложило метод компресии NV (Network Video). Метод используется чаще всего в системах телеконференций, работающих в Internet. На первом шаге алгоритма текущее изображение сравнивается с предыдущим и выделяются области, в которых произошли значимые изменения. Компрессии и последующей пересылке подвергаются только эти области. В зависимости от того, что является лимитирующим фактором — полоса пропускания канала связи или вычислительная мощность оборудования, для компрессии используются либо преобразование Фурье, либо преобразование Гаара. После квантования преобразованного изображения достигается степень сжатия до 20:1.