Помощь в написании студенческих работ
Антистрессовый сервис

Информационная теория зрительного восприятия Д. Марра

РефератПомощь в написанииУзнать стоимостьмоей работы

Приятия. Марр пишет, что Гибсон правильно трактовал проблему восприятия, рассматривая ее как восстановление «истинных» свойств окружающего мира по информации, поступающей от органов чувств. Еще одним важным достоинством теории Гибсона Марр считал тот факт, что Гибсон в анализе восприятия перешел к переменным более высокого порядка, чем исследователи до него: к поверхностям, отношениям между ними… Читать ещё >

Информационная теория зрительного восприятия Д. Марра (реферат, курсовая, диплом, контрольная)

Примером информационного подхода к решению проблем восприятия является концепция американского ученого Дэвида Марра, сотрудника лаборатории искусственного интеллекта Массачусетского технологического института в США. Он занимался компьютерным моделированием перцептивных процессов. Информационная теория Марра была вдохновлена идеями Норберта Винера, Джеймса Гибсона, а также работами Хыобела и Визела в области нейрофизиологии. Теорию Марра часто называют вычислительной (англ, computational) теорией восприятия, так как в ее основе лежит положение о принципиальном сходстве процессов обработки информации, осуществляемых электронно-вычислительной машиной, нервной системой и психикой человека. Поэтому эта теория имеет сферы применения в науке, относящейся к искусственному интеллекту — робототехнике, разработке систем распознавания и компьютерному моделированию психических процессов.

В своей известной монографии «Зрение. Информационный подход к изучению представления и обработки зрительных образов» Д. Марр дает развернутую критику экологическому подходу Гибсона, отмечая при этом, что Гибсон был наиболее близок к информационной модели зрительного вос;

приятия. Марр пишет, что Гибсон правильно трактовал проблему восприятия, рассматривая ее как восстановление «истинных» свойств окружающего мира по информации, поступающей от органов чувств. Еще одним важным достоинством теории Гибсона Марр считал тот факт, что Гибсон в анализе восприятия перешел к переменным более высокого порядка, чем исследователи до него: к поверхностям, отношениям между ними и другим инвариантам, которые остаются неизменными, несмотря на изменения ощущений. «Весь видимый мир можно рассматривать как некоторую композицию гладких поверхностей, функции отражательной способности которых могут отличаться сложной пространственной структурой»[1]. Поверхности иерархически организованы, вложены друг в друга, они обладают разным масштабом (сравните, например, поверхность реки и поверхность подушечки пальцев).

Однако, по мнению Марра, Гибсон значительно упростил процесс извлечения информации, к примеру, он не уточняет, как происходит обнаружение инвариантов. Таким образом, Гибсон был прав в глобальном плане — в подходе к зрительному восприятию, но не прав в том, что недостаточно уделил внимание тонкостям особенностей сложного процесса извлечения информации из среды. Марр полагает, что применение информационного подхода поможет восполнить этот пробел экологической теории за счет рассмотрения процесса извлечения как поэтапного решения задач по обработке информации.

Согласно теории Марра, зрительное восприятие — это процесс определения по образам, что именно присутствует в окружающем мире и где именно оно находится. При этом Марр считает, что принципиально важными свойствами предмета, позволяющими определить, что перед нами, являются его форма и пространственная организация. Поэтому, уточняя функцию зрения, Марр пишет, что предназначение зрения — это построение некоторого описания форм и местоположений объектов. Возможности зрения, разумеется, гораздо шире, оно дает нам информацию об освещенности поверхностей, их яркостях, цветах и текстуре, их движении и др. Однако все это является вторичным, и основной задачей зрения по Марру является формирование представления о форме.

С помощью зрения осуществляется обработка информации, однако помимо обработки оно включает в себя и формирование представлений индивида о мире. Изучение зрения, по мнению Марра, не должно включать в себя только исследование того, как из образов извлекаются различные аспекты мира, представляющие для нас интерес. По мнению автора, оно должно включать в себя исследование природы внутренних репрезентаций, с помощью которых мы получаем эту информацию. Этот дуализм, по словам Марра (репрезентация и обработка информации), составляет ядро большинства задач современной информатики[2].

Зрительное восприятие представляет собой последовательность этапов возрастающей сложности, где по образам происходит порождение репрезентации видимого мира, полезного для наблюдателя и не перегруженного несущественной для него информацией. На каждом этапе происходят обработка и преобразование частичной информации, в итоге формируется репрезентация, содержащая часть информации о мире, и только на последнем этапе эта репрезентация полностью (насколько эго возможно для человеческого зрения) соответствует реальному миру.

Исходная репрезентация, с которой начинается процесс обработки информации, представляет собой массив значений яркостей воспринимаемой картины, зарегистрированных фоторецепторами сетчатки. В дальнейшем процесс получения информации о форме состоит из трех стадий. Каждая стадия выделяется по критерию используемой на этой стадии репрезентации:

  • 1) репрезентация характеристик двумерного изображения типа изменений значений яркости и локальных геометрических свойств;
  • 2) репрезентация характеристик видимых поверхностей в системе координат, начало которой совпадает с позицией наблюдателя (характеристики типа ориентации поверхности, расстояния от наблюдателя, скачкообразных изменений значений этих параметров, коэффициента отражения поверхности, а также приближенного описания основного освещения);
  • 3) репрезентация в системе координат объекта трехмерной структуры и организации (наблюдаемой формы) в сочетании с каким-либо описанием свойств поверхности объекта.

Рассмотрим подробнее каждый из этапов (табл. 2.1). Первый этап представляет собой обработку исходного материала, предоставляемого сетчаткой — паттерна значений яркостей изображения, зарегистрированных фоторецепторами. Из нейрофизиологии известно, что ретинальный образ представляет собой пространственное распределение значений интенсивности, анализ этого пространственного распределения является стартовой точкой в осуществлении зрительного восприятия.

Таблица 2.1

Структура репрезентаций для извлечения информации о форме объекта1

Тип репрезентации.

Цель использования.

Что извлекается.

Изображение.

Представление яркостей.

Значение яркости в каждой точке изображения.

Первоначальный эскиз.

Получение в явном виде существенной информации о двумерном изображении, главным образом об изменениях яркости и геометрических свойствах их распределения и организации.

Точки пересечения нулевого уровня.

Пятнышки.

Концы и разрывы.

Отрезки яркостных переходов. Допустимые прямые.

Группы.

Криволинейные структуры. Границы.

Края.

1 Адапт. по: Марр Д. Указ. соч. С. 53.

Тип репрезентации.

Цель использования.

Что извлекается.

2,5-мерный эскиз.

Получение в явном виде информации об ориентации и приближенных значениях глубины видимых поверхностей, контурах разрывов значений этих величин в координатной системе наблюдателя.

Локальная ориентация поверхности.

Расстояние до наблюдателя. Разрывы по глубине.

Разрывы значений ориентации поверхности.

Представление трехмерной модели.

Описание формы (объектов)и пространственная организация в системе координат объекта.

Трехмерные модели иерархически упорядочиваются; основу каждой модели образует некоторая пространственная конфигурация, составленная из нескольких стержней или осей; к ней прикрепляются объемные или поверхностные непроизводные элементы, характеризующие форму объекта.

Результатом первого этапа обработки является двумерная репрезентация, называемая первоначальным эскизом. Распределение значений яркости отражает контрастность воспринимаемой картины, что позволяет зрительной системе распознавать контуры — внутренние и внешние — фигур и обнаруживать эффекты, связанные с освещением, — источники подсветки, бликов и прозрачности.

Задачей этой стадии является преимущественно обнаружение поверхностей (выделение фигуры из фона) и детекция их свойств (освещенности, текстуры, цвета и т. д.). Первоначальный эскиз строится из базовых элементов изображения — пятен, границ, пересечений, разрывов и концов отрезков.

Далее, на втором этапе к первоначальному эскизу применяется ряд процедур, что обеспечивает получение новой репрезентации, называемой 2,5-мерным эскизом. На этой стадии извлекается то, что Марр называет геометрией видимых поверхностей — это информация об их ориентации, наклоне, расстоянии от наблюдателя, а также контуры нарушений непрерывности этих параметров (например, места, где одна поверхность перекрывает другую и т. д.). Как первоначальный эскиз, так и 2,5-мерный эскиз зависят от ориентации проекции видимой картины на сетчатке и строятся в системе координат наблюдателя, т. е. извлекаемая и обрабатываемая информация рассматривается относительно наблюдателя, а не стабильного внешнего окружения.

На третьем этапе создается трехмерная модель видимого мира, не зависящая от ориентации паттерна стимуляции на сетчатке. К 2,5-мерному эскизу добавляется информация о трехмерной форме и ее ориентации и о взаимном расположении поверхностей друг относительно друга.

Репрезентация трехмерной модели видимого мира является максимально приближенной к реальному миру.

Наибольшему анализу Марр подвергнул первую стадию обработки информации — формирование первоначального эскиза1. Как уже было сказано выше, основной задачей этой стадии является определение контуров и границ воспринимаемой картины. Марр сделал несколько предположений относительно того, как зрительная система осуществляет детекцию контуров объектов. Главную роль здесь играет такое понятие как точки пересечения пулевого уровня.

Исходную ретинальную проекцию, с которой начинается обработка информации, Марр предлагает рассматривать в виде массива точек с разными значениями яркости. Для простоты Марр временно не принимает во внимание факт существования нескольких различных типов рецепторов и считает, что имеется лишь один тип рецептора и, следовательно, изображение является черно-белым. Таким образом, каждое значение точки массива определяет некоторый конкретный уровень серого тона. Каждый рецептор рассматривается как некоторый элемент изображения, или пиксель, а весь массив — как физиологическая репрезентация воспринимаемой картины.

На рис. 2.25 показан график функции яркости. Очевидно, что граница — это точка, где яркость резко меняет свое значение. Однако определение границ на изображении — непростая задача. Обычно соседние пиксели мало отличаются друг от друга, и определить, в какой конкретно точке произошел скачок яркости, не просто. К тому же объекты изображения не окрашены монотонно, на самом объекте есть перепады яркости, вызванные тенью, неравномерностью окрашенности и т. п. Как же определить, какая разница в яркости говорит о наличии края объекта, а какая разница свидетельствует о его неравномерной окраске?

Функция яркости.

Рис. 2.25. Функция яркости.

Марр вместе со своей коллегой Эллен Хилдрет предложил алгоритм детекции краев на изображении, который получил название алгоритм Марра — Хилдрет[3][4].

На нервом этапе в анализе контуров или, иначе, массива пикселей, происходит устранение шума, присутствующего на изображении, за счет его размытия. Процесс размывания образа осуществляется при помощи процедуры, называемой в математике конволюцией, или свёрткой. Свёртка — это математическая операция, осуществляемая над функциями, в нашем случае — над функцией распределения значений яркости пикселей. Свёртка, но сути, представляет собой суммирование обеих функций, и получаемая в итоге сумма представляет собой новую функцию, являющуюся модификацией одной из исходных. Поэтому с целью размытия изображения имеет большое значение выбор функции, с которой будет осуществляться свёртка функции распределения яркости. Марр предположил, что наша зрительная система осуществляет свёртку при помощи функции гауссова (нормального) распределения. Благодаря свёртке с функцией гауссова распределения происходит такое размытие изображения, где итог похож на изображение, получаемое при помощи расфокусированной камеры. Для пояснения рассмотрим упрощенный пример. Предположим, есть изображение маленькой черной точки на белом фоне. Используя язык Марра, можно сказать, что есть массив пикселей, где значение центрального элемента, соответствующего точке, равно единице, а значения остальных — равны нулю. Применение гауссова фильтра к такому изображению приведет к тому, что маленькая черная точка превратится в размытую область, которая ярче всего в центре и медленно бледнеет к краю.

Опуская математические подробности, мы отметим, что выбор гауссова распределения неслучаен. Напомним, что свёртка применяется для устранения шума. Шум изображения — это те значения пикселей, которые резко «выбиваются» из ряда пикселей, составляющих изображение. Особенностью нормального распределения является тот факт, что оно симметрично и средние значения встречаются там с большей вероятностью, а крайние значения — редко. Свёртка функции распределения яркости с функцией гауссова распределения приведет к тому, что массив пикселей, составляющих изображение, станет отвечать закону нормального распределения, а следовательно, число пикселей, составляющих шум, заметно уменьшится. Применение функции гауссова распределения для свёртки называют фильтрацией, где фильтром является функция гауссова распределения.

Ширину гауссова распределения можно контролировать при помощи стандартного отклонения: чем шире (т.е. чем больше стандартное отклонение) распределение, тем больше будет степень размытия изображения. Если среднеквадратичное отклонение гауссиана очень мало, то свёртка не приведет к ожидаемому эффекту, так как новые значения яркости пикселей, составляющих шум, останутся практически неизменными. Если же среднеквадратичное отклонение очень велико, то вместе с шумом исчезнут и элементы изображения, так как значения всех пикселей будут стремиться к усреднению. На рис. 2.26 показаны изображение и его размытие при помощи гауссова фильтра с разным стандартным отклонением <;.

Изображение и его размытие при помощи функции гауссова.

Рис. 2.26. Изображение и его размытие при помощи функции гауссова.

распределения:

а — изображение; б — размытие изображения при i; = 8 пикселей; в — размытие изображения при <; = 4 пикселя После размытия изображения при помощи гауссова фильтра происходит извлечение из изображения так называемых точек пересечения сигналом нулевого уровня. На рис. 2.27, б и 2.27, в показаны первая и вторая производные функции яркости. Первая производная (рис. 27, б) показывает величину перепада яркости на границе (на рис. 27, б — это высота пика); из графика первой производной видно, что значение яркости вначале было на одном уровне, а затем резко изменилось. Резкое изменение яркости приводит к возникновению пика (или впадины) первой производной. Вторая производная (рис. 27, в) показывает точки, в которой происходит это резкое изменение яркости. Пересечением сигналом нулевого уровня называется та точка, в которой соответствующая функция меняет свое значение с положительного на отрицательное. Другими словами, эго точка, где график второй производной пересекает горизонтальную ось, т. е. нулевой уровень. Марр и Хилдрет доказали, что точка, где график второй производной пересекает горизонтальную ось, соответствует точке на изображении, где произошла смена яркости, обозначающая границу объекта[5].

Понятие «пересечение нулевого уровня».

Рис. 2.27. Понятие «пересечение нулевого уровня»:

изменение яркости (а) порождает пик в первой производной (б) и резкое пересечение нулевого уровня во второй производной (в)

Таким образом, перед исследователем стоит задача нахождения математической операции, которая бы позволяла извлекать вторую производную функции яркости. Для извлечения второй производной Марр и Хилдрет предлагают использовать оператор[6][7] Лапласа. Существенным свойством оператора Лапласа является то, что точки, в которых график его значений пересекает нулевой уровень, служат индикаторами изменений яркости на изображении, размытом с помощью гауссовой функции распределения. На рис. 2.28 показан результат действия оператора Лапласа.

Примеры, иллюстрирующие обнаружение точек пересечения нулевого уровня с помощью оператора Лапласа.

Рис. 2.28. Примеры, иллюстрирующие обнаружение точек пересечения нулевого уровня с помощью оператора Лапласа2:

а — исходное изображение; б — положительные (белый цвет) и отрицательные (черный цвет) значения оператора Лапласа; в — только пересечения нулевого уровня В своей монографии Марр уделяет много внимания и другим аспектам зрительного восприятия. В настоящем обзоре мы не ставили своей целью подробное изложение всех идей Марра, отметим только, что главы его книги затрагивают вопросы восприятия движения, формы, яркости и светлости, отдельно решается вопрос о восприятии трехмерного пространства. В науке получила распространение модель стереопсиса, предложенная Марром и его коллегой Томазо Поджио[8].

В конце своей книги Марр ставит вопрос о том, как мы воспринимаем трехмерную форму объектов. Он предполагает, что зрительная система использует канонические формы (canonical forms in a modular organization). Основной такой формой Марр считал цилиндр. Согласно принципу модульной организации человеческое тело можно представить как совокупность цилиндров разного размера (рис. 2.29). Теория цилиндров Марра была развита в теории геонов известного американского ученого Ирвинга Бидермана[9].

Марр приводит психофизиологические и нейрофизиологические данные в пользу положения, что клетки сетчатки и наружного коленчатого тела воспроизводят значения оператора Лапласа. Впоследствии были получены данные, иллюстрирующие функционирование зрительной системы млекопитающих при обнаружению контуров по алгоритму Марра — Хилдрет[10].

Несмотря на это информационная теория Марра оказала большое влияние на развитие робототехники и систем распознавания изображений.

Некоторые трехмерные модели живых существ согласно принципу модульной организации в теории Марра.

Рис. 2.29. Некоторые трехмерные модели живых существ согласно принципу модульной организации в теории Марра[11]:

а — человек; 6 — страус; в — обезьяна; г — голубь; д — лошадь.

  • [1] Марр Д. Зрение. Информационный подход к изучению представления и обработкизрительных образов. М.: Радио и связь, 1987. С. 57.
  • [2] Там же.
  • [3] Возможно, что в дальнейшем он планировал детально рассмотреть и оставшиеся двестадии, однако Дэвид Марр умер в раннем возрасте (ему было 35 лет) от лейкемии, и цитируемая здесь книга была издана посмертно.
  • [4] MarrD., Hildreth Е. Theory of edge detection // Proc. R. Soc. bond. B. Biological Sciences.1980, Vol. 207. Iss. 1167. P. 187−217.
  • [5] Marr D., Hildreth Е. Theory of edge detection // Proc. R. Soc. bond. B. Biological Sciences.1980. Vol. 207. Iss. 1167. P. 187−217.
  • [6] В математике оператор, действующий над пространствами функций, — это правило, согласно которому одна функция преобразуется в другую.
  • [7] Марр Д. Зрение. Информационный подход к изучению представления и обработкизрительных образов. С. 71.
  • [8] Marr D" Poggio Т. A Computational theory of human stereo vision // Proc. R. Soc. Lond.B. Biological Sciences. 1979. Vol. 204 (1156). P. 301−328.
  • [9] Biederman I. Recognition-by-Components: A Theory of Human Image Understanding //Psychological Review. 1987. Vol. 94 (2). P. 115—147.
  • [10] Smith Jr. T. G" Marks W. B. et al. Edge detection in images using Marr-Hildreth filteringtechniques //Journal of Neuroscience Methods. 1988. Vol. 26 (1). P. 75—82.
  • [11] Марр Д. Указ. соч.
Показать весь текст
Заполнить форму текущей работой