Д марр зрение информационный подход и представление

Информационный подход — теоретическое наследие Дэвида Марра (1945—1980)* скончавшегося в возрасте 35 лет незадолго до завершения своего основного труда» посвященного этой проблеме. Хотя теория Марра является самой влиятельной версией информационного подхода, в нее было внесено немало уточнений; кроме того, созданы и изучены различные ее варианты (см., например, Barrow & Taimen- baum, 1986). Однако поскольку наша цель — познакомить читателя с принципиальными положениями информационного подхода, его сущностью, мы ограни* чимся рассмотрением идей самого Марра.

Информационный подход исходит из того, что такие значимые перцептивные действия, как распознавание объекта, включают в себя решение зрительной системой проблемы, связанной с обработкой информации. Во введении к своему наиболее значительному труду, посвященному информационному подходу, Марр задает, казалось бы, простой, но на самом деле очень важный вопрос, и сам отвечает на него: «Что значит — видеть? Обычно, отвечая на такой вопрос человек сказал бы, видеть — это узнавать при осмотре, что и где находится (Аристотель считал также), Другими словами, зрение — это процесс определения по изображениям, что имен* но присутствует в окружающем мире и где находится» (Marr. Vision, 1982, р. 3; Марр Д. Зрение. Информационный подход к изучению представления и обработки зрительных образов / Пер. с англ. М.: Радио и связь, 1987. С. 19).

По мнению Марра, зрительная система анализирует ретинальное изображение и извлекает из него информацию точно так же, как компьютеры решают сложные задачи. В соответствии с информационным подходом принципиальной моделью, позволяющей понять механизм восприятия, является то, как компьютер (или аналогичное ему устройство, созданное специально для того, чтобы «видеть»), раскладывает образ на элементы и анализирует его. (Эту точку зрения разделяют и сторонники таких тесно связанных с информационным подходом научных направлений, как искусственный интеллект и компьютерное зрение.) По своей сути теория Марра и гипотетическая, и математическая, поскольку она сформировалась на основе компьютерного моделирования зрительной системы в момент распознавания ею объекта. Информационный подход пытается проследить весь процесс зрительного распознавания — начиная от спроецированного на сетчатке образа и вплоть до активного узнавания предмета наблюдателем. Начальный этап решения *акой сложной задачи, какой является для зрительной системы распознавание объекта, представляет собой дробление этой задачи на ряд последовательно выполняемых стадий, или операций. Результаты обработки («обсчета») информации, получаемые на каждой предыдущей стадии, являются исходными данными для следующей стадии, и этот процесс продолжается вплоть до окончательного решения перцептивной проблемы, т. е. до того момента, когда предмет распознан.

Марр потому считает сетчаточное изображение достаточным для восприятия, что в нем содержится весь необходимый «ввод» — стимуляция, которая должна быть проанализирована для получения информации. Марр определил три важнейших информационных уровня, или три шага, последовательного анализа информации, содержащейся в образе на сетчатке. Для каждого уровня анализа характерен отдельный, специфический процесс обработки, или компонент, который важен для успешного решения проблемы распознания. Более того, эти уровни организованы по иерархическому принципу: последовательный анализ информации начинается с извлечения абстрактного или очень общего представления о каком-либо аспекте окружающей среды, описываемого математически и приводящего к конкретному представлению, т. е. к распознаванию конкретного объекта. Тремя уровнями извлечения из изображений информации о форме объекта, обсчитываемыми независимо друг от друга, являются следующие типы представления: первоначальный эскиз, 2,5-мерный эскиз и представление трехмерной модели.

Первоначальный эскиз. В зависимости от отражения света предметами и объектами, находящимися в поле зрения наблюдателя, и от того, как его глаз фокусирует свет, образ, возникающий на сетчатке, содержит паттерны разной интенсивности (рис. 6.19).

Результатом начальной стадии обработки зрительной информации является предварительное описание этих физических компонентов, и в первую очередь —

19. Отражаясь от объектов и поверхностей, находящихся в

поле зрения, на глаз воздействует множество световых лучей. Структура света, воздействующего на глаз, предопределена особенностями внешней среды. Это создает паттерны различных интенсивностей, непосредственно проецируемых на сетчатку и содержащих информацию о форме, ориентации и местоположении объектов и поверхностей.

(Источник Gibson, 1979)

выявление их текстуры, формы, положения в пространстве и расстояния от наблюдателя.

По терминологии Марра, первая стадия — это создание первоначального эскиза, который зрительная система «рассчитывает» на основании различий между объектами и их фоном, возникающих за счет разных интенсивностей отражаемого ими света, таких как различия в светимости, описанные в этой главе выше.

Эта стадия, которую можно сравнить с набором рутинных математических операций, служит для обнаружения и акцентирования прерывистости светимости — резких изменений интенсивности — в образе на сетчатке, где значения интенсивностей ме*- няются с разными скоростями, выявляя границы и края объектов, аналогичных тем, которые представлены на рис. 6.19. Это начальная стадия (или математичеекая обработка), осуществляемая зрительной системой, но она важна, потому что ранний этап обработки информации о форме объекта основан на информации о его краях. Итак, составление первоначального эскиза заключается в извлечении ИЗ сетчаточного образа информации о краях, контурах и границах, а также информации об их местоположении и ориентации в пространстве.

2,5-мерный эскиз. На последующем уровне обрабатывается информация, полученная на предыдущем уровне, и цель этой обработки — определение ориентации и глубины контуров и структур физического мира (предметов и объектов) относительно наблюдателя. Иными словами, извлекается информация о глубине и расстоянии, связанная непосредственно с удалением этих структур от данного наблюдателя. Марр назвал эту ориентированную на наблюдателя стадию 2,5-мер- ным эскизом. Можно сказать, что в самом названии этой стадии в известной мере отражена именно та точка, с которой начинает вырисовываться еще недостаточно четкая, но уже более определенная, чем на первом уровне, информация об окружающей среде, соответствующая восприятию данного наблюдателя, т. е. речь идет об окружающей обстановке, которую видит наблюдатель, находящийся в определенной точке.

Представление трехмерной модели. На последней стадии обработки зрительной информации контуры и структуры, извлеченные на второй стадии, трансформируются в трехмерные модели. Когда это происходит, наблюдатель получает объемное изображение физического мира, которое преимущественно не зависит ни от местоположения наблюдателя, ни от его ориентации в пространстве. На этой стадии обработки информации наблюдатель распознаёт конкретные окружающие предметы и их взаимное пространственное расположение.

Информационный подход весьма существенно отличается от типичных подходов к толкованию перцептивной обработки информации, основанной на восходящих процессах. Он трактует перцептивную активность (т. е. распознавание объекта) как результат выполняемых зрительной системой и последовательно протекающих стадий обработки и обсчета информации, каждая из которых обра* батывает определенную часть информации, содержащейся в образе на сетчатке, а затем обобщает ее и передает на следующую, более высокую стадию для дальнейшей обработки. Иными словами, действия зрительной системы представлены в виде последовательности выкладок или элементарных (рутинных) расчетов, выполняемых на основании сетчаточного образа. Следовательно, как уже отмечалось выше, информационный подход скорее представляет собой описание последовательности операций, выполняемых компьютерной программой, предназначенной для обработки и анализа информации о некоторых физических свойствах окружающего мира, нежели традиционное, в биологических терминах, описание того, как именно зрительная система и мозг обрабатывают сенсорный сигнал. Преимущественно именно по этой причине информационный подход чрезвычайно тесно связан с такими отраслями науки, как искусственный интеллект и информатика: сравнительно новый информационный подход многими своими находками и достижениями обязан именно этим смежным отраслям знаний. (В соответствии с информационным подходом анализ сетчаточного образа может быть уподоблен достаточно сложной обработке информации вычислительной машиной, которая описывается формальными математическими терминами, доступными лишь специалистам. Именно поэтому мы ограничились лишь весьма общим изложением ее сути. Более подробно этот неординарный подход к распознаванию объектов описан в Barrow & Tenenbaum, 1986; Bruce & Green, 1990; Harris & Humphreys, 1995; Ultman, 1991.)

Умерший молодым в 35 лет, англо-американский ученый Дэвид Марр(В.Магг, 1945—1980) внес фундаментальный вклад в развитие компьютерного подхода в изучении зрительного восприятия. Его книга «Зрение. Информационный подход к изучению представления и обработки зрительных образов» и другие работы явились конкретной и продуктивной попыткой соединить логику психологического анализа механизмов зрительного восприятия и компьютерное моделирование этих механизмов [80].

Информационный подход в психологии восприятия рассматривает человека как сложную компьютероподобную систему пере-

работки входящей сенсорной информации. Этот процесс рассматривается в виде последовательных и/или параллельных стадий (этапов), каждый из которых выполняет специфические операции по преобразованию информации, например: кодирование, выделение признаков, фильтрация, распознавание, проверка гипотез, принятие решения и др. Конечная цель информационного подхода в восприятии — создание структурно-функциональной модели, состоящей из отдельных и связанных между собой блоков, выполняющих функцию, подобную построению перцептивного образа психикой человека.

Д. Марр в исследованиях, проведенных в Лаборатории искусственного интеллекта Массачусетского технологического института (1973—1980 гг.), исходил из положения, что зрительная система человека, анализируя ретинальное изображение, извлекает из него информацию подобно компьютеру, решающему по определенному алгоритму какую-либо задачу. Его теорию мы можем отнести к объект-ориентированным теориям, поскольку, по мнению самого Д.Марра, зрение нужно рассматривать как процесс, позволяющий определить по изображению, что именно присутствует в окружающем мире и где это находится. В соответствии с такими исследовательскими установками реализация информационного подхода в зрительном восприятии должна описывать, как компьютерная система раскладывает сетчаточный образ на элементы и анализирует их в момент распознавания объекта.

В соответствии с принципами последовательного анализа входящей информации в этой теории описывается ряд стадий (или операций) переработки информации, начиная с сетчаточной проекции внешнего объекта до его опознания человеком. Этот сложный процесс представляется как иерархический, в котором результаты обработки зрительной информации на каждой предыдущей стадии, являются исходными данными для следующей стадии. Принципиальная позиция Д.Марра заключается в том, что он, так же как и Дж. Гибсон, считал сетчаточное изображение вполне достаточным для построения перцептивного образа, поскольку в нем содержится вся необходимая для анализа стимульная информация.

В теории Д. Марра выделяются четыре иерархических уровня, или модуля, анализа информации. Первый уровень назван им образом, который рассматривается как пространственнно-времен-ное распределение световой энергии на сетчатке и уже является началом процесса видения.

Первоначальным эскизом, или наброском, — называется второй уровень анализа. Результатом переработки информации на этой стадии является описание структуры распределения света на сетчатке: выделение текстуры, контуров, формы, взаимного расположения объектов в пространстве, расстояния до наблюдателя.

Первоначальный эскиз образуется в результате установления различий в распределении света в пространстве образа между его деталями, выделение границ или краев объектов как резких изменений по интенсивности.

2,5-мерный эскиз — третий уровень переработки информации. На этом уровне обрабатывается информация, проанализированная на предыдущем уровне. Здесь осуществляется определение общей ориентации и глубины контуров (как фигур, выделенных на некотором фоне, или видимых поверхностей) относительно наблюдателя. Пользуясь терминологией Дж. Гибсона, на этой стадии извлекается информация о глубине и расстоянии объектов до точки, в которой находится наблюдатель.

Построение трехмерной модели — последняя стадия переработки зрительной информации. На этом уровне анализа создается общая сцена видения ситуации в виде отдельных объектов независимо от их расположения на сетчатке: у наблюдателя формируется объемное изображение видимого мира, которое независимо (инвариантно) от его собственного положения в пространстве или расположения объектов друг относительно друга. На этом уровне наблюдателю презентируется мир уже распознанных предметов и их взаимное расположение.

В заключение отметим, что специфика информационного подхода, разработанного Д.Марром, состоит в том, что процессы, происходящие в зрении, описываются по типу компьютерного алгоритма, и это его существенно отличает от психологических или нейрофизиологических трактовок и поэтому делает весьма полезным для таких современных отраслей научного и прикладного знания, как искусственный интеллект, создание искусственных органов чувств, разработка новых информационных технологий анализа зрительной информации.

Идеи Д.Марра развиваются в работах других исследователей. Укажем, например, на теорию опознания формы объекта И.Би-дермана, в которой сложный объект описывается как пространственная композиция некоторого числа базовых компонентов (геометрических форм), таких как клин и цилиндр (образно названных «геонами») [129; 130].

Одними из современных направлений в компьютерном моделировании перцептивного процесса, также входящими в информационный подход, являются так называемые нейросетевые модели восприятия. Эти модели также известны в литературе последнего десятилетия под названиями коннекционистских моделей или моделирования параллельно протекающих процессов. Основу этого подхода заложила работа Ф. Розенблатта «Принципы нейроди-намики: перцептроны и теория мозговой деятельности» [202]. Из современных исследований в данном направлении выделим в первую очередь работу Д. Рамельхарта и Дж. МакКлеланда «Парал-

дельные распределенные процессы: исследования по микроструктуре познания», в которой изложена их широко цитируемая ней-росетевая модель [203]. В ряде других эмпирических исследований также показана продуктивность нейросетевого подхода для моделирования зрительного [172; 179], слухового восприятия [196], процессов перцептивного развития [140, 204].

В основе этого подхода лежит уже достаточно известная идея о том, что зрительная система состоит из конечного набора нейронных детекторных структур, выделяющих различные признаки объектов. Эти нейронные структуры и их взаимодействие образуют нейронные сети, способные выделять сложные признаки поступающей на рецепторы сенсорной информации. С этой точки зрения динамика нейронных структур может отображать определенное перцептивное событие. В данном подходе реализован известный в психофизиологии принцип кодирования сенсорного события номером канала. Принцип распознавания зрительного образа с помощью простой нейросети представлен на рис. 18.

На рис. 18 показано, как работает простейшая нейронная сеть, выделяющая графические элементы букв и, таким образом, позволяющая их опознавать. Например, предъявление буквы X будет активировать нейроны-детекторы (внизу рисунка), выделяющие две перекрещивающиеся диагональные линии, в отличие от буквы А выделение горизонтального элемента будет тормозиться. Таким образом, на неком гипотетическом нейронном «экране» будет появляться строго определенный вектор возбуждения таких нейронных элементов. В результате наша гипотетическая сеть, состоящая из нейроно-подобных элементов, «поймала» или выделила графическую конфигурацию, соответствующую буквам Н, А и X. Работы по нейросетевому моделированию показывают, что подобные сети могут быть очень селективными, т.е. выделять из светового потока тонкую и сложную структуру зрительной информации. Хорошим примером реализации нейросетевого подхода с позиций упомянутой выше теории И. Бидермана является нейросетевая модель восприятия формы объекта, предложенная Дж.Хьюммелом и И.Бидерманом [168]. Этот подход

Ч | — 7 \

Рис. 18. Нейросетевая модель для распознавания букв (Н, А, X) по составляющим их графическим элементам: —► — активирующие связи; • — тормозные связи

может быть также весьма продуктивным в работах по искусственному интеллекту в плане создания компьютерных систем, распознающих образы подобно зрению человека.

Зрение | Марр Д.

Качество: Сканированные страницы

Количество страниц: 401

Содержание статьи:

Книга посвящена информационной теории зрения Д. Марра, получившей в настоящее время широкую известность, но до сих пор на русском языке не излагавшейся.

Суть теории Марра состоит в том, что в основе зрительного восприятия лежат процессы сбора, представления, обработки и распознавания информации, отражающей свойства наблюдаемого человеком реального мира.

Приводятся методологические предпосылки, описание используемого информационного подхода, структура, предлагаемая для представления процесса зрительного восприятия в целом, и путь, который привел к ее формированию.

Основное содержание книги составляет информационный анализ феномена зрения человека, а именно способы построения вывода (алгоритмов), позволяющего по структуре изображения судить о структуре реального мира, а также обсуждение физических ограничений и допущений, обеспечивающих возможность построения такого вывода.

Значительное внимание уделяется иерархии представлений зрительной информации, способам формализации описаний изображения и элементам, из которых они могут и должны строиться, — признакам, стереозрению, использованию движения для восстановления трехмерной структуры реальной сцены по последовательности изображений и использованию результатов всех связанных со зрительным восприятием процессов для приведения изображений к виду, удобному для распознавания, и реализации последнего.

Информационная теория зрения развивается в книге при сопоставлении и соединении тезисов автора с известными данными по психофизике и нейрофизиологии зрительной системы человека и методами обработки информации, используемыми в автоматизированных системах обработки и распознавания изображений.

Книга предназначена для научных работников, специализирующихся в области информатики и вычислительной техники, разработчиков автоматизированных систем обработки и распознавания изображений, специалистов в области распознавания образов, искусственного интеллекта, психологии и физиологии восприятия, обработки информации на ЭВМ, автоматизации научных исследований, студентов и аспирантов соответствующих специальностей, а также для всех интересующихся проблемой зрения.

Предисловие к русскому изданию
Зрение как информационный процесс
Список литературы к предисловию
Предисловие
От издательства

↑ ЧАСТЬ I. ВВЕДЕНИЕ И МЕТОДОЛОГИЧЕСКИЕ ПРЕДПОСЫЛКИ

Глава 1. Методология и концепция исследования

1.1. Предпосылки и предыстория
1.2. О понимании сложных систем обработки информации

Представление и описание
Процесс
Три уровня рассмотрения информационных машин
Значение информационной теории
Подход Дж. Дж. Гибсона

1.3. Структура представления для зрения

Предназначение зрения
Развитое зрение
К искомому — через возможное

↑ ЧАСТЬ II. ЗРЕНИЕ

Глава 2. Получение представления изображения

Получение представления изображения
Основные физические допущения
Поверхности как реальные объекты
Иерархическая организация
Подобие
Пространственная непрерывность
Непрерывность нарушений непрерывности
Непрерывность движения
Об общих свойствах представления

Определение точек пересечения сигналом нулевого уровня
Биологические следствия
Психофизика нижнего уровня зрения
Физиологическая реализация G-фильтров
Физиологический механизм обнаружения пересечений нулевого уровня
Первое полностью формализованное представление изображения
Необработанный первоначальный эскиз
Методологические отступление

2.4. Источники света и прозрачность

Другие эффекты, связанные с источниками света
Прозрачность
Выводы

2.5. Процессы классификации и полный первоначальный эскиз

Основные тезисы доказательства
Информационный подход и психофизические аспекты распознавания текстур

Глава 3. От изображений к поверхностям

Измерение стереоскопической диспаратности
Информационная теория
Алгоритмы для установления соответствий между изображениями стереопары

Реализация процесса слияния изображений стереопары на нейронном уровне
Определение расстояния до поверхности и ее ориентации по данным о диспаратности
Информационная теория
Алгоритм и его реализация

Введение в проблему наблюдаемого движения
Информационная теория
Алгоритм
Реализация на нейронном уровне
Использование избирательности по направлению для разделения поверхностей, перемещающихся независимо друг от друга
Информационная теория
Алгоритм и его реализация
Луминг

Зачем нужно изучать видимое движение?
Две стороны задачи
Задача установления соответствий
Экспериментальные данные
Двухмерный характер процесса установления соответствий
Теория процесса установления соответствий Уллмана

Критика теории Уллмана
Новый взгляд на задачу установления соответствия
Восстановление структуры по движению
Задача
Известный подход
Ограничение, предполагающее жесткость тела
Допущение, предполагающее жесткость объектов наблюдения
Замечание о центральной проекции
Оптический поток
Исходное представление
Математические результаты

Несколько примеров
Ограничивающие контуры
Ограничивающие допущения
Значение введенных допущений
Нарушения непрерывности по ориентации поверхности
Контуры поверхности
Загадка контуров поверхности и трудности ее разрешения
Определение формы источника контура
Влияние наличия более чем одного контура

Выделение элементов текстуры
Параметры поверхности
Допустимые измерения
Непосредственное определение расстояний, представленных в некотором масштабе
Резюме

Пространство градиентов
Освещение поверхности, ее отражательная способность и яркость изображения
Карта отражательной способности
Восстановление формы объекта по данным о затенении
Фотометрическое стереоскопическое изображение

Подход Хеясона — Джадда
Светлота и цвет в теории ретинекса
Алгоритмы
Обобщение на случай цветового зрения
Комментарии по поводу теории ретинекса
Некоторые физические обоснования важности явления одновременного контраста
Гипотеза обусловленности нелинейных измерений яркости свойствами поверхности
Следствия, касающиеся измерений на трехцветных изображениях
Резюме

4.2. Сегментация изображения

4.3. Переход к новой постановке задачи

4.4. Информация, подлежащая представлению

4.5. 2,5-мерный эскиз в общем случае

4.6. Допустимые формы представлений

4.7. Допустимые системы координат

4.8. Интерполирование, продолжение и нарушения непрерывности

4.9. Информационные аспекты проблемы интерполирования

Нарушения непрерывности
Методы интерполирования

4.10. Другие информационные процессы, действующие в рамках 2,5-мерного эскиза

5.2. Проблемы, возникающие в связи с представлением формы

Критерии, эффективности представления формы объекта
Доступность, удобство получения и использования описания
Допустимое разнообразие описаний и их однозначность
Устойчивость и чувствительность
Решения, которые необходимо принять при построении представления формы объекта
Системы координат
Непроизводные элементы
Организация

5.3. Представление трехмерных моделей

Естественные системы координат
Описания, основанные на использовании осей координат
Модульная организация представления трехмерных моделей

Система координат трехмерной модели

5.5. Получение и использование представления трехмерной модели

Получение описания трехмерной модели
Установление связи между координатами, привязанными к наблюдателю, и координатами, привязанными к объекту
Индексирование и каталог трехмерных моделей
Взаимодействие между процессами вывода и распознавания
Установление соответствия между изображением и каталожной моделью
Анализ, основанный на использовании ограничений

5.6. Психологические аспекты представления форм объектов при распознавании

Глава 6. Особенности метода

↑ ЧАСТЬ III. ЗАКЛЮЧЕНИЕ

Словарь терминов
Список литературы
Список работ, переведенных на русский язык
Предметный указатель

↑ ЗРЕНИЕ КАК ИНФОРМАЦИОННЫЙ ПРОЦЕСС

«Природа, в широком смысле этого слова,
может и должна служить не только
источником задач, решаемых в моих
исследованиях, но и подсказывать
аппарат, пригодный для их решения.»

Н. Винер «Я — математик»

Зрение остается пока важнейшим источником, из которого человек извлекает информацию о себе и о внешнем мире. Оно оказалось, быть может, важнейшим инструментом бытия человека, поскольку позволяет ему оперировать изображениями, т. е. теми системами упорядоченных иероглифов, символов и знаков, в которых закодированы реальности его биологического и социального существования. Человек пытается обнаружить себя, осознать свою сущность и индивидуальность, вглядываясь в собственные отражения в сентябрьской воде лесного озера, в ’’хрустальном дворце” вечности, в экране телевизора, в глазах друга и недруга, в отблеске витрины . Интересно, однако, что при этом очень немногие задумываются о том, каким образом эти отражения возникают и каким образом человек их воспринимает и понимает.

Среди тех немногих представителей рода человеческого, которые осознают существование этих проблем и, более того, считают их достойными внимания, имеется совсем небольшая группа людей, у которых разрешение данных проблем (сформулированных в действительности, возможно, совершенно по-другому) входит в профессиональные обязанности. Опыт выполнения этих обязанностей и полученные ими результаты свидетельствуют о том, что основной проблемой при этом оказывается то, на какие вопросы следует стремиться искать ответы и какие задачи следует ставить и решать в процессе исследования зрения.

Именно это и составляет суть концепции, выдвинутой покойным Дейвидом Марром (он работал в Лаборатории искусственного интеллекта Массачусетсского технологического института, США) и названной им информационной теорией зрения. В ее основе лежат следующие положения.

1. Зрение — это процесс определения по изображениям, что именно присутствует в окружающем мире и где именно оно находится, т. е. зрение сводится к решению задач обработки информации. Для того чтобы человек был способен узнавать, что и где находится в окружающем мире, мозг человека должен обладать возможностями представлять каким-то образом соответствующую информацию во всем разнообразии цвета, формы, движения и отдельных подробностей.

Изучение зрения, следовательно, не должно сводиться к изучению лишь того, каким образом извлекать из изображений различные аспекты реального мира, представляющие интерес для человека — оно должно также предусматривать и изучение природы внутренних представлений, посредством которых человек сохраняет эту информацию, обеспечивая возможность использовать ее в качестве основы для принятия решений. Этот дуализм — представление и обработка информации — составляет самую сердцевину большинства задач обработки информации и самым существенным образом определяет изучение в рамках теории Марра конкретных задач, возникающих в связи с проблемой зрения.

2. Для того чтобы добиться полного понимания системы столь сложной, как нервная система, следует использовать различные типы научного объяснения, относящиеся к различным уровням описания работы системы, которые, по крайней мере в принципе, представляют собой некоторое единое целое, хотя прослеживание связей между отдельными уровнями во всех подробностях практически бессмысленно. Полное понимание феномена зрения в целом означает понимание того, каким образом можно надежно и эффективно извлекать описания реального мира из его изображений. Это предполагает получение ответов на следующие вопросы. Какого рода информация представляется в зрительной системе человека? Какого рода обработку информации эта система осуществляет и зачем? Каким образом информация представляется в зрительной системе человека? Каким образом осуществляется в ней обработка информации и с помощью каких алгоритмов? Только после получения ответов на эти вопросы можно ставить вопрос о том, каким образом эти специфические представления и алгоритмы реализуются на нейрофизиологическом уровне.

3. В рамках информационной теории основным становится следующий вопрос: какие задачи обработки информации решаются и какая информация требуется для их решения? При изучении систем обработки информации определяющую роль играют три тесно связанные проблемы: представление, описание и процесс обработки. Под представлением понимается некоторая формальная система, предназначенная для получения в явном виде определенных объектов или видов информации и снабженная инструкцией, указывающей, каким образом система это делает. Результат использования некоторого представления для получения описания заданного объекта является описанием этого объекта в данном представлении. Определение процессов в рамках информационной теории отличается тем, что цели обработки информации и способы, с помощью которых достижение этих целей обеспечивается, задаются отдельно, а реализация процесса однозначно задается ограничениями, которым она должна удовлетворять. Поскольку главной задачей зрительных процессов является надежное определение свойств материального мира по его изображениям, то центральную роль приобретает проблема выделения ограничений, обладающих одновременно мощностью, обеспечивающей возможность определения соответствующего процесса, и истинностью для всего мира, в котором действует человек.

Для того чтобы процесс начал фактически осуществляться, необходимо построить его реализацию и выбрать представление для объектов, которыми процесс должен оперировать, т. е. анализ любого процесса предполагает выбор представления для входной и выходной информации и выбор алгоритма, при помощи которого искомое преобразование можно реализовать. При этом выбор допустимых представлений довольно широк, а выбор алгоритма часто решающим образом зависит от того, какое представление используется. Кроме того, часто при исполнении одного и того же представления дня реализации процесса оказываются пригодными несколько различных алгоритмов. Выбор конкретного алгоритма может зависеть от типа тех технических или биологических средств, с помощью которых он реализуется.

4. Зрение представляет собой процесс порождения по изображениям внешнего мира описания, полезного для наблюдателя и не перегруженного несущественной для него информацией. Этот процесс можно рассматривать как некоторое отображение одного представления в другое, причем исходное представление образуется массивами значений яркости изображения, зарегистрированных фоторецепторами сетчатки.

В процессе предварительной обработки изображений в зрительной системе человека синтезируются стандартизованные описания форм и поверхностей, образующих изображение. Значения яркостей элементов изображения определяются геометрическими свойствами и отражательной способностью видимых поверхностей, освещением сцены и позицией наблюдателя. Поскольку на изображении влияние всех этих факторов перекрывается, в процессе предварительной обработки проводится сортировка изменений яркости в соответствии с породившими их причинами, целью которой является получение представлений, в которых эти факторы учитывались бы по отдельности. Этот процесс осуществляется в два этапа.

Вначале строится первоначальный эскиз — представление, отражающее изменения яркости, их распределение и геометрические характеристики, относящиеся к двухмерному изображению. В качестве непроизводных элементов при построении первоначального эскиза используются пересечения нулевого уровня, пятна, обрывы и нарушения непрерывности, отрезки яркостных переходов, допустимые линии, криволинейные структуры, границы. Затем на основе этого представления строится 2,5-мерный эскиз, отражающий геометрические свойства видимых поверхностей (их ориентацию и глубину, а также контуры нарушений непрерывности этих параметров). В качестве непроизводных элементов используются локальная ориентация поверхности, расстояния от наблюдателя, нарушения непрерывности по глубине и ориентации поверхности. Оба эти представления строятся в системе координат наблюдателя.

При анализе пространственной организации изображения ставятся две основные задачи: построение характерных объектов, выделяемых на изображении и отражающих крупномасштабную структуру функции отражательной способности, и обнаружение различных типов изменений измеряемых параметров, связанных с такими характерными объектами изображения и полезных с точки зрения выявления изменений ориентации видимых поверхностей относительно наблюдателя и изменений расстояний, их разделяющих. В результате строятся обобщенные (укрупненные) характерные объекты изображения и проводятся границы между множествами характерных объектов, обладающих какими-либо различиями. Для построения непроизводных элементов описания изображения используется рекурсия. Исходные данные, являющиеся отправной точкой для всей обработки и анализа, представляют собой описание, составленное из непроизводных элементов, выделенных на изображении (необработанный первоначальный эскиз). Из него выбираются элементы, обладающие некоторым подобием; они подвергаются процедурам группировки и кластеризации, в результате чего из них строятся прямые, кривые, пятна больших, чем исходные элементы, размеров, группы и небольшие участки, причем возможности формирования новых объектов определяются внутренней структурой изображения. Многократное повторение этой процедуры приводит к получению на каждом масштабном уровне рассмотрения изображения характерных объектов и непроизводных элементов изображения, отражающих пространственную структуру изображения, присущую соответствующему масштабному уровню.

Следовательно, представление должно включать характерные объекты, которые надежно и однозначно могут выделяться на изображении и которым могут ставиться в соответствие значения таких признаков, как ориентация, яркость, размеры и местоположение. Эти характерные объекты должны соответствовать реальным физическим особенностям наблюдаемой поверхности. Поэтому при построении представлений и определении процессов, обеспечивающих получение информации о поверхности (стереопсис, восстановление структуры по движению и т. д.), центральную роль играют ограничения и допущения, отражающие структуру и свойства реального мира.

5. Зрительная система обеспечивает построение полностью инвариантного описания формы по изображению, используя последовательность представлений, начальными элементами которой служат описания, получаемые непосредственно по изображению и устроенные таким образом, что открывают возможность впоследствии выявлять объективные физические характеристики формы объекта. Наилучшим средством при этом оказываются описания геометрии наблюдаемых поверхностей, так как информация, закодированная в изображении при помощи стереопсиса, штриховки, текстуры, контуров, видимого движения и т. д., определяется локальными свойствами поверхностей, образующих форму объекта. Подобное описание, однако, нельзя использовать при решении задач распознавания, главным образом в силу его привязки к положению наблюдателя. Поэтому описание поверхности, ориентированное на наблюдателя, на заключительном этапе процесса обработки изображений в зрительной системе преобразуется- в представление, описывающее форму трехмерного объекта и его пространственную организацию и не зависящее от направления наблюдения объекта, т. е. финальное описание привязано к объекту.

6. Информационная теория зрения предусматривает разбиение процесса получения информации о форме по изображению на три этапа, соответствующие используемым видам представления: 1) представление характеристик двухмерного изображения (типа изменений значений яркости и локальных геометрических свойств); 2) представление характеристик видимых поверхностей в системе координат наблюдателя (типа ориентации поверхности, расстояния от наблюдателя, скачкообразных изменений значений этих параметров, коэффициентов отражения поверхности, освещения); 3) представление в системе координат объекта трехмерной структуры и организации формы наблюдаемого объекта в сочетании с каким-либо описанием свойств его поверхности.

Таким образом, объяснение феномена зрения в рамках информационной теории Д. Марра основывается на постановке следующей проблемы: какие задачи решает мозг человека в то время, когда человек ’’видит”? Утверждается, что ’’видение” — это построение эффективных символьных описаний внешнего мира по его изображениям. Поэтому существенной особенностью зрения оказывается выбор представлений для различных видов информации, содержащихся в наблюдаемой сцене. Постулируется универсальная структура процесса извлечения информации о форме объектов из изображений, в соответствии с которой процесс анализа проходит через смену трех представлений:

1) первоначального эскиза, представляющего в явном виде изменения яркости и локальные двухмерные геометрические свойства изображения;

2) 2,5-мерного эскиза, представляющего в системе координат наблюдателя глубину, ориентацию и нарушения непрерывностей наблюдаемых поверхностей;

3) трехмерной модели, представляющей в координатах объекта описание трехмерной структуры и организации его наблюдаемой формы.

Решающим элементом информационного подхода к определению процессов, обеспечивающих построение таких представлений, является выделение действенных ограничений, отражающих свойства реального мира и предоставляющих дополнительную информацию, позволяющую получать искомые характеристики наблюдаемых сцен. После того как сформулирована информационная теория процесса, можно сконструировать алгоритмы, реализующие его, и сопоставить их характеристики с характеристиками зрительной системы человека.

Основными отличительными свойствами концепции Д. Марра являются: использование нескольких уровней объяснения феномена зрения; определение общей структуры информационных процессов, составляющих основу зрения; использование реальных физических ограничений в качестве основы для получения информации об истинных свойствах сцены по ее изображению; осознание дуализма процессов обработки информации и ее представлений, присущего зрению.

Информационная теория зрения создана Д. Марром в классических традициях кибернетики, традициях,составляющих концептуальную основу современных работ в области искусственного интеллекта и информатики в целом, в стиле и духе работ Н. Винера, А. Ляпунова и У. Маккаллока (последний, кстати, был основателем и руководителем лаборатории, известной ныне как Лаборатория искусственного интеллекта Массачусетсского технологического института, в которой родилась и реализовалась концепция Марра). Кибернетика в момент своего рождения (в конце 40-х — начале 50-х годов нашего века) привлекла всеобщее внимание главным образом потому, что указала на подобие процессов управления и связи в машинах, живых организмах и обществах и на то, что эти процессы имеют информационный характр, т. е. представляют собой по существу процессы сбора, передачи, хранения и обработки информации. Это придало новые стимулы изучению человека, его мышления, процессов принятия решений, распознавания, т. е. всего того, что, как утверждает кибернетика, происходит на основе информационных процессов.

Кибернетики, обращаясь к наукам, традиционно занимавшимся изучением человека, главным образом к биологии и психологии, рассчитывали получить у них ответы, касающиеся специфических человеческих способов реализации информационных процессов, и намеревались использовать полученные сведения при разработке программ для того, что теперь называют системами искусственного интеллекта (в особенности — экспертными системами) , и создании соответствующих технических устройств. В этой же связи возникла и проблема ’’вычислительные машины и мышление”, которая в чистом виде выглядит следующим образом: создать на основе вычислительных машин системы, способные выполнять отдельные функции, традиционно считавшиеся интеллектуальной прерогативой человека.

Ход работ в области сложных методов обработки информации (таким образом в 50—60-е годы определялись работы в области искусственного интеллекта), а также все развитие кибернетики в целом привели к некоторой переориентации целей искусственного интеллекта. В силу ряда обстоятельств создание ’’мыслящей машины” постепенно теряло значение. Во-первых, ни науки о человеке, ни техническая ветвь кибернетики не были еще готовы к тому, чтобы совместно решать эту задачу. Во-вторых, расширение сфер приложений кибернетики выдвигало собственные задачи и усугубляло разрыв кибернетики с проблемой человека. В-третьих, интенсивное развитие вычислительной техники требовало разработки вычислительных систем, совершенствования методов работы с машинами, создания систем программного обеспечения, языков, инструментальных средств, а также развития теоретического аппарата информатики. Более подробные сведения об этих процессах, а также их критический анализ можно найти в работах [П1—П5].

Тем не менее, эти работы не прошли бесследно — они способствовали развитию формального аппарата, накоплению фактов о действии информационных механизмов мозга человека, повышению общей культуры исследований в этой области и, наконец,ччто, возможно, самое главное, привели к концентрации усилий на исследовании отдельных интеллектуальных функций человека. Это относится в полной мере к проблеме зрения и соответственно к распознаванию образов в целом как к задаче, решение которой является конечной цепью зрительного процесса.

Первые работы, в которых возникла задача распознавания изображений, были связаны с созданием так называемых читающих автоматов, т. е. устройств для автоматического распознавания символов. Интересно отметить, что эти работы оказались одними из первых работ по распознаванию, однако затем теория распознавания сосредоточила свое внимание на таких видах исходной информации, как результаты наблюдений, измерений, осмотра, экспертные оценки и тому подобное, т. е. на задачах, в которых отсутствуют отношения порядка, превращающие неупорядоченное множество признаков объекта в целостный объект.

Основная часть задач анализа изображений решалась в рамках так называемой проблемы машинного зрения, которая в целом формулировалась как понимание сцены, ’’описываемой” изображением. На протяжении 50—70-х годов в рамках этой общей проблемы выделились, хотя и не очень четко разделились, такие направления, как обработка изображений, распознавание образов, анализ сцен, интерпретация изображений, оптическая обработка информации, обработка видеоинформации и понимание изображений.

Системы обработки сигналов обеспечивают преобразование исходного изображения в некоторое другое изображение, обладающее заданными характеристиками (например, обеспечивается увеличение отношения сигнал-шум или подчеркиваются отдельные детали изображения с тем, чтобы облегчить человеку его анализ). Содержание изображения часто при этом значения не имеет. Эта группа задач обычно отождествляется с обработкой изображений.

Задачи классификации сводились к отнесению изображений к одному из заранее заданных классов. Типичным примером таких задач служит распознавание символов. При их решении определяются значения некоторого фиксированного набора признаков изображения, и решение о близости конкретного изображения соответствующему классу принимается методами статистической теории решений в многомерном пространстве признаков. При этом значительные усилия затрачиваются на построение оптимальных правил принятия решения. Именно такие работы и выполнялись в рамках так называемого распознавания или классификации изображений.

В рамках же проблемы понимания изображений разрабатывались программы, обеспечивающие построение описания заданного изображения, а также описания сцены, воспроизводимой с помощью этого изображения. На начальном этапе исследований проблемы распознавания изображений понятие ’’анализ сцен” часто использовалось, для того чтобы подчеркнуть различия между обработкой двухмерных изображений (например, их классификацией) и трехмерных сцен. Решение такой задачи требует использования знаний о соответствующей проблемной области, а также сложных методов анализа изображений.

На начальном этапе работы над проблемой распознавания изображений было затрачено много усилий на попытки построить процесс распознавания, используя понятие ’’образ”. Они сводились в основном к следующим двум направлениям:

1) изучению образа как такового с целью выяснить, что представляют собой образы разных типов, каковы эти типы, как образы строятся, формируются, возникают, какова их структура, какие подобразы можно выделять в целостном образе, насколько они могут или должны быть элементарны, какие отношения существуют на подобразах и непроизводных образах; процесс распознавания при этом организовывался с учетом механизма формирования образа;

2) построению системы распознавания на основе имитации способностей человека к распознаванию, т. е. путем выявления эвристических беспереборных приемов обработки и анализа информации, свойственных зрительной системе человека, и использования этих эвристик, их вариантов и обобщений в качестве алгоритмов распознавания.

Последнее направление существенно зависело от успехов в области психофизиологии и психофизики восприятия, а именно от выяснения того, как объекты внешнего мира представляются в человеческом мозге, какими приемами и принципами пользуется человек при восприятии и различении зрительных образов: воспринимает ли он образ ”в целом” либо ориентируется на какие-то специфические признаки и, если верно последнее, то каким способом он их выбирает, выделяет, преобразует и использует.

Начиная со второй половины 50-х и в течение 60-х годов это направление стало областью интенсивных исследований. В наиболее целостном виде методология эвристического программирования была реализована в так называемом перцептронном подходе к распознаванию. Перцептрон, предложенный американским ученым Ф. Розенблаттом в 1957 году в качестве относительно простой модели, воспроизводящей некоторые принципы работы мозга человека, послужил основой для создания целого класса обучающихся и самообучающихся распознающих систем, став своего рода мостом между эвристическим подходом и математическим исследованием процедур обучения в системах распознавания [П6]. Перцептрон явился первой серьезной альтернативой чисто эмпирическому подходу к синтезу алгоритмов распознавания, однако тщательное теоретическое изучение этой модели показало, что круг интересных практических задач, поддающихся решению в ее рамках, довольно узок. Отметим, что существенный вклад в изучение перцептронов внесли чп.-корр. АН УССР А. Г. Ивахненко [П7] и американские ученые М. Минский и С. Пейперт [П8].

Сложности, возникшие в процессе решения проблемы распознавания изображений на основе аксиоматизации понятия ’’образ”, ограниченность сведений о сущности процесса распознавания у человека, предоставляемых психологией и физиологией, а также необходимость решать прикладные задачи — все это вкупе отодвинуло на второй план применение в распознавании изображений методов эвристического программирования, не говоря уже о попытках создать подлинную теорию образов. Дальнейшее развитие характеризовалось определенным отсутствием в области разработки теории распознавания изображений. Решение задач распознавания изображений основывалось главным образом на попытках переносить в эту область методы обработки одномерных сигналов и спонтанных усилиях, связанных с введением в процесс распознавания структурной информации.

Господствующим же стало направление обработки изображений, поскольку чисто исторически сложилось так, что работой с изображениями до недавнего времени занимались в основном специалисты по обработке сигналов, телевизионным и оптическим системам, которые принесли в эту область привычный им приоритет разработок измерительной аппаратуры. Довольно часто ’’обработка” сводится к измерению и воспроизведению сигнала, а основными математическими средствами анализа продолжают служить спектральный анализ и различные разновидности статистических фильтров. В результате решение внутренних, технических задач полностью доминировало и выдавалось за продвижение к конечной цели — разработке систем машинного зрения (иначе — автоматизированных систем обработки изображений (АСОИЗ)).

До начала 80-х годов этот подход в равной мере был свойствен как американским, так и советским работам в этой области. Однако в силу значительно лучшей технической оснащенности (устройства ввода, формирования и дискретизации изображений, вычислительная техника, в том числе специализированные вычислительные системы для обработки изображений, графические дисплеи и т. д.) в США было решено значительно больше конкретных прикладных задач анализа изображений и, кроме того, было предложено несколько интересных эвристических методов, а также созданы и исследованы программы анализа и понимания изображений, что в целом сыграло существенную роль в осмыслении требований к теории распознавания изображений и путей ее развития и приложений. В этой связи следует упомянуть разработку анализа методом сверху вниз, идею сегментации, использование эвристик, использование знаний, метод релаксации Розенфельда, введение древовидных структур данных, обеспечивающих возможность пирамидального представления изображений, и ряд языков, обеспечивающих возможность описания изображений с помощью графов специальных видов.

В ряду этих работ несомненно выдающееся место занимает информационная теория зрения Д. Марра — исключительно яркий и абсолютно оригинальный вклад в изучение проблемы зрения, в целом, и задач анализа изображений, в частности. Безвременная смерть, к величайшему сожалению, не позволила Д. Марру придать своим результатам совершенно законченный вид (это, естественно, отразилось на характере книги, завершенной друзьями и коллегами Д. Марра, и мы призываем читателя отнестись с пониманием к этому обстоятельству).

Современное состояние теории распознавания полностью определяется результатами советской школы распознавания, созданной чл.-корр. АН СССР Ю. И. Журавлевым и развиваемой им и его учениками (см., например, работы [П9-П11]).

В концептуальном плане центральная задача распознавания — построение на основе систематических теоретических и экспериментальных исследований простых вычислительных средств для отнесения формализованных описаний ситуаций и объектов к соответствующим классам. В основе такого отнесения (распознавания, классификации, прогноза) лежит получение некоторой агрегированной оценки ситуации по ее описанию. При условии установления соответствия между классами эквивалентности, заданными на множестве решений и множестве объектов распознавания (ситуаций), автоматизация процедур распознавания становится элементом автоматизации процессов принятия решений.

Задачи распознавания представляют собой, по существу, дискретные аналоги задач поиска оптимальных решений. К ним относится широкий класс задач, в которых по некоторой, обычно весьма разнородной, быть может неполной, нечеткой, искаженной и косвенной информации требуется установить, обладают ли изучаемые (весьма сложные, в некотором смысле ’’комплексные”) ситуации (объекты, явления) фиксированным конечным набором свойств, позволяющих отнести их к определенному классу (задачи распознавания и классификации), или по аналогичного рода информации о конечном множестве достаточно однотипных процессов следует выяснить, в какой области из конечного числа областей будут находиться эти процессы через определенный период времени (задачи прогнозирования).

К задачам этого вида сводятся задачи технической (неразрушающий контроль) и медицинской диагностики, геологического прогнозирования (в частности, восстановление геофизических полей), прогнозирования свойств химических соединений, сплавов и новых материалов, распознавания и характеризации свойств динамических и статических объектов в сложной фоновой обстановке и при наличии активных и пассивных помех по изображениям, получаемым с помощью разнообразных технических средств, прогнозирования хода строительства крупных объектов, обработки данных дистанционного исследования природных ресурсов, прогнозирования урожая, обнаружения лесных пожаров, управления производственными процессами (прогнозирования возможностей входа значений параметров быстротекущих процессов в критические области) и другие задачи.

Все перечисленные задачи могут решаться при задании исходных данных в одном из следующих видов либо с помощью их сочетания:

а) изображения, полученные в различных диапазонах спектра излучений (оптические, инфракрасные, ультразвуковые и т. д.) различными способами (телевизионные, фотографические, лазерные, радиолокационные, радиационные и т. д.) и преобразованные в цифровую форму;

б) сигналы (длинные числовые последовательности);

в) экспертные данные, числовые и другие виды информации общего вида;

г) серии изображений (’’фильмы”) любого из переделенных в п. а) вида.

В основе современной математической теории распознавания лежит так называемый алгебраический подход, предложенный Ю. И. Журавлевым [П9]. Алгебраический подход к распознаванию позволяет получать алгоритмы, обеспечивающие выделение из представленных данных всей полезной информации и получение решения, точно соответствующего ’’информативности” этой информации. Такое решение характеризуется минимальной вычислительной сложностью, устойчивостью по отношению к шуму и искажениям исходной информации и статистической надежностью.

В процессе решения существенно используются принцип прецедентности, формализация понятия обобщенной близости, автоматизация настройки алгоритма на задачу, в том числе автоматизация выбора класса алгоритмов, оптимального для рассматриваемого класса задач, и принцип коррекции окончательного решения посредством расширения базового множества моделей алгоритмов, используемого для его получения.

Процесс получения решения имеет многоуровневый характер. На первом этапе строится эвристическая модель алгоритма, отражающая специфику задачи. На втором этапе работа ведется с моделями семейства алгоритмов, порождаемых стандартным образом на основе принципа, выбираемого эвристически. На этом этапе оптимизация алгоритма распознавания осуществляется в рамках отдельных моделей. На третьем этапе искомый алгоритм синтезируется из алгоритмов, принадлежащих разным моделям.

Таким образом, алгебраический подход к обработке информации в задачах распознавания и прогнозирования обеспечивает реализацию идеологии, позволяющей синтезировать алгоритм, который при выполнении определенных нежестких и просто проверяемых условий точно решает конкретную задачу. Это своего рода методология автоматизации разработки алгоритмов распознавания и прогнозирования, обеспечивающая возможность проанализировать предъявленную задачу, учесть ее особенности, после чего выбрать метод решения и на его основе предложить соответствующий алгоритм.

В рамках алгебраического подхода к обработке информации в задачах распознавания и прогнозирования для работы с изображениями сформулирован так называемый дескриптивный подход [П12, П13]. Он предусматривает решение задач, связанных с получением формальных описаний изображений как объектов распознавания и с формированием и выбором процедур распознавания с.помощью изучения внутреннего строения, структуры и содержания изображения как результата тех операций, которые позволяют построить изображение из подизображений или объектов более простой природы, т. е. непроизводных элементов и объектов, выделяемых на изображении на различных этапах работы с ним (в зависимости от того, применительно к какому морфологическому или масштабному уровню формируется модель изображения).

Поскольку этот способ характеризации изображения является операциональным, весь процесс анализа и распознавания изображений, включая построение формального описания — модели изображения, рассматривается как реализация на изображении некоторой системы преобразований, которая определена на классах эквивалентности, представляющих ансамбли допустимых изображений. Следовательно, в процессе распознавания используется иерархия формальных описаний изображений, т. е. используются модели изображений, относящиеся к разным морфологическим и масштабным уровням представления — многоуровневые модели, позволяющие в процессе распознавания выбирать и изменять необходимую степень подробности описания объекта распознавания.

Дескриптивный подход к распознаванию изображений характеризуется следующими основными особенностями:

а) построение формального описания (модели изображения как объекта распознавания) становится самостоятельной задачей, которая ставится и разрешается в процессе распознавания;

б) модель изображения должна включать структурную (в частности, реляционную) информацию, т. е. представлять собой некоторую формальную конструкцию, при получении которой все время учитываются иерархичность структуры объекта распознавания и отношения, существующие между отдельными элементами этой иерархии как в пределах одних и тех же морфологических и масштабных уровней, так и между ними;

в) изменяются понятия начальной и финальной информации; процесс распознавания изображений имеет многоуровневый характер: исходная модель изображения в результате применения к ней процедуры распознавания преобразуется в модель изображения, относящуюся к другому морфологическому (масштабному) уровню; к полученной модели снова применяется процедура распознавания и т. д., причем правило остановки определяется видом и типом результатов, требующихся при решении поставленной задачи;

г) тесная связь процессов описания и распознавания изображений и необходимость включения в итерационный процесс распознавания моделей изображений, относящихся к различным морфологическим (масштабным) уровням, означают, что модель алгоритма распознавания изображений включает, помимо распознающего оператора и решающего правила, оператор, осуществляющий приведение изображения к виду, удобному для распознавания;

д) построение распознающего алгоритма из элементарных распознающих операторов выполняется в соответствии со структурой, обеспечивающей реализацию механизма реверсивного алгебраического замыкания [П11]; в качестве элементарных распознающих операторов используются алгебраические преобразования двух видов — формирования и анализа; механизм реверсивного алгебраического замыкания создает общую структуру алгоритма, фиксирующую отдельные этапы процесса распознавания изображения и их последовательность, а также структуру процедур, составляющих отдельные этапы процесса; сам же распознающий алгоритм в целом и процедуры отдельных этапов могут варьироваться;

е) ввиду итерационности процесса распознавания изображений на каждом шаге итерации реализуются все три этапа, предусмотренные методологией алгебраического подхода (как для распознающего оператора, так и для оператора приведения изображения к виду, удобному для распознавания).

Применение методологии алгебраического подхода позволяет разрабатывать автоматизированные системы распознавания и анализа изображений с учетом особенностей исходной информации и возможностей доступных вычислительных и измерительных средств или требований к ним. Каково соотношение современных математических методов распознавания изображений с данными, отражающими современные представления об устройстве зрительных систем живых существ и особенно человека, пока неясно. До сих пор междисциплинарный обмен в области исследования проблемы зрения и разработки систем машинного зрения остается в основном односторонним.

Теория Марра выглядит как путь к разрушению этой односторонности. Сколь быстро и с каким практическим эффектом он будет пройден — остается открытым вопросом. Ответ во многом зависит-от усилий читателя, получающего теперь возможность познакомиться с монографией, завоевавшей абсолютное первенство по цитированию в литературе по анализу и распознаванию изображений.

↑ Предисловие

Эта книга должна понравиться читателю.

Она посвящена волнующим событиям, которые я пережил с тех пор, как в 1973 году М. Минский и С. Пейперт пригласили меня в Лабораторию искусственного интеллекта Массачусетсского технологического института.

Благодаря умелому руководству П. Уинстона, щедрости Управления перспективных исследовательских программ Министерства обороны США и Национального научного фонда США, свободе действий, предоставленной мне У. Ричардсом, и доброму отношению Р. Хелда условия для работы в лаборатории были идеальными.

Мне посчастливилось встретиться и работать с целым рядом замечательных людей, среди которых особенно хотелось бы выделить Т. Поджо. В числе их было много бывших студентов, ставших нашими коллегами. Я многому научился у К. Нисихары, С. Уллмана, К.Форбаса, К. Стивенса, Э. Гримсона и Э. Хилдрет, М. Райли и Д. Батейли. Б. Хорн помог нам ближе познакомиться с физической оптикой, а У. Ричарде — с возможностями человека (и их границами).

В декабре 1977 года произошли события, вынудившие меня написать эту книгу на несколько лет раньше, чем я собирался это сделать. Хотя в ней имеются пробелы, которые, как я надеюсь, будут скоро заполнены, новые теоретические основы для изучения зрения уже вполне очевидны и подтверждены столь убедительными результатами, что вполне заслуживают изложения в целостном виде.

Многие помогли мне преодолеть этот довольно трудный период моей жизни. Мои родители, сестра, жена Лусиа, а также Дженнифер, Томазо, Симон, Уитман и Инге, в частности, делали для меня больше, чем я порой заслуживал. Благодарю их за все, хотя и понимаю, что просто слов благодарности здесь явно недостаточно.

У. Принс направил меня к проф. Ф. Г. Хейхи и д-ру Д. Рису из Адденбрукской больницы в Кембридже, которым я благодарен за то, что они дали мне возможность написать эту книгу.

↑ От издательства

Мы хотели бы выразить нашу признательность всем тем, кто помог довести до конца издание книга Д. Марра «Зрение».

Мы благодарим Г. Стента, дружеское участие которого обеспечило сотрудничество Д. Марра с издательством W. Н. Freeman and Company, а квалифицированное руководство помогло нам подготовить книгу к изданию.

Мы благодарим коллегу Д. Марра К. Нисихару за знания и огромные усилия, вложенные им в это предприятие; без него завершение этой работы оказалось бы невозможным.

Мы благодарим помощницу Д. Марра К. Папино за внимательное отношение к проблемам, связанным как с рукописью, так и с делами издательства.

Мы благодарим группу сотрудников Лаборатории искусственного интеллекта Массачусетсского технологического института, занимающихся зрением, особенно Э. Хилдрет и Э. Гримсона, которые и в большом, и в малом помогли выходу этой книги в свет.

Купить или скачать книгу

Все файлы на сайте, прежде чем выкладываются, проверяются на вирусы. Поэтому мы даем 100% гарантию чистоты файлов.

Нажмите на ссылку ниже, чтобы скачать книгу:

Источники:

http://cyberpedia.su/12xfc1c.html
http://zreni.ru/download/books/182-zrenie-marr-d.html