Меню Рубрики

Шапиро л стокман дж компьютерное зрение 2013

—> Компьютеры и сети » Сетевые технологии >> Скачать книгу Название: Компьютерное зрение
Автор: Шапиро Л., Стокман Д.
Издательство: Бином. Лаборатория знаний
Год: 2013
Страниц: 761
ISBN: 978-5-9963-1312-9
Формат: PDF
Размер: 10 Мб

В данной книге теоретические аспекты обработки зрительных данных рассматриваются с привлечением большого количества примеров из практических задач. Наряду с классическими темами, в книге рассматриваются базы данных изображений и системы виртуальной и дополненной реальности. Приведены примеры приложений в промышленности, медицине, землепользовании, мультимедиа и компьютерной графике.
Студентам старших курсов и аспирантам, интересующимся современным состоянием дел в машинном зрении.

Ссылки для ознакомления:

Другие новости, похожие на книгу Шапиро Л., Стокман Д. — Компьютерное зрение (2013):

автор: MIHAIL62 Комментарии (0)

Вы можете разместить ссылку на книгу Шапиро Л., Стокман Д. — Компьютерное зрение (2013) на своем сайте, блоге, любимом форуме или просто поделиться ей с друзьями:

HTML ссылка на книгу Шапиро Л., Стокман Д. — Компьютерное зрение (2013):

Ссылка для форума книга Шапиро Л., Стокман Д. — Компьютерное зрение (2013):

Ссылка на книгу Шапиро Л., Стокман Д. — Компьютерное зрение (2013):

Помощь по использованию электронной библиотеки книг:

Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.
Навигация по сайту

ДОКУМЕНТАЛЬНОЕ ВИДЕО
( BBC. Discovery
National Geographic
Познавательные телепередачи )

В данной книге теоретические аспекты обработки зрительных данных рассматриваются с привлечением большого количества примеров из практических задач. Наряду с классическими темами, в книге рассматриваются базы данных изображений и системы виртуальной и дополненной реальности.

Приведены примеры приложений в промышленности, медицине, землепользовании, мультимедиа и компьютерной графике. Студентам старших курсов и аспирантам, интересующимся современным состоянием дел в машинном зрении.

Предлагаем Вам скачать ознакомительный фрагмент произведения «Компьютерное зрение» автора Линда Шапиро в электронном виде в формате FB2 или TXT. Также можно скачать книгу в других форматах, таких как RTF и EPUB (электронные книги). Советуем выбирать для загрузки формат FB2 или TXT, которые на сегодняшний день поддерживаются практически каждым мобильным устроиством (в том числе телефонами / смартфонами / читалками электронных книг под управлением ОС Андроид и IOS (iPhone, iPad)) и настольными компьютерами. Книга вышла в 2013 году в серии «Лучший зарубежный учебник (Бином)».

Сохранить страничку в социалках/поделиться ссылкой:

Компьютерное зрение | Шапиро Л., Стокман Дж.

Качество: Электронная книга

Количество страниц: 763

Содержание статьи:

В данной книге теоретические аспекты обработки зрительных данных рассматриваются с привлечением большого количества примеров из практических задач. Наряду с классическими темами, в книге рассматриваются базы данных изображений и системы виртуальной и дополненной реальности. Приведены примеры приложений в промышленности, медицине, землепользовании, мультимедиа и компьютерной графике.

Студентам старших курсов и аспирантам, интересующимся современным состоянием дел в машинном зрении.

Предисловие редактора перевода

Предисловие к русскому изданию

Замечания относительно языка программирования

Варианты работы с книгой

Глава 1. Введение

1.1. Могут ли машины видеть?
1.2. Прикладные задачи
1.2.1. Предварительное рассмотрение структуры цифрового изображения
1.2.2. Поиск в базе данных изображений
1.2.3. Контроль отверстий в поперечных балках
1.2.4. Контроль медицинских изображений головы человека
1.2.5. Обработка сканированных страниц текста
1.2.6. Оценка снежного покрова по спутниковым изображениям
1.2.7. Анализ сцен, содержащих детали промышленного производства
1.3. Операции обработки изображений
1.3.1. Модификация пикселов в малых окрестностях
1.3.2. Глобальное улучшение качества изображения
1.3.3. Комбинация нескольких изображений
1.3.4. Вычисление характерных признаков изображения
1.3.5. Формирование неграфических описаний
1.4. Успехи, сложности и неудачи компьютерного зрения
1.5. Применение компьютеров и программного обеспечения
1.6. Смежные области
1.7. Структура оставшейся части книги
1.8. Литература
1.9. Дополнительные упражнения

Глава 2. Формирование и представление изображений

2.1. Восприятие света
2.2. Устройства для формирования изображений
2.2.1. Камеры на основе ПЗС
2.2.2. Формирование изображения
2.2.3. Видеокамеры
2.2.4. Человеческий глаз
2.3. Проблемы формирования цифровых изображений
2.3.1. Геометрические искажения
2.3.2. Дисперсия
2.3.3. Блюминг (избыточная яркость)
2.3.4. Неоднородности ПЗС-матрицы
2.3.5. Отсечение и циклический возврат
2.3.6. Хроматическая дисторсия
2.3.7. Эффекты дискретизации
2.4. Функции интенсивности и цифровые изображения
2.4.1. Типы изображений
2.4.2. Дискретизация изображений и пространственные измерения
2.5. Форматы цифровых изображений
2.5.1. Заголовок файла изображения
2.5.2. Данные изображения
2.5.3. Сжатие данных
2.5.4. Часто используемые форматы
2.5.5. Групповое кодирование бинарных изображений
2.5.6. Формат PGM: Portable Gray Map
2.5.7. Формат файлов изображений GIF
2.5.8. Формат файлов изображений TIFF
2.5.9. Формат JPEG для хранения фотографий
2.5.10. Язык PostScript
2.5.11. Файловый формат MPEG для хранения видеоданных
2.5.12. Сравнение форматов файлов изображений
2.6. Особенности и проблемы получения изображений естественных сцен .
2.7. Оценка пространственных свойств объектов по двумерным изображениям
2.8. Пять систем координат
2.8.1. Пиксельная система координат I
2.8.2. Система координат объекта О
2.8.3. Система координат камеры С
2.8.4. Действительная система координат изображения F
2.8.5. Мировая система координат W
2.9. Другие типы датчиков*
2.9.1. Микроденситометр*
2.9.2. Цветные и мультиспектральные изображения*
2.9.3. Рентгеновские изображения*
2.9.4. Получение изображений методом ядерного магнитного резонанса (ЯМР)*
2.9.5. Дальномеры и дальнометрические изображения*
2.10. Литература

Глава 3. Анализ бинарных изображений

3.1. Пикселы и окрестности пикселов
3.2. Применение масок к изображениям
3.3. Подсчет объектов на изображении
3.4. Маркировка связных компонент
3.5. Морфология бинарных изображений
3.5.1. Структурирующие элементы
3.5.2. Основные операции
3.5.3. Некоторые приложения бинарной морфологии
3.5.4. Условное наращивание
3.6. Свойства областей
3.7. Графы смежности областей бинарного изображения
3.8. Пороговая бинаризация полутоновых изображений
3.8.1. Выбор порога бинаризации по гистограмме
3.8.2. Автоматический выбор порога бинаризации: метод Оцу*
3.9. Литература

Глава 4. Основные понятия распознавания образов

4.1. Задачи распознавания образов
4.2. Общая модель классификации
4.2.1. Классы
4.2.2. Датчик/преобразователь
4.2.3. Экстрактор характерных признаков
4.2.4. Классификатор
4.2.5. Построение системы классификации
4.2.6. Оценка ошибок системы
4.2.7. Ложные срабатывания и ложные пропуски
4.3. Взаимосвязь точности системы и полноты выборки
4.4. Признаки, используемые для описания объектов
4.5. Представление объектов в виде векторов признаков
4.6. Реализация классификатора
4.6.1. Классификация по ближайшему среднему значению
4.6.2. Классификация по расстоянию до ближайших соседей
4.7. Структурные методы распознавания
4.8. Матрица неточностей
4.9. Деревья решений
4.10. Байесовский подход к принятию решений
4.10.1. Параметрические модели распределений
4.11. Принятие решений при обработке многомерных данных
4.12. Самообучающиеся машины
4.13. Искусственные нейронные сети*
4.13.1. Персептрон
4.13.2. Многослойная сеть прямого распространения
4.14. Литература

Глава 5. Фильтрация и улучшение изображений

5.1. Что необходимо сделать с изображением?
5.1.1. Повышение качества изображений
5.1.2. Обнаружение низкоуровневых признаков
5.2. Изменение тонового распределения
5.2.1. Выравнивание гистограммы
5.3. Удаление малых областей изображения
5.3.1. Удаление шума «соль и перец»
5.3.2. Удаление малых компонент
5.4. Сглаживание изображения
5.5. Медианная фильтрация
5.5.1. Вычисление выходного изображения по данным входного изображения
5.6. Обнаружение краев с помощью дифференциальных масок
5.6.1. Дифференцирование одномерных сигналов
5.6.2. Дифференциальные операторы для двумерных изображений
5.7. Гауссовская фильтрация и ЛОГ-фильтрация для обнаружения краев
5.7.1. Обнаружение краев с помощью ЛОГ-фильтра
5.7.2. Обнаружение краев в зрительной системе человека
5.7.3. Теория Марра—Хилдрет
5.8. Детектор краев Кэнни
5.9. Использование масок в качестве согласованных фильтров*
5.9.1. Векторное пространство всех сигналов, заданных в виде n дискретных значений
5.9.2. Использование ортогонального базиса
5.9.3. Неравенство Коши—Шварца
5.9.4. Векторное пространство изображений размерами m х n
5.9.5. Базис Робертса для окрестностей 2×2
5.9.6. Базис Фрея—Чена для окрестностей 3×3

5.10. Свертка и кросс-корреляция*
5.10.1. Определение операций посредством масок
5.10.2. Операция свертки
5.10.3. Возможности параллельной реализации
5.11. Анализ пространственных частот с использованием гармонических функций*
5.11.1. Базис Фурье
5.11.2. Двумерные функции интенсивности
5.11.3. Дискретное преобразование Фурье
5.11.4. Полоснопропускающая фильтрация
5.11.5. Обсуждение преобразования Фурье
5.11.6. Теорема о свертке*
5.12. Итоги и обсуждение
5.13. Литература

Глава 6. Цвет и освещенность

6.1. Физические свойства цвета
6.1.1. Восприятие освещенных объектов
6.1.2. Дополнительные факторы
6.1.3. Чувствительность рецепторов
6.2. Цветовая система RGB
6.3. Другие цветовые системы
6.3.1. Субтрактивная цветовая система CMY
6.3.2. Цветовая система HSI: Тон-Насыщенность-Интенсивность (Hue-Saturation-Intensity)
6.3.3. Телевизионные цветовые системы YIQ и YUV
6.3.4. Классификация с использованием цветовой информации
6.4. Цветовые гистограммы
6.5. Сегментация цветных изображений
6.6. Освещенность
6.6.1. Излучение одиночного источника света
6.6.2. Диффузное отражение
6.6.3. Зеркальное отражение
6.6.4. Потемнение при увеличении расстояния
6.6.5. Дополнительные факторы
6.6.6. Модель освещения Фонга*
6.6.7. Учет освещенности зрительной системой человека
6.7. Смежные темы*
6.7.1. Приложения
6.7.2. Человеческое цветовое восприятие
6.7.3. Многоспектральные изображения
6.7.4. Классификационные изображения
6.8. Литература

Глава 7. Текстура

7.1. Текстура, текселы и текстурные статистики
7.2. Тексельное описание текстур
7.3. Количественные характеристики текстур
7.3.1. Плотность и направление краев
7.3.2. Локальное двоичное разбиение
7.3.3. Вычисление характерных признаков на основе матрицы вхождений
7.3.4. Энергетические текстурные характеристики Лавса
7.3.5. Автокорреляция и спектр мощности
7.4. Текстурная сегментация
7.5. Литература

Глава 8. Поиск изображений на основе содержания

8.1. Примеры баз данных изображений
8.2. Запросы к базам данных изображений
8.3. Запросы по образцу
8.4. Меры расстояния между изображениями
8.4.1. Характеристики цветового сходства
8.4.2. Характеристики текстурного сходства
8.4.3. Характеристики сходства формы
8.4.4. Характеристики сходства, учитывающие присутствующие на изображении объекты и их взаимное расположение
8.5. Организация базы данных
8.5.1. Стандартные индексы
8.5.2. Пространственная индексация
8.5.3. Индексация для систем поиска изображений на основе содержания, в которых применяется несколько различных мер расстояния
8.6. Литература

Глава 9. Движение на двумерных изображениях

9.1. Явления и прикладные задачи, связанные с движением на изображениях
9.2. Вычитание изображений
9.3. Вычисление векторов перемещения
9.3.1. Игра Decathlete
9.3.2. Использование соответствующих точек
9.3.3. Алгоритм MPEG для сжатия потока видеоданных
9.3.4. Вычисление потока изображения*
9.3.5. Уравнение потока изображения*
9.3.6. Распространение ограничений при вычислении потока изображения*
9.4. Вычисление траекторий движущихся точек
9.4.1. Слежение с учетом априорных знаний из предметной области
9.5. Обнаружение значительных изменений условий видеосъемки.
9.5.1. Сегментация видеопоследовательностей
9.5.2. Игнорирование некоторых эффектов камеры
9.5.3. Хранение фрагментов видеопоследовательностей
9.6. Литература

Глава 10. Сегментация изображений

10.1. Обнаружение областей
10.1.1. Методы кластеризации
10.1.2. Наращивание областей
10.2. Способы представления областей
10.2.1. Оверлейные представления
10.2.2. Маркированные изображения
10.2.3. Кодирование границ
10.2.4. Квадрантные деревья
10.2.5. Таблицы свойств
10.3. Обнаружение контуров
10.3.1. Прослеживание границ существующих областей
10.3.2. Детектор и компоновщик краев Кэнни
10.3.3. Группировка согласующихся соседних контурных фрагментов в кривые
10.3.4. Преобразование Хафа для обнаружения прямых и дуг окружностей
10.4. Подбор моделей сегментов
10.5. Обнаружение высокоуровневых структур
10.5.1. Ленты
10.5.2. Обнаружение углов
10.6. Сегментация на основе согласованного движения
10.6.1. Границы движущихся объектов
10.6.2. Накопление траекторий движения
10.7. Литература

Глава 11. Сопоставление в двумерном пространстве

11.1. Совмещение двумерных данных
11.2. Представление точек
11.3. Аффинные геометрические преобразования
11.4. Наилучшее двумерное аффинное преобразование*
11.5. Распознавание двумерных объектов с использованием аффинных преобразований
11.6. Распознавание двумерных объектов с использованием реляционных моделей
11.7. Нелинейные методы деформации изображений
11.8. Итоги
11.9. Литература

Глава 12. Восприятие трехмерных сцен по двумерным изображениям

12.1. Внутренние изображения
12.2. Маркировка контурных изображений объектов с плоскими гранями
12.3. Трехмерные признаки на двумерных изображениях
12.4. Другие способы определения пространственных свойств объектов
12.4.1. Определение формы объектов по одному признаку
12.4.2. Точки схода
12.4.3. Определение глубины с помощью фокусировки
12.4.4. Признаки, связанные с движением
12.4.5. Контуры и виртуальные прямые
12.4.6. Совмещенность
12.5. Модель формирования изображений на основе перспективной проекции
12.6. Определение глубины с помощью стереоскопической системы
12.6.1. Обнаружение соответствующих признаков
12.7. Формула тонкой линзы*
12.8. Итоги
12.9. Литература

Глава 13. Восприятие трехмерных сцен. Оценка пространственного положения и ориентации объектов

13.1. Устройство стереоскопической системы компьютерного зрения общего назначения
13.2. Аффинные преобразования в трехмерном пространстве
13.2.1. Системы координат
13.2.2. Перенос
13.2.3. Масштабирование
13.2.4. Поворот
13.2.5. Поворот вокруг произвольной оси
13.2.6. Совмещение фигур посредством аффинных преобразований
13.3. Модель камеры
13.3.1. Матрица перспективной проекции
13.3.2. Прямоугольная и слабая перспективная проекции
13.3.3. Вычисление трехмерных координат с использованием нескольких камер
13.4. Наилучшая аффинная калибровочная матрица
13.4.1. Калибровочный стенд
13.4.2. Задача для решения методом наименьших квадратов
13.4.3. Обсуждение аффинного метода
13.5. Использование структурной подсветки
13.6. Простая процедура оценки положения наблюдаемого объекта
13.7. Улучшенный метод калибровки камеры*
13.7.1. Внутренние параметры камеры
13.7.2. Внешние параметры камеры
13.7.3. Пример калибровки
13.8. Оценка положения объектов
13.8.1. Оценка положения на основе соответствия двумерных и трехмерных координат точек
13.8.2. Линейная оптимизация при наличии ограничений
13.8.3. Вычисление преобразования Тг =
13.8.4. Верификация и оптимизация при вычислении положения объектов
13.9. Реконструкция трехмерных объектов
13.9.1. Сбор дальнометрических данных
13.9.2. Совмещение видов
13.9.3. Реконструкция поверхности
13.9.4. Алгоритм объемного удаления
13.10. Вычисление формы по данным освещенности
13.10.1. Стереофотометрический метод
13.10.2. Интегральный учет пространственных ограничений
13.11. Геометрическая структура объектов по данным о движении
13.12. Литература

Глава 14. Трехмерные модели. Распознавание объектов на изображениях на основе моделей

14.1. Обзор распространенных разновидностей моделей
14.1.1. Трехмерные каркасные модели
14.1.2. Модели типа «поверхность-ребро-вершина»
14.1.3. Модели на основе обобщенных цилиндров
14.1.4. Модели на основе октантных деревьев
14.1.5. Модели на основе суперквадрик
14.2. Модели на основе классов видимости как альтернатива истинным трехмерным моделям
14.3. Физические и деформационные модели
14.3.1. Модели на основе активных контуров (snakes-модели)
14.3.2. Трехмерные оболочечные модели
14.3.3. Моделирование движения человеческого сердца
14.4. Основные методы распознавания трехмерных объектов
14.4.1. Распознавание по трехмерным моделям с использованием процедуры совмещения
14.4.2. Распознавание на основе сопоставления исходных данных с реляционными моделями
14.4.3. Распознавание на основе сопоставления с функциональными моделями
14.4.4. Распознавание по внешнему виду объектов
14.5. Литература

Глава 15. Системы виртуальной реальности

15.1. Основные признаки систем виртуальной реальности
15.2. Приложения систем виртуальной реальности
15.3. Системы дополненной реальности
15.4. Дистанционное управление
15.5. Устройства для систем виртуальной реальности
15.6. Краткий обзор датчиков для систем виртуальной реальности
15.7. Генерация простых трехмерных моделей
15.8. Сочетание реальных и искусственных изображений
15.9. Психофизиологические аспекты человеко-машинного интерфейса
15.10. Литература

Глава 16. Примеры прикладных задач

16.1. Veggie Vision: система для распознавания овощей и фруктов
16.1.1. Прикладная область и требования к системе
16.1.2. Устройство системы
16.1.3. Процедура идентификации
16.1.4. Более подробное описание процесса обработки
16.1.5. Производительность
16 2. Идентификация личности человека по радужной оболочке глаза
16.2.1. Требования к системам идентификации личности
16.2.2. Устройство системы
16.2.3. Производительность системы
16.3. Литература

Аннотированный список литературы, добавленный при переводе

1. Распознавание образов и компьютерное зрение
2. Представление и обработка изображений
3. Компьютерная графика и геометрическое моделирование
4. Смежные вопросы

↑ Предисловие редактора перевода

Системы технического зрения (СТЗ) призваны и во многих случаях уже решают задачи по дополнению или даже замене человека в областях деятельности, связанных со сбором и анализом зрительной информации. Уровень их использования в прикладных областях является одним из наиболее ярких и наглядных интегральных показателей уровня развития высоких технологий в самых различных отраслях промышленности.

Составные части СТЗ: оптическая система, преобразователь свет-сигнал, электронный тракт ввода элементов изображения в память ЭВМ или специального вычислителя, математическое обеспечение сбора и обработки необходимых зрительных данных, выдвигают самые высокие требования к соответствующим направлениям научно-технической мысли.

Несмотря на значительные успехи, достигнутые в области машинного зрения, эффективное его использование в качестве средства автоматизации приходится, прежде всего, на наиболее развитые производства с общей высокой культурой и технологией. В плохо организованных средах и исследовательских задачах на СТЗ возлагается роль дополнения, расширяющего возможности и повышающего эффективность человеческого зрительного анализа, при ведущей и определяющей роли человека-оператора или исследователя. Следует констатировать тот факт, что не существует универсального математического аппарата, который позволил бы сформировать общий формализованный подход к построению систем технического зрения. Поэтому, с точки зрения подготовки специалистов в области машинного зрения, очень важны публикации, в которых отдельные математические средства и модели рассматриваются в контексте системного подхода к решению той или иной практической задачи.

После полутора-двух десятилетий пониженного спроса в отечественной промышленности на новые разработки в области высоких технологий сейчас стали проявляться признаки оживления спроса на средства автоматизации производства и как на важную их часть —СТЗ. Не только для разработки систем машинного зрения, но и для их эффективного использования необходимо иметь специальную подготовку и понимание того, как работают подобные системы. Вместе с тем, по сравнению с другими областями информационных технологий, относительно мало монографий, посвященных машинному зрению или отдельным его составляющим. Еще меньшее число переведено на русский язык, а отечественные публикации представлены в основном статьями в различных сборниках.

Здесь, как нельзя кстати, книга Линды Шапиро и Джорджа Стокмана, адресованная, прежде всего, студентам старших курсов и аспирантам, интересующимся современным состоянием дел в такой интересной и увлекательной области, как машинное зрение. Одним из достоинств данной книги является то, что при акценте на математическом обеспечении, в ней сбалансированно представлены и все другие составные части систем технического зрения, требующие учета при разработке или эксплуатации СТЗ. Теоретические аспекты обработки зрительных данных рассматриваются с привлечением большого количества примеров из практических задач, кроме того, во всех частях дано большое количество упражнений, закрепляющих усвоенный материал и вырабатывающих навыки решения практических задач.

Наряду с классическими темами, в книге рассматриваются базы данных изображений и системы виртуальной и дополненной реальности. Представлен законченный обзор двух систем компьютерного зрения прикладного назначения. Приведены примеры приложений в промышленности, медицине, землепользовании, мультимедиа и компьютерной графике. На Web-сайте для поддержки книги находятся архивы изображений, исходные тексты программ для примеров обработки изображений и слайды презентаций по тематике книги.

Следует отметить очень качественно выполненный перевод предлагаемой книги. Все термины тщательно выверены с точки зрения их профессионального использования именно в рассматриваемой области.

Выбор терминов, которые наиболее точно соответствуют английскому слову в такой быстро развивающейся области, как машинное зрение, зачастую является довольно сложной задачей. В ряде случаев переводчик вынужден приводить несколько наиболее подходящих значений русских аналогов, а в ряде случаев, в соответствии с уже сложившейся практикой, принимается английский вариант в русской транскрипции, как например, со словом pixel, что в смысловом переводе означает элемент изображения, но де-факто используется без перевода—пиксел (реже пиксель).

↑ Предисловие к русскому изданию

Эта книга была написана в качестве учебника по компьютерному зрению, рассчитанного на студентов и аспирантов. Мы стремились достичь трех главных целей.

Во-первых, мы хотели представить в книге наиболее важный базовый материал по основным разделам компьютерного зрения, который необходим студентам, желающим работать в данной области.

Во-вторых, в книгу были включены ряд алгоритмов и прикладных задач повышенной сложности, на примере которых студенты и аспиранты смогут получить представление о некоторых направлениях современных исследований.

И в-третьих (хотя и не в последнюю очередь), мы надеялись поделиться с читателями нашей увлеченностью компьютерным зрением, которое продолжает развиваться даже быстрее, чем мы ожидали. Мы выражаем благодарность к. ф.-м. н. А. А. Богуславскому и д. ф.-м. н. С.М. Соколову, работавшим над русским изданием книги. Мы надеемся, что книга будет полезна при изучении компьютерного зрения российскими студентами и аспирантами и что она будет способствовать расширению взаимодействия между американскими и российскими учеными и инженерами. Достигнутые ими результаты, несомненно, необходимы для прогресса в этой области.

↑ Предисловие

Эта книга представляет собой вводное руководство по компьютерному зрению для широкого круга читателей. В ней содержится необходимый теоретический материал и примеры для студентов и инженеров, планирующих работать в прикладных областях, в которых требуется автоматически извлекать из изображений некоторую существенную информацию. Материалы книги могут быть полезны и для профессионалов; книга может использоваться в качестве учебника для студентов и для начального обучения аспирантов, а также при выполнении исследовательских проектов в колледжах и в высшей школе.

Наша цель состояла в том, чтобы привести базовый набор основных понятий и алгоритмов, а также обсудить некоторые наиболее интересные прикладные области. Данная книга уникальна наличием глав по таким захватывающе интересным и развивающимся в последнее время прикладным областям, как базы данных изображений (гл. 8) и системы виртуальной реальности (гл. 15). В заключительной главе (гл. 16) приведено подробное рассмотрение двух реальных систем, в которых применяется компьютерное зрение.

Прогресс в области вычислительной техники привел к повсеместному распространению разнообразных недорогих приложений, связанных с использованием компьютерных изображений. Вычислительная обработка изображений теперь является не только предметом научных исследований. Она применяется даже в искусстве и в общественных науках и представляет интерес для отдельных любителей.

Книга должна быть полезна существующей и постоянно расширяющейся аудитории, включая тех, кого кроме традиционных областей автоматизации, обработки изображений, получения медицинских изображений, бесконтактных измерений и компьютерной картографии интересуют такие области, как мультимедиа, искусство и дизайн, геоинформационные системы и базы данных изображений. На первый взгляд, настолько общих целей невозможно достичь.

Однако подобные учебники уже существуют в других областях, например по физике, математике и компьютерным наукам. Мы надеемся, что сделали, по крайней мере, хорошую книгу для начинающих — мы хотели написать книгу, которая была бы полезна и на аудиторных занятиях, и самостоятельному читателю. Мы считаем, что выбранные темы будут интересными и иногда увлекательными, и, надеемся, доступными для большой аудитории. Подразумевается, что в случае применения книги для обучения дипломированных специалистов или аспирантов в учебном курсе по компьютерному зрению также будут использованы статьи из списка дополнительной литературы.

Этот список не планировалось сделать всесторонним; в конце каждой главы приведены ссылки на довольно небольшой набор статей. Изложение материала в первых главах начинается на интуитивном уровне и затем происходит переход к использованию математических моделей. Это сделано с целью Формирования интуитивного понимания до знакомства с формальным описанием.

Разделы, отмеченные звездочкой (*), являются более сложными и математически насыщенными. В учебном курсе, не затрагивающем технических деталей, эти разделы можно не рассматривать. Для усиления интуитивного подхода в первых одиннадцати главах рассматривается обработка плоских изображений, а трехмерное компьютерное зрение оставлено для более поздних глав.

Опытные преподаватели без труда смогут перераспределить материал в расчете на конкретный учебный курс или стиль обучения. Существует большое количество полностью двумерных приложений. В двумерной форме оказывается проще изучать многие понятия и алгоритмы. В гл. 4 рассматривается ряд основных понятий, связанных с распознаванием образов. Таким образом студенты смогут получить представление о законченных системах распознавания до полного изучения характерных признаков изображений и методов их нахождения. После изучения гл. 4 читатель получит хорошее представление о приложениях обработки двумерных изображений.

В гл. 5, 6 и 7 вводятся характерные признаки полутоновых и цветных изображений, а также текстурные признаки. В гл. 8 обсуждается популярная недавно возникшая прикладная область — базы данных изображений. Некоторые коллеги советовали нам поместить этот материал в конце книги, но мы расположили его раньше, чтобы закрепить усвоение понятий предшествующих глав и представить материал, который может пригодиться для полусеместровых проектов.

Сегментация и распознавание образов на двумерных изображениях рассматриваются в гл. 10 и 11. Материал в них представлен в наиболее простой форме, без учета сложностей, связанных с геометрическими преобразованиями в трехмерном пространстве. Свойства трехмерного пространства кратко представлены в гл. 2. Намного более подробно они изучаются в гл. 12. В гл. 12 качественно рассматриваются многие аспекты восприятия трехмерного мира посредством двумерных изображений. Эта глава заканчивается описанием модели стереоскопической зрительной системы и нескольких примеров применения уравнения тонкой линзы.

Переход к трехмерному компьютерному зрению выполняется в гл. 13. На основе собственного преподавательского опыта авторы обнаружили, что на данном этапе сложность материала для студентов резко возрастает. Матрицы для представления геометрических преобразований в однородных координатах используются непосредственно в материале главы, а не выносятся в приложение. Трехмерные версии этих преобразований являются расширениями более простых двумерных преобразований, уже рассматривавшихся в гл. 11.

Аппроксимация методом наименьших квадратов, представленная в контексте двумерных задач в гл. 11, в гл. 13 также расширяется на трехмерный случай. Нелинейная оптимизация сначала рассматривается применительно к простой «перспективной задаче 3 точек». Затем нелинейная оптимизация применяется в задаче калибровки камеры с учетом радиальной дисторсии объектива. В гл. 14 описываются трехмерные модели и их распознавание по данным дальнометрических измерений. Глава 15 посвящена обсуждению приложений виртуальной и дополненной реальности и роли в них методов компьютерного зрения.

Замечания относительно языка программирования

Книга не ориентирована на какой-либо конкретный язык программирования, но в ней используется некоторая обобщенная система обозначений для записи алгоритмов. Выбирать определенный язык не было необходимо. Конкретный язык для многих читателей мог бы оказаться не самым подходящим. Студенты, знакомые с программированием, при реализации алгоритмов не должны встретить значительных проблем, что и продемонстрировали наши собственные студенты.

Примеры реализации в конечном счете будут представлены через Интернет. Это будет сделано, когда примеры реализации будут доступными и подходящими, во-первых, чтобы студенты могли быстро экспериментировать с ними, и, во-вторых, чтобы они могли изучать примеры исходных текстов программ. Для преподавателей и студентов доступны ряд инструментальных средств и библиотек; например, Khoros, NIH-Image, XView, gimp, MATLAB, и т. д. Существуют также программные пакеты, которые можно приобрести у компаний-производителей аппаратного обеспечения для систем машинного зрения.

Авторы решили не ориентировать материалы книги на какое-либо определенное программное обеспечение по двум причинам. Во-первых, большинство читателей использовали бы какие-то другие пакеты. Во-вторых, восприятие книги было бы затруднено, если бы сущность операций по обработке изображений была скрыта за рассмотрением сложного каркаса структур данных и методов, необходимых в промышленных прикладных системах. Читатель, сначала изучивший принципы в простой программной среде, будет лучше подготовлен к успешному выбору и использованию промышленных систем.

Варианты работы с книгой

Материал книги может быть различными способами отобран и при необходимости переупорядочен, применительно к целям конкретного учебного курса и с учетом интересов преподавателя и студентов.

* Глава 3 и краткий обзор гл. 2. Минимальным вариантом использования книги могло бы быть добавление 1-3 лекций в курс но структурам данных и алгоритмам. Гл. 3, с учетом некоторых предварительных сведений из гл. 2, содержит ряд показательных приложений и упражнений на программирование с использованием двумерных массивов, поиска «в глубину» и структур данных для представления множеств.

* Главы 1, 2 и 3 и избранные фрагменты гл. 4, 5 и 6. В данном случае книга может служить для дополнения учебных курсов колледжей и младших курсов университетов материалом, рассчитанным на срок от 1 до 3 недель. Цель использования книги может заключаться в написании курсовой работы или быть более сложной, скажем, как групповой проект по разработке какой-либо программы (например, двумерной системы распознавания деталей на основе анализа связных компонент маркированных изображений, или системы распознавания моделей на основе сопоставления векторов характерных признаков).

* Большая часть материала гл. 1-11. Например, в таком варианте может быть сделан обзор материала по обработке двумерных изображений в рамках курса по выбору для студентов, специализирующихся в географии, природных ресурсах или микробиологии (при условии, что будут пропущены большинство необязательных разделов). Если будут рассмотрены большинство разделов гл. 1-11, то такой объем мог бы соответствовать семестровому курсу по обработке и анализу изображений с введением в область компьютерного зрения.

* Большая часть книги. Подобный объем позволяет построить семестровый курс по компьютерному зрению для студентов старших курсов или аспирантов первого года обучения. В книге существенно больше материала, чем можно успеть подробно рассмотреть в течение одного семестра. Некоторые разделы придется проигнорировать или рассмотреть кратко, и не следует полагать, что читатель сможет решать домашние задания из всех разделов книги. При обучении студентов по учебным планам, разбитым на четверти, гл. 1-4, 6-12, и 14 обеспечат хорошее введение в область компьютерного зрения. В учебном курсе для аспирантов в течение одной четверти можно предложить минимальное рассмотрение гл. 1-4, затем акцентированное рассмотрение гл. 6-14 и краткий обзор гл. 15. Предполагается, что в любом курсе для аспирантов в процессе обучения будут использоваться статьи из дополнительной литературы.

Мы благодарны многим нашим коллегам, преподавателям, и студентам, с которыми нас объединяют общие интересы. Многие великодушно поддержали эту книгу вкладом идей, иллюстраций и алгоритмов. Отдельные цитаты приведены в этой книге повсюду. К сожалению, много предоставленного материала мы не смогли включить в книгу — иначе она могла бы стать слишком большой. Нашу работу существенно улучшили несколько рецензентов и много коллег, с которыми мы общались в процессе написания книги. В особенности мы благодарны тем, кто внимательно редактировал книгу. Это Mohammad Ghavamzadeh, Nick Dutta, Kevin Bowyer, Adam Clark, Yu-Yu Chou, Habib Abi-Rached, Valentin Razmov. За любые оставшиеся в книге ошибки и за их исправление в будущем ответственность несут авторы.

Подготовка этой книги продолжалась четыре года. Нам помогали Paul Becker из Addison Wesley-Longman, Tom Robbins из Prentice Hall, Rose Rummel-Eury и Chanda Wakefield из ICC, а также Cathy Davison и Lorraine Evans. Создание этой книги было непростой работой, и, конечно, нам помогла команда профессионалов, обладающих как опытом, так и чувством юмора.

Компьютерное зрение

Авторы: Шапиро Л. , Стокман Дж.
Издательство: Лаборатория знаний (ранее «БИНОМ. Лаборатория знаний»)
Издание: 3-е
ISBN 978-5-9963-3003-4 ; 2015 г.
Кол-во страниц: 763

Предварительный просмотр:

В данной книге теоретические аспекты обработки зрительных иданных рассматриваются с привлечением большого количества примеров из практических задач. Наряду с классическими темами, в книге рассматриваются базы данных изображений и системы виртуальной и дополненной реальности. Приведены примеры приложений в промышленности, медицине, землепользовании, мультимедиа и компьютерной графике. Студентам старших курсов и аспирантам, интересующимся современным состоянием дел в машинном зрении.

Компьютерное зрение PDF

  • Объем: 763 стр.
  • Жанр:з арубежная компьютерная литература, з арубежная образовательная литература, к ниги о компьютерах, п рограммирование, у чебники и пособия для вузов
  • Теги:в иртуальная реальность, и скусственный интеллект, э ффективные алгоритмы

В данной книге теоретические аспекты обработки зрительных данных рассматриваются с привлечением большого количества примеров из практических задач. Наряду с классическими темами, в книге рассматриваются базы данных изображений и системы виртуальной и дополненной реальности. Приведены примеры приложений в промышленности, медицине, землепользовании, мультимедиа и компьютерной графике.

Студентам старших курсов и аспирантам, интересующимся современным состоянием дел в машинном зрении.

  • Возрастное ограничение: 0+
  • Дата выхода на ЛитРес: 18 августа 2015
  • Дата перевода: 2006
  • Дата написания: 2013
  • Объем: 763 стр.
  • ISBN: 978-5-9963-3003-4
  • Общий размер: 11 MB
  • Общее кол-во страниц: 763
  • Размер страницы:
  • Переводчик:
  • Правообладатель: Лаборатория знаний

книга абсолютно пустая все вопросы рассмотрены поверхностно

самое ценное в этой книге список литературы

Компьютерное зрение – Линда Шапиро

В данной книге теоретические аспекты обработки зрительных данных рассматриваются с привлечением большого количества примеров из практических задач. Наряду с классическими темами, в книге рассматриваются базы данных изображений и системы виртуальной и дополненной реальности. Приведены примеры приложений в промышленности, медицине, землепользовании, мультимедиа и компьютерной графике.

Студентам старших курсов и аспирантам, интересующимся современным состоянием дел в машинном зрении.

Компьютерное зрение

Описание книги:

В данной книге теоретические аспекты обработки зрительных данных рассматриваются с привлечением большого количества примеров из практических задач. Наряду с классическими темами, в книге рассматриваются базы данных изображений и системы виртуальной и дополненной реальности. Приведены примеры приложений в промышленности, медицине, землепользовании, мультимедиа и компьютерной графике.

Студентам старших курсов и аспирантам, интересующимся современным состоянием дел в машинном зрении.

Компьютерное зрение

Скачать книгу

О книге «Компьютерное зрение»

В данной книге теоретические аспекты обработки зрительных данных рассматриваются с привлечением большого количества примеров из практических задач. Наряду с классическими темами, в книге рассматриваются базы данных изображений и системы виртуальной и дополненной реальности. Приведены примеры приложений в промышленности, медицине, землепользовании, мультимедиа и компьютерной графике. Студентам старших курсов и аспирантам, интересующимся современным состоянием дел в машинном зрении.

На нашем сайте вы можете скачать книгу «Компьютерное зрение» Линда Шапиро бесплатно и без регистрации в формате fb2, rtf, epub, pdf, txt, читать книгу онлайн или купить книгу в интернет-магазине.

«COMPUTER VISION Linda G. Shapiro Department of Computer Science and Engineering Department of Electrical Engineering University of Washington Seattle, . »

COMPUTER VISION

Linda G. Shapiro

Department of Computer Science and Engineering

Department of Electrical Engineering

University of Washington

George C. Stockman

Department of Computer Science and Engineering

Michigan State University

East Lansing, Michigan

PRENTICE HALL, Upper Sadle River, New Jersey 07458

ЛУЧШИЙ ЗАРУБЕЖНЫЙ УЧЕБНИК

Л.ШАПИРО, Дж. СТОКМАН

КОМПЬЮТЕРНОЕ

ЗРЕНИЕ Перевод с английского А. А. Богуславского под редакцией С. М. Соколова Рекомендовано учебно-методическим объединением вузов Российской Федерации по образованию в области прикладной информатики в качестве учебного пособия для студентов высших учебных заведений, обучающихся по специальности «Прикладная информатика (по областям)»

2-е издание (электронное) Москва БИНОМ. Лаборатория знаний УДК 519.7 ББК 32.81 Ш23 С е р и я о с н о в а н а в 2006 г.

Ш23 Компьютерное зрение [Электронный ресурс] / Л. Шапиро, Дж. Стокман ; пер. с англ. 2-е изд. (эл.). М. : БИНОМ. Лаборатория знаний, 2013. 752 с. : ил. (Лучший зарубежный учебник).

ISBN 978-5-9963-1312-9 В данной книге теоретические аспекты обработки зрительных данных рассматриваются с привлечением большого количества примеров из практических задач. Наряду с классическими темами, в книге рассматриваются базы данных изображений и системы виртуальной и дополненной реальности. Приведены примеры приложений в промышленности, медицине, землепользовании, мультимедиа и компьютерной графике.

Студентам старших курсов и аспирантам, интересующимся современным состоянием дел в машинном зрении.

УДК 519.7 ББК 32.81 Authorized Translation from the English language edition, entitled COMPUTER VISION; by LINDA SHAPIRO; and by GEORGE STOCKMAN;

published by Pearson Education, Inc, publishing as Prentice Hall. Copyright c 2001 by Prentice Hall, Inc. All rights reserved. No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from Pearso

Системы технического зрения (СТЗ) призваны и во многих случаях уже решают задачи по дополнению или даже замене человека в областях деятельности, связанных со сбором и анализом зрительной информации. Уровень их использования в прикладных областях является одним из наиболее ярких и наглядных интегральных показателей уровня развития высоких технологий в самых различных отраслях промышленности.

Составные части СТЗ: оптическая система, преобразователь свет-сигнал, электронный тракт ввода элементов изображения в память ЭВМ или специального вычислителя, математическое обеспечение сбора и обработки необходимых зрительных данных, выдвигают самые высокие требования к соответствующим направлениям научно-технической мысли.

Несмотря на значительные успехи, достигнутые в области машинного зрения, эффективное его использование в качестве средства автоматизации приходится, прежде всего, на наиболее развитые производства с общей высокой культурой и технологией. В плохо организованных средах и исследовательских задачах на СТЗ возлагается роль дополнения, расширяющего возможности и повышающего эффективность человеческого зрительного анализа, при ведущей и определяющей роли человека-оператора или исследователя.

Следует констатировать тот факт, что не существует универсального математического аппарата, который позволил бы сформировать общий формализованный подход к построению систем технического зрения. Поэтому, с точки зрения подготовки специалистов в области машинного зрения, очень важны публикации, в которых отдельные математические средства и модели рассматриваются в контексте системного подхода к решению той или иной практической задачи.

После полутора-двух десятилетий пониженного спроса в отечественной промышленности на новые разработки в области высоких технологий сейчас стали проявляться признаки оживления спроса на средства автоматизации производства и как на важную их часть — СТЗ. Не только для разработки систем машинного зрения, но и для их эффективного использования необходимо иметь специальную подготовку и понимание того, как работают подобные системы. Вместе с тем, по сравнению с другими областями информационных 6 Предисловие редактора перевода технологий, относительно мало монографий, посвященных машинному зрению или отдельным его составляющим. Еще меньшее число переведено на русский язык, а отечественные публикации представлены в основном статьями в различных сборниках.

Здесь, как нельзя кстати, книга Линды Шапиро и Джорджа Стокмана, адресованная, прежде всего, студентам старших курсов и аспирантам, интересующимся современным состоянием дел в такой интересной и увлекательной области, как машинное зрение. Одним из достоинств данной книги является то, что при акценте на математическом обеспечении, в ней сбалансированно представлены и все другие составные части систем технического зрения, требующие учета при разработке или эксплуатации СТЗ. Теоретические аспекты обработки зрительных данных рассматриваются с привлечением большого количества примеров из практических задач, кроме того, во всех частях дано большое количество упражнений, закрепляющих усвоенный материал и вырабатывающих навыки решения практических задач. Наряду с классическими темами, в книге рассматриваются базы данных изображений и системы виртуальной и дополненной реальности. Представлен законченный обзор двух систем компьютерного зрения прикладного назначения. Приведены примеры приложений в промышленности, медицине, землепользовании, мультимедиа и компьютерной графике. На Web-сайте для поддержки книги находятся архивы изображений, исходные тексты программ для примеров обработки изображений и слайды презентаций по тематике книги.

Следует отметить очень качественно выполненный перевод предлагаемой книги. Все термины тщательно выверены с точки зрения их профессионального использования именно в рассматриваемой области.

Выбор терминов, которые наиболее точно соответствуют английскому слову в такой быстро развивающейся области, как машинное зрение, зачастую является довольно сложной задачей. В ряде случаев переводчик вынужден приводить несколько наиболее подходящих значений русских аналогов, а в ряде случаев, в соответствии с уже сложившейся практикой, принимается английский вариант в русской транскрипции, как например, со словом pixel, что в смысловом переводе означает элемент изображения, но де-факто используется без перевода — пиксел (реже пиксель).

проф. С. М. Соколов Предисловие к русскому изданию Эта книга была написана в качестве учебника по компьютерному зрению, рассчитанного на студентов и аспирантов. Мы стремились достичь трех главных целей. Во-первых, мы хотели представить в книге наиболее важный базовый материал по основным разделам компьютерного зрения, который необходим студентам, желающим работать в данной области. Во-вторых, в книгу были включены ряд алгоритмов и прикладных задач повышенной сложности, на примере которых студенты и аспиранты смогут получить представление о некоторых направлениях современных исследований. И в-третьих (хотя и не в последнюю очередь), мы надеялись поделиться с читателями нашей увлеченностью компьютерным зрением, которое продолжает развиваться даже быстрее, чем мы ожидали. Мы выражаем благодарность к. ф.-м. н. А. А. Богуславскому и д. ф.-м. н. С. М. Соколову, работавшим над русским изданием книги. Мы надеемся, что книга будет полезна при изучении компьютерного зрения российскими студентами и аспирантами и что она будет способствовать расширению взаимодействия между американскими и российскими учеными и инженерами.

Достигнутые ими результаты, несомненно, необходимы для прогресса в этой области.

Линда Шапиро и Джордж Стокман Предисловие Эта книга представляет собой вводное руководство по компьютерному зрению для широкого круга читателей. В ней содержится необходимый теоретический материал и примеры для студентов и инженеров, планирующих работать в прикладных областях, в которых требуется автоматически извлекать из изображений некоторую существенную информацию. Материалы книги могут быть полезны и для профессионалов; книга может использоваться в качестве учебника для студентов и для начального обучения аспирантов, а также при выполнении исследовательских проектов в колледжах и в высшей школе.

В заключительной главе (гл. 16) приведено подробное рассмотрение двух реальных систем, в которых применяется компьютерное зрение. Прогресс в области вычислительной техники привел к повсеместному распространению разнообразных недорогих приложений, связанных с использованием компьютерных изображений. Вычислительная обработка изображений теперь является не только предметом научных исследований. Она применяется даже в искусстве и в общественных науках и представляет интерес для отдельных любителей.

Книга должна быть полезна существующей и постоянно расширяющейся аудитории, включая тех, кого кроме традиционных областей автоматизации, обработки изображений, получения медицинских изображений, бесконтактных измерений и компьютерной картографии интересуют такие области, как мультимедиа, искусство и дизайн, геоинформационные системы и базы данных изображений. На первый взгляд, настолько общих целей невозможно достичь.

Однако подобные учебники уже существуют в других областях, например по физике, математике и компьютерным наукам. Мы надеемся, что сделали, по крайней мере, хорошую книгу для начинающих — мы хотели написать книгу, Предисловие 9 которая была бы полезна и на аудиторных занятиях, и самостоятельному читателю. Мы считаем, что выбранные темы будут интересными и иногда увлекательными, и, надеемся, доступными для большой аудитории. Подразумевается, что в случае применения книги для обучения дипломированных специалистов или аспирантов в учебном курсе по компьютерному зрению также будут использованы статьи из списка дополнительной литературы. Этот список не планировалось сделать всесторонним; в конце каждой главы приведены ссылки на довольно небольшой набор статей. Изложение материала в первых главах начинается на интуитивном уровне и затем происходит переход к использованию математических моделей. Это сделано с целью формирования интуитивного понимания до знакомства с формальным описанием. Разделы, отмеченные звездочкой (*), являются более сложными и математически насыщенными. В учебном курсе, не затрагивающем технических деталей, эти разделы можно не рассматривать. Для усиления интуитивного подхода в первых одиннадцати главах рассматривается обработка плоских изображений, а трехмерное компьютерное зрение оставлено для более поздних глав. Опытные преподаватели без труда смогут перераспределить материал в расчете на конкретный учебный курс или стиль обучения. Существует большое количество полностью двумерных приложений. В двумерной форме оказывается проще изучать многие понятия и алгоритмы. В гл. 4 рассматривается ряд основных понятий, связанных с распознаванием образов. Таким образом студенты смогут получить представление о законченных системах распознавания до полного изучения характерных признаков изображений и методов их нахождения.

После изучения гл. 4 читатель получит хорошее представление о приложениях обработки двумерных изображений. В гл. 5, 6 и 7 вводятся характерные признаки полутоновых и цветных изображений, а также текстурные признаки.

В гл. 8 обсуждается популярная недавно возникшая прикладная область — базы данных изображений. Некоторые коллеги советовали нам поместить этот материал в конце книги, но мы расположили его раньше, чтобы закрепить усвоение понятий предшествующих глав и представить материал, который может пригодиться для полусеместровых проектов. Сегментация и распознавание образов на двумерных изображениях рассматриваются в гл. 10 и 11.

Материал в них представлен в наиболее простой форме, без учета сложностей, связанных с геометрическими преобразованиями в трехмерном пространстве.

Свойства трехмерного пространства кратко представлены в гл. 2. Намного более подробно они изучаются в гл. 12. В гл. 12 качественно рассматриваются многие аспекты восприятия трехмерного мира посредством двумерных изображений. Эта глава заканчивается описанием модели стереоскопической зрительной системы и нескольких примеров применения уравнения тонкой линзы. Переход к трехмерному компьютерному зрению выполняется в гл. 13.

На основе собственного преподавательского опыта авторы обнаружили, что на данном этапе сложность материала для студентов резко возрастает. Матрицы для представления геометрических преобразований в однородных координатах используются непосредственно в материале главы, а не выносятся в приПредисловие ложение. Трехмерные версии этих преобразований являются расширениями более простых двумерных преобразований, уже рассматривавшихся в гл. 11.

Аппроксимация методом наименьших квадратов, представленная в контексте двумерных задач в гл. 11, в гл. 13 также расширяется на трехмерный случай.

Нелинейная оптимизация сначала рассматривается применительно к простой «перспективной задаче 3 точек». Затем нелинейная оптимизация применяется в задаче калибровки камеры с учетом радиальной дисторсии объектива.

В гл. 14 описываются трехмерные модели и их распознавание по данным дальнометрических измерений. Глава 15 посвящена обсуждению приложений виртуальной и дополненной реальности и роли в них методов компьютерного зрения.

Замечания относительно языка программирования Книга не ориентирована на какой-либо конкретный язык программирования, но в ней используется некоторая обобщенная система обозначений для записи алгоритмов. Выбирать определенный язык не было необходимо. Конкретный язык для многих читателей мог бы оказаться не самым подходящим. Студенты, знакомые с программированием, при реализации алгоритмов не должны встретить значительных проблем, что и продемонстрировали наши собственные студенты. Примеры реализации в конечном счете будут представлены через Интернет. Это будет сделано, когда примеры реализации будут доступными и подходящими, во-первых, чтобы студенты могли быстро экспериментировать с ними, и, во-вторых, чтобы они могли изучать примеры исходных текстов программ. Для преподавателей и студентов доступны ряд инструментальных средств и библиотек; например, Khoros, NIH-Image, XView, gimp, MATLAB, и т. д. Существуют также программные пакеты, которые можно приобрести у компаний-производителей аппаратного обеспечения для систем машинного зрения. Авторы решили не ориентировать материалы книги на какое-либо определенное программное обеспечение по двум причинам. Во-первых, большинство читателей использовали бы какие-то другие пакеты. Во-вторых, восприятие книги было бы затруднено, если бы сущность операций по обработке изображений была скрыта за рассмотрением сложного каркаса структур данных и методов, необходимых в промышленных прикладных системах. Читатель, сначала изучивший принципы в простой программной среде, будет лучше подготовлен к успешному выбору и использованию промышленных систем.

Варианты работы с книгой Материал книги может быть различными способами отобран и при необходимости переупорядочен, применительно к целям конкретного учебного курса и с учетом интересов преподавателя и студентов.

• Глава 3 и краткий обзор гл. 2. Минимальным вариантом использования книги могло бы быть добавление 1–3 лекций в курс по структурам данных Предисловие 11 и алгоритмам. Гл. 3, с учетом некоторых предварительных сведений из гл. 2, содержит ряд показательных приложений и упражнений на программирование с использованием двумерных массивов, поиска «в глубину» и структур данных для представления множеств.

• Главы 1, 2 и 3 и избранные фрагменты гл. 4, 5 и 6. В данном случае книга может служить для дополнения учебных курсов колледжей и младших курсов университетов материалом, рассчитанным на срок от 1 до 3 недель.

Цель использования книги может заключаться в написании курсовой работы или быть более сложной, скажем, как групповой проект по разработке какой-либо программы (например, двумерной системы распознавания деталей на основе анализа связных компонент маркированных изображений, или системы распознавания моделей на основе сопоставления векторов характерных признаков).

• Бльшая часть материала гл. 1–11. Например, в таком варианте может о быть сделан обзор материала по обработке двумерных изображений в рамках курса по выбору для студентов, специализирующихся в географии, природных ресурсах или микробиологии (при условии, что будут пропущены большинство необязательных разделов). Если будут рассмотрены большинство разделов гл. 1–11, то такой объем мог бы соответствовать семестровому курсу по обработке и анализу изображений с введением в область компьютерного зрения.

• Бльшая часть книги. Подобный объем позволяет построить семестровый о курс по компьютерному зрению для студентов старших курсов или аспирантов первого года обучения. В книге существенно больше материала, чем можно успеть подробно рассмотреть в течение одного семестра. Некоторые разделы придется проигнорировать или рассмотреть кратко, и не следует полагать, что читатель сможет решать домашние задания из всех разделов книги. При обучении студентов по учебным планам, разбитым на четверти, гл. 1–4, 6–12, и 14 обеспечат хорошее введение в область компьютерного зрения. В учебном курсе для аспирантов в течение одной четверти можно предложить минимальное рассмотрение гл. 1–4, затем акцентированное рассмотрение гл. 6–14 и краткий обзор гл. 15. Предполагается, что в любом курсе для аспирантов в процессе обучения будут использоваться статьи из дополнительной литературы.

Мы благодарны многим нашим коллегам, преподавателям, и студентам, с которыми нас объединяют общие интересы. Многие великодушно поддержали эту книгу вкладом идей, иллюстраций и алгоритмов. Отдельные цитаты приведены в этой книге повсюду. К сожалению, много предоставленного материала мы не смогли включить в книгу — иначе она могла бы стать слишком большой. Нашу работу существенно улучшили несколько рецензентов и много коллег, с которыми мы общались в процессе написания книги. В особенности мы благодарны тем, кто внимательно редактировал книгу. Это Mohammad Ghavamzadeh, Nick Dutta, Kevin Bowyer, Adam Clark, Yu-Yu Chou, Habib 12 Предисловие

Эта книга служит введением в широкий круг вопросов компьютерного зрения.

Без сомнения, можно сконструировать машины для обработки зрительных данных: например, на фабриках машины ежедневно контролируют миллионы осветительных ламп накаливания. Разработаны системы безопасности, сканирующие человеческий глаз для идентификации личности. Известны эксперименты по управлению автомобилем на основе компьютерной обработки данных, поступающих с видеокамеры. В данной главе представлен ряд важных прикладных областей, в которых возможно применение систем компьютерного зрения. После прочтения этой главы у читателя сложится общее представление о некоторых задачах и методах компьютерного зрения.1 2 1 Определение. Цель компьютерного зрения заключается в формировании полезных выводов относительно объектов и сцен реального мира на основе анализа изображений, полученных с помощью датчиков.

Для формирования выводов относительно объектов реального мира почти всегда необходимо построить некоторое описание или модель этих объектов на основе изображения. Поэтому многие эксперты заключают, что цель компьютерного зрения состоит в формировании описаний сцен по изображениям.

Хотя наш учебник по компьютерному зрению имеет прикладной характер, в нем также обсуждается ряд фундаментальных вопросов. Перечислим важнейшие темы, которые будут обозначены в данной главе и затем будут изучаться в оставшейся части книги.

Восприятие: Как с помощью датчиков можно получить изображения сцен реального мира? Каким образом в изображениях представлены свойства

1 В данной книге термины машинное зрение и компьютерное зрение обычно считаются

синонимами. Но во многих других книгах и статьях они отличаются — машинное зрение употребляется в контексте промышленных приложений, а компьютерное зрение обозначает прикладную область обработки зрительных данных в целом.

2 В русскоязычной литературе в качестве синонима машинного зрения часто используется термин техническое зрение. — Прим. перев.

14 Введение Гл. 1 Рис. 1.1. (Слева вверху) изображение лица, (в центре) фрагмент изображения размером 8 8 пикселов из окрестности правого глаза, (справа вверху) местоположение глаз, определенное компьютерной программой, и (внизу) значения яркости во фрагменте 8 8 пикселов. (С любезного разрешения Vera Bakic.) реальных объектов, например материал, форма, освещенность и пространственные отношения?

Кодирование информации: Как изображения дают информацию для понимания трехмерного мира, в том числе информацию для идентификации объектов, об их геометрических и текстурных свойствах и движении?

Представление: В какой форме можно хранить описания объектов, их частей, свойств и взаимосвязей?

Алгоритмы: Какие существуют методы для обработки информации изображений и для построения описаний реальных объектов и сцен?

В последующих главах будут изучаться эти и некоторые другие вопросы.

Теперь кратко перечислим различные прикладные задачи и ряд важных проблем, возникающих в контексте этих задач.

1.1 МОГУТ ЛИ МАШИНЫ ВИДЕТЬ?

Авторы фантастической и научно-популярной литературы были восхищены идеей конструирования разумных машин, и способность визуального восприятия мира стала безоговорочным требованием, которое некоторые из них предъявляли к таким машинам. Зрение является очень важной функцией Разд. 1.2 Прикладные задачи 15 человеческого мозга. Многие задачи зрительного восприятия люди решают бессознательно и без напряжения, но пока наше понимание этого процесса очень слабое. Алан Тьюринг, один из изобретателей современного цифрового компьютера и основателей области искусственного интеллекта, верил, что цифровой компьютер сможет обладать разумом и способностью понимания сцен. Эти высокие цели труднодостижимы, и богатство человеческого воображения пока далеко превосходит инженерные возможности. Однако по ряду направлений исследований был достигнут впечатляющий прогресс. Хотя основной темой данного учебника является разработка прикладных систем, а не вопросы искусственного интеллекта, но иногда мы будем рассматривать более глубокие вопросы и, где возможно, приводить некоторые оценки достигнутого прогресса. Обсудим, например, следующий сценарий, который может воплотиться через несколько лет. Телевизионная камера на вашей двери передает изображения на домашний компьютер, обученный распознавать лица важных для вас людей. Когда вы связываетесь со своим домашним центром сообщений, то компьютер не только докладывает о телефонных звонках, но также сообщает о возможных визитах вашей сестры или соседа. Подобные направления современных разработок и исследований будут обсуждаться в различных разделах книги.

1.2 ПРИКЛАДНЫЕ ЗАДАЧИ Возможности применения компьютеров для обработки изображений очень велики. Здесь будут перечислены только несколько различных задач, но и они смогут заинтересовать в дальнейшем изучении предмета и помочь сориентироваться в данной области.

1.2.1 Предварительное рассмотрение структуры цифрового изображения Цифровые изображения могут представлять различные образы, например рисунок, страницу текста, человеческое лицо, карту Катманду, или товар для покупки по каталогу. Цифровое изображение состоит из фиксированного количества строк и столбцов пикселов (pixels), этот термин является сокращением от слов «элемент изображения» (picture element). Пикселы напоминают маленькие плитки, в которых хранятся дискретные значения — небольшие числа, часто от 0 до 255, представляющие яркость точек изображения. В зависимости от схемы кодирования 0 может соответствовать самой малой (темной), а 255 — самой большой (светлой) яркости, или наоборот.

На рис. 1.1 слева вверху напечатано цифровое изображение лица. Изображение содержит 257 строк пикселов в высоту и 172 столбца в ширину. Вверху в центре показан фрагмент изображения размерами 8 8 пикселов, взятый из окрестности правого глаза на левом изображении. В нижней части рис. 1.1 приведена таблица с 64 числами — значениями яркости пикселов фрагмента изображения. Числа меньше 100 в правом верхнем углу фрагмента предВведение Гл. 1 ставляют слабо отражающую свет темную область глаза (зрачок), а большие значения соответствуют более светлому белому цвету глаза.

В цветных изображениях для каждого пиксела может храниться три числа, например одно число для красной, одно для синей и одно для зеленой составляющей цвета. Цифровые изображения чаще всего отображаются на мониторе, который можно представлять себе как телевизионный экран с цифровой памятью для изображения. Цветное изображение размерами 500 строк и 500 столбцов примерно соответствует изображениям, которые вы видите на экране своего телевизора. Пиксел высвечивается путем передачи энергии маленькой области люминисцентного материала. Воспроизведение цвета требует передачи энергии трем соседним областям, сделанным из различных материалов.

Размеры компьютерного дисплея высокого разрешения составляют примерно 1200 1000 пикселов.

Более подробно структура цифровых изображений обсуждается в гл. 2, а кодирование и интерпретация цвета рассматривается в гл. 6.

1.2.2 Поиск в базе данных изображений Разработка баз данных изображений стала возможной благодаря доступности цифровой памяти большого объема, линий связи с большой пропускной способностью и персональных компьютеров с мультимедиа-возможностями. Для эффективного использования большого количества существующих изображений необходимо разработать удобные средства доступа. Обычные технологии баз данных можно применять для доступа к изображениям, снабженным текстовыми метками. Однако также необходимы средства поиска изображений на основе содержания, которые в настоящее время являются предметом интенсивных исследований.

Представим, что недавно организованная фирма хочет разработать и зарегистрировать эмблему. Дизайнер представил на рассмотрение компании несколько вариантов эмблем. Эмблему нельзя использовать, если она слишком похожа на эмблему какой-либо существующей компании, поэтому надо проверить базу данных существующих эмблем. Эта процедура аналогична патентному поиску и выполняется вручную, но могла бы быть существенно упрощена с помощью методов машинного зрения. На рис. 1.2 показано несколько похожих эмблем.

Еще один пример: допустим, архитектору или историку-искусствоведу требуется найти изображения зданий, у которых вход оформлен в определенном стиле. Для поиска они могут указать изображение-образец, возможно, полученное из той же базы данных, и запросить систему найти остальные похожие изображения.

В гл. 8 будет показано, как можно использовать геометрические, цветовые и текстурные признаки для обслуживания подобных запросов к базе данных изображений.

Предположим, что рекламное агентство хочет найти существующие изображения маленьких детей, которые что-то едят с радостным видом. Это Разд. 1.2 Прикладные задачи 17 Рис. 1.2. Запрос изображения по образцу: изображение-образец для запроса (слева) и два наиболее похожих изображения, найденных системой поиска в базе данных изображений. (С любезного разрешения Graphic-sha, Токио.) семантическое описание, легко понимаемое людьми, очень сложно представить для системы машинного зрения. Понятия «дети», «радостно» и «есть»

могут потребовать сложного комбинированного учета цветовых, текстурных и геометрических признаков.

Попутно отметим, что был разработан компьютерный алгоритм для обнаружения обнаженных людей на цветных изображениях. Он может быть полезен для родителей, желающих проконтролировать изображения, которые их дети загружают из Интернета. Методы извлечения изображений из баз данных подробнее рассматриваются в гл. 8.

1.2.3 Контроль отверстий в поперечных балках В конце 1970-х гг. инженер из Милуоки разработал систему машинного зрения для подсчета количества болтовых отверстий в поперечных балках, изготовленных для компаний-производителей грузовых автомобилей. Эти компании требовали контроля каждой балки, так как отсутствие болтового отверстия на частично собранном грузовике является дорогостоящим дефектом. Для его исправления или надо останавливать конвейер и сверлить отверстие, или, что хуже, рабочий может пропустить установку болта, чтобы не останавливать конвейер.

Для получения цифрового изображения поперечной балки под транспортировочной линией были помещены осветители, а над линией была расположена видеокамера. При поступлении в поле зрения очередной балки выполнялся съем изображения. Темные пикселы в области тени от балки на изображении имели значение 1 и обозначали сталь, а пикселы в области светлых просверленных отверстий имели значение 0. Количество отверстий вычислялось как четверть разности количества внешних и внутренних углов. На рис. 1.3 показаны три светлых отверстия (значения 0) на темном фоне (значения 1).

Внешний угол (external corner) — это окрестность 2 2 соседних пикселов, содержащая 3 единицы, а внутренний угол (internal corner) — окрестность 22 соседних пикселов, содержащая 3 нулевых значения. На рис. 1.3 показан пример обработки изображения из 7 строк и 16 столбцов. Ниже также схематично описан алгоритм обработки.

Подсчет отверстий является примером простой, но практически полезной операции над цифровыми изображениями. (Как показано в приведенных даУчебное электронное издание Серия: Лучший зарубежный учебник

Минимальные системные требования определяются соответствующими требованиями программы Adobe Reader версии не ниже 10-й для операционных систем

Читайте также:  Моторная алалия с психологической точки зрения
Источники:
  • http://bookash.pro/ru/book/68497/kompyuternoe-zrenie-linda-shapiro
  • http://zreni.ru/download/books/498-kompyuternoe-zrenie-shapiro-l-stokman-dzh.html
  • http://globalf5.com/Knigi/Nauka-Obrazovanie/Informatika/Kompyuternoe-zrenie_251169
  • http://www.litres.ru/dzhordzh-stokman/komputernoe-zrenie-11249251/
  • http://fictionbook.ru/author/linda_shapiro/kompyuternoe_zrenie/
  • http://verclub.ru/nauka-i-obrazovanie/uchebniki-i-posobiya-dlya-vuzov/6998-linda-shapiro-i-dr-kompyuternoe-zrenie.html
  • http://avidreaders.ru/book/kompyuternoe-zrenie.html
  • http://doc.knigi-x.ru/22raznoe/273596-1-computer-vision-linda-shapiro-department-computer-science-and-engineering-department-elec.php