Введение и благодарность спонсорам 0:03 Приветствие на первой обзорной лекции по компьютерному зрению. Благодарность компании Microsoft Research за спонсорство курса. Объяснение, что лекции будут доступны в видеоформате на сайте.
О лекторе и ассистенте 1:07 Представление лектора как научного сотрудника лаборатории компьютерной графики. Упоминание о курсах, которые он читает. Представление ассистента Саши Чигорина, который будет помогать с практическими заданиями.
Цели курса и учебники 2:03 Цель курса — показать, что задачи компьютерного зрения реальны и доступны для решения. Рекомендация учебников: «Компьютерное зрение. Современный подход» на русском языке и книга Ричарда Зелиски на английском.
План лекции 3:19 Введение в компьютерное зрение: определение, сложность, история, современные достижения. Обсуждение задач, решаемых в лаборатории. Темы следующих лекций: зрение человека и его связь с компьютерным зрением.
Определение компьютерного зрения 3:47 Компьютерное зрение — это наука о том, как научить компьютер понимать изображения. Зрение для человека — главный источник информации, поэтому важно реализовать аналогичные навыки в компьютере.
Задачи компьютерного зрения 4:33 Неформальная постановка задачи компьютерного зрения: понимание расположения объектов на изображении. Примеры задач: выделение объектов, определение областей, извлечение качественной и метрической информации.
Семантическая и метрическая информация 5:03 Семантическая информация: определение сцены, объектов, их атрибутов. Метрическая информация: расстояния, углы, положения. Важность метрической информации для управления марсоходами.
Применение компьютерного зрения 8:04 Построение трёхмерных моделей объектов и городов по изображениям. Использование в играх и других приложениях.
Компьютерное зрение и смежные дисциплины 8:24 Компьютерное зрение пересекается с обработкой изображений и машинным зрением. Различие между обработкой изображений, анализом изображений и распознаванием образов. Историческое развитие компьютерного зрения и его связь с фотограмметрией в геодезии.
Машинное зрение 10:22 Машинное зрение как приложение компьютерного зрения для промышленных задач. Различия в подходах инженеров и специалистов по компьютерному зрению. Важность обмена знаниями между специалистами разных дисциплин.
Зачем изучать компьютерное зрение? 12:13 Компьютерное зрение имеет множество практических применений, связанных с автоматизацией процессов. Машины работают круглосуточно и быстрее людей, что делает их замену ручного труда более эффективной. Математические методы в компьютерном зрении имеют наглядное применение, позволяя сразу видеть результаты.
Сложность компьютерного зрения 13:10 Компьютерное зрение считается одной из самых сложных задач, связанных с восприятием. Решение задачи зрения на уровне человека может привести к созданию искусственного интеллекта.
Проблемы восприятия изображений 14:10 Изображения объектов сильно различаются в зависимости от точки наблюдения и освещения. Размер и форма объектов могут варьироваться, что усложняет их распознавание. Живые объекты претерпевают деформации и перекрывают друг друга, что усложняет анализ.
Дополнительные проблемы восприятия 16:02 Перекрытие объектов часто приводит к ошибкам в измерениях. Маскировка объектов под окружающий пейзаж усложняет их обнаружение. Движение объектов вызывает деформации и смазывание, затрудняя их идентификацию.
Контекстуальная зависимость классов объектов 17:28 Классы объектов могут зависеть от контекста, в котором они находятся. Пример с чурбачком и столом иллюстрирует, как изменение окружения может изменить класс объекта.
Подсказки в изображениях 19:20 Цвет, градации серого, тени и группировка объектов помогают в распознавании. Линейная перспектива и текстурный градиент также важны для анализа. Перекрытие объектов может указывать на их расстояние до наблюдателя.
Ограничения одного изображения 23:08 Одно изображение может иметь несколько интерпретаций, что требует дополнительных знаний о мире. Априорные знания о структуре и свойствах мира помогают правильно интерпретировать сцены.
История компьютерного зрения 24:11 Основы компьютерного зрения были заложены с появлением камеры обскуры, изобретённой Аристотелем. Перспективная проекция стала первым устройством для получения изображений, что положило начало развитию компьютерного зрения.
Леонардо да Винчи и магическая лампа 24:50 Леонардо да Винчи описывал прибор «магическая лампа», который позволял фиксировать свет от объектов и получать их изображение. Устройство позволяло измерять размеры объектов по их проекциям с помощью линейки и компаса.
Появление фотографии 25:46 Первая фотография была сделана в 1825 году, но её автор, Нипс, получил известность только во второй половине XX века. Проявка первой фотографии занимала восемь часов. Через двенадцать лет появились первые практически применимые фотографии.
Фотограмметрия и геодезия 26:36 На заседании французской академии наук было объявлено, что измерение по фотографиям — будущее геодезии. Измерять по фотографиям оказалось проще, чем на реальной местности.
Скоростная съёмка и кино 27:07 Появилась первая скоростная съёмка лошади. Первое движущееся изображение человека — обнажённая девушка, спускающаяся по лестнице. Первое кино на плёнке — маленький кадр семьи изобретателей.
Электронно-лучевые трубки и стереоизмерения 27:59 Изобретена электронно-лучевая трубка, а затем трубка с флюоресцентным экраном. Эдуард Виль разработал систему для получения двух стереоснимков и построения трёхмерных изображений. В 1896 году было создано первое 3D-кино.
Растровый дисплей 29:03 Фил Фартсворс продемонстрировал шестистрочный растровый дисплей, позволяющий визуализировать геометрические фигуры. Первым визуализированным символом стал доллар.
Компьютеры и симуляции 30:08 Во время Второй мировой войны появились компьютеры, используемые для декодирования шифров. В 1951 году в Массачусетском технологическом университете продемонстрирован первый компьютер с возможностью отображения текста и графики в реальном времени.
Компьютерное зрение и фильтр Робертса 31:28 В 1960 году появилось первое цифровое изображение человека, синтезированное в компании Boeing. Эльджи Робертс разработал фильтр для поиска границ на изображении.
Виртуальная реальность и роботы 35:25 В 1968 году создана первая система виртуальной реальности с телевизионной системой и сенсорами. Робот Фредди II умел строить машинки из кубиков, используя систему машинного зрения.
Карта технологий 39:06 Карта отображает связи между областями знаний по степени цитирования друг друга. Компьютерные науки и нейробиология тесно связаны. Многие достижения получены на стыке биологии и компьютерных технологий.
Изображения и видео 39:58 Изображения и видео стали повсеместными благодаря смартфонам. Огромные коллекции изображений используются в различных областях.
Применение изображений 40:45 Обработка изображений, цифровой фотомонтаж, ретушь. Поиск изображений, аннотации, поиск дубликатов, распознавание объектов. Системы видеонаблюдения, безопасности, промышленные роботы. Спецэффекты в кино и компьютерных играх.
Реальные системы распознавания 41:53 Распознавание цифр и знаков, например, номерных знаков. Алгоритм поиска лиц Viola-Jones, работающий в реальном времени. Распознавание улыбок и идентификация лиц.
Биометрия 43:39 Идентификация лиц и биометрия. Пример с журналом National Geographic и идентификацией радужки глаза. Методы сопоставления отпечатков пальцев и идентификации по лицу.
Сервисы на основе распознавания 46:10 Сервисы для распознавания рекламных плакатов и фильмов. Распознавание объектов для замены гидов.
Автоматическое управление машинами 47:00 Системы компьютерного зрения в автомобилях: определение пешеходов, остановка, парковка. Пример системы от Google, катающейся по американским городам без участия человека.
Кино и визуализация 48:53 Создание трёхмерных моделей актёров для виртуальных фильмов. Захват движения для визуализации эмоций. Пример из «Аватара»: ручная подправка автоматических методов.
Спортивные соревнования 50:07 Отображение знаков, флагов команд, счёта на поле. Система Hawk в теннисе для определения ситуации аута.
Роботы и системы управления 50:38 Марсоход и построение трёхмерной модели местности. Система Kinect от Microsoft для бесконтактного управления игрушками. Требования к пространству для использования системы.
Системы компьютерного зрения и трёхмерные карты 51:51 Примеры систем: VRTels, Google Maps и «Фотосинтез». «Фотосинтез» позволяет строить трёхмерные модели зданий по фотографиям. Система автоматически определяет ракурсы фотографий и позволяет осматривать здание с разных точек.
Проекты в лаборатории 52:39 Трёхмерная реконструкция зданий для компании, создающей карты российских городов. Распознавание дефектов дорожного полотна и окружающей территории. Система определяет стоимость ремонта дорог на основе данных о дефектах.
Видеонаблюдение и совместные проекты 53:57 Система видеонаблюдения за лабораторными животными. Совместные проекты с Microsoft Research: мягкая сегментация видео и поиск текста в изображениях.
Курс и домашние задания 54:39 Курс включает 13 лекций и домашние задания двух типов: упражнения и задания. Упражнения помогают освоить методы, необходимые для выполнения заданий. Задания реализуются в MATLAB, который удобен для разработки алгоритмов.
Упражнение и цель курса 55:59 Упражнение: создание программы для обработки изображений и реализация алгоритма. Цель курса: создание прототипа системы распознавания автомобильных номеров. Этапы работы: распознавание цифр, поиск номеров в изображении, распознавание всего номера и распознавание видео.
Структура курса 57:20 Переход от низкоуровневого зрения к высокоуровневому. Дополнительные главы компьютерного зрения: распознавание видео, трёхмерная реконструкция, распознавание действий человека. Темы: обработка изображений, модели изображений, частотная фильтрация, пирамиды, словари, локальные особенности, сопоставление изображений, методы оценки параметров, устойчивые к шуму, категоризация изображений, машинное обучение.
Методы машинного обучения и поиск объектов 58:34 Метод опорных векторов как ключевой инструмент машинного обучения. Поиск объектов: пешеходов, автомобилей и других. Методы на основе огромных коллекций изображений из интернета.
Сегментация и цифровой фотомонтаж 59:40 Сегментация изображений, включая семантическую сегментацию. Системы цифрового фотомонтажа: выделение объектов, склейка изображений, заделка артефактов, определение подделок.
Анализ видео и трёхмерная реконструкция 59:40 Анализ видео: распознавание действий, анализ человека, выделение черт. Автоматическая оценка красоты человека по фотографии. Трёхмерная реконструкция из пользовательских фотографий.