Лекция 1.1 | Введение в компьютерное зрение | Антон Конушин

YOUTUBE · 22.11.2025 06:25

Ключевые темы и таймкоды

Введение и благодарность спонсорам

0:03
  • Приветствие на первой обзорной лекции по компьютерному зрению.
  • Благодарность компании Microsoft Research за спонсорство курса.
  • Объяснение, что лекции будут доступны в видеоформате на сайте.

О лекторе и ассистенте

1:07
  • Представление лектора как научного сотрудника лаборатории компьютерной графики.
  • Упоминание о курсах, которые он читает.
  • Представление ассистента Саши Чигорина, который будет помогать с практическими заданиями.

Цели курса и учебники

2:03
  • Цель курса — показать, что задачи компьютерного зрения реальны и доступны для решения.
  • Рекомендация учебников: «Компьютерное зрение. Современный подход» на русском языке и книга Ричарда Зелиски на английском.

План лекции

3:19
  • Введение в компьютерное зрение: определение, сложность, история, современные достижения.
  • Обсуждение задач, решаемых в лаборатории.
  • Темы следующих лекций: зрение человека и его связь с компьютерным зрением.

Определение компьютерного зрения

3:47
  • Компьютерное зрение — это наука о том, как научить компьютер понимать изображения.
  • Зрение для человека — главный источник информации, поэтому важно реализовать аналогичные навыки в компьютере.

Задачи компьютерного зрения

4:33
  • Неформальная постановка задачи компьютерного зрения: понимание расположения объектов на изображении.
  • Примеры задач: выделение объектов, определение областей, извлечение качественной и метрической информации.

Семантическая и метрическая информация

5:03
  • Семантическая информация: определение сцены, объектов, их атрибутов.
  • Метрическая информация: расстояния, углы, положения.
  • Важность метрической информации для управления марсоходами.

Применение компьютерного зрения

8:04
  • Построение трёхмерных моделей объектов и городов по изображениям.
  • Использование в играх и других приложениях.

Компьютерное зрение и смежные дисциплины

8:24
  • Компьютерное зрение пересекается с обработкой изображений и машинным зрением.
  • Различие между обработкой изображений, анализом изображений и распознаванием образов.
  • Историческое развитие компьютерного зрения и его связь с фотограмметрией в геодезии.

Машинное зрение

10:22
  • Машинное зрение как приложение компьютерного зрения для промышленных задач.
  • Различия в подходах инженеров и специалистов по компьютерному зрению.
  • Важность обмена знаниями между специалистами разных дисциплин.

Зачем изучать компьютерное зрение?

12:13
  • Компьютерное зрение имеет множество практических применений, связанных с автоматизацией процессов.
  • Машины работают круглосуточно и быстрее людей, что делает их замену ручного труда более эффективной.
  • Математические методы в компьютерном зрении имеют наглядное применение, позволяя сразу видеть результаты.

Сложность компьютерного зрения

13:10
  • Компьютерное зрение считается одной из самых сложных задач, связанных с восприятием.
  • Решение задачи зрения на уровне человека может привести к созданию искусственного интеллекта.

Проблемы восприятия изображений

14:10
  • Изображения объектов сильно различаются в зависимости от точки наблюдения и освещения.
  • Размер и форма объектов могут варьироваться, что усложняет их распознавание.
  • Живые объекты претерпевают деформации и перекрывают друг друга, что усложняет анализ.

Дополнительные проблемы восприятия

16:02
  • Перекрытие объектов часто приводит к ошибкам в измерениях.
  • Маскировка объектов под окружающий пейзаж усложняет их обнаружение.
  • Движение объектов вызывает деформации и смазывание, затрудняя их идентификацию.

Контекстуальная зависимость классов объектов

17:28
  • Классы объектов могут зависеть от контекста, в котором они находятся.
  • Пример с чурбачком и столом иллюстрирует, как изменение окружения может изменить класс объекта.

Подсказки в изображениях

19:20
  • Цвет, градации серого, тени и группировка объектов помогают в распознавании.
  • Линейная перспектива и текстурный градиент также важны для анализа.
  • Перекрытие объектов может указывать на их расстояние до наблюдателя.

Ограничения одного изображения

23:08
  • Одно изображение может иметь несколько интерпретаций, что требует дополнительных знаний о мире.
  • Априорные знания о структуре и свойствах мира помогают правильно интерпретировать сцены.

История компьютерного зрения

24:11
  • Основы компьютерного зрения были заложены с появлением камеры обскуры, изобретённой Аристотелем.
  • Перспективная проекция стала первым устройством для получения изображений, что положило начало развитию компьютерного зрения.

Леонардо да Винчи и магическая лампа

24:50
  • Леонардо да Винчи описывал прибор «магическая лампа», который позволял фиксировать свет от объектов и получать их изображение.
  • Устройство позволяло измерять размеры объектов по их проекциям с помощью линейки и компаса.

Появление фотографии

25:46
  • Первая фотография была сделана в 1825 году, но её автор, Нипс, получил известность только во второй половине XX века.
  • Проявка первой фотографии занимала восемь часов.
  • Через двенадцать лет появились первые практически применимые фотографии.

Фотограмметрия и геодезия

26:36
  • На заседании французской академии наук было объявлено, что измерение по фотографиям — будущее геодезии.
  • Измерять по фотографиям оказалось проще, чем на реальной местности.

Скоростная съёмка и кино

27:07
  • Появилась первая скоростная съёмка лошади.
  • Первое движущееся изображение человека — обнажённая девушка, спускающаяся по лестнице.
  • Первое кино на плёнке — маленький кадр семьи изобретателей.

Электронно-лучевые трубки и стереоизмерения

27:59
  • Изобретена электронно-лучевая трубка, а затем трубка с флюоресцентным экраном.
  • Эдуард Виль разработал систему для получения двух стереоснимков и построения трёхмерных изображений.
  • В 1896 году было создано первое 3D-кино.

Растровый дисплей

29:03
  • Фил Фартсворс продемонстрировал шестистрочный растровый дисплей, позволяющий визуализировать геометрические фигуры.
  • Первым визуализированным символом стал доллар.

Компьютеры и симуляции

30:08
  • Во время Второй мировой войны появились компьютеры, используемые для декодирования шифров.
  • В 1951 году в Массачусетском технологическом университете продемонстрирован первый компьютер с возможностью отображения текста и графики в реальном времени.

Компьютерное зрение и фильтр Робертса

31:28
  • В 1960 году появилось первое цифровое изображение человека, синтезированное в компании Boeing.
  • Эльджи Робертс разработал фильтр для поиска границ на изображении.

Виртуальная реальность и роботы

35:25
  • В 1968 году создана первая система виртуальной реальности с телевизионной системой и сенсорами.
  • Робот Фредди II умел строить машинки из кубиков, используя систему машинного зрения.

Формирование компьютерного зрения

37:53
  • В

Карта технологий

39:06
  • Карта отображает связи между областями знаний по степени цитирования друг друга.
  • Компьютерные науки и нейробиология тесно связаны.
  • Многие достижения получены на стыке биологии и компьютерных технологий.

Изображения и видео

39:58
  • Изображения и видео стали повсеместными благодаря смартфонам.
  • Огромные коллекции изображений используются в различных областях.

Применение изображений

40:45
  • Обработка изображений, цифровой фотомонтаж, ретушь.
  • Поиск изображений, аннотации, поиск дубликатов, распознавание объектов.
  • Системы видеонаблюдения, безопасности, промышленные роботы.
  • Спецэффекты в кино и компьютерных играх.

Реальные системы распознавания

41:53
  • Распознавание цифр и знаков, например, номерных знаков.
  • Алгоритм поиска лиц Viola-Jones, работающий в реальном времени.
  • Распознавание улыбок и идентификация лиц.

Биометрия

43:39
  • Идентификация лиц и биометрия.
  • Пример с журналом National Geographic и идентификацией радужки глаза.
  • Методы сопоставления отпечатков пальцев и идентификации по лицу.

Сервисы на основе распознавания

46:10
  • Сервисы для распознавания рекламных плакатов и фильмов.
  • Распознавание объектов для замены гидов.

Автоматическое управление машинами

47:00
  • Системы компьютерного зрения в автомобилях: определение пешеходов, остановка, парковка.
  • Пример системы от Google, катающейся по американским городам без участия человека.

Кино и визуализация

48:53
  • Создание трёхмерных моделей актёров для виртуальных фильмов.
  • Захват движения для визуализации эмоций.
  • Пример из «Аватара»: ручная подправка автоматических методов.

Спортивные соревнования

50:07
  • Отображение знаков, флагов команд, счёта на поле.
  • Система Hawk в теннисе для определения ситуации аута.

Роботы и системы управления

50:38
  • Марсоход и построение трёхмерной модели местности.
  • Система Kinect от Microsoft для бесконтактного управления игрушками.
  • Требования к пространству для использования системы.

Системы компьютерного зрения и трёхмерные карты

51:51
  • Примеры систем: VRTels, Google Maps и «Фотосинтез».
  • «Фотосинтез» позволяет строить трёхмерные модели зданий по фотографиям.
  • Система автоматически определяет ракурсы фотографий и позволяет осматривать здание с разных точек.

Проекты в лаборатории

52:39
  • Трёхмерная реконструкция зданий для компании, создающей карты российских городов.
  • Распознавание дефектов дорожного полотна и окружающей территории.
  • Система определяет стоимость ремонта дорог на основе данных о дефектах.

Видеонаблюдение и совместные проекты

53:57
  • Система видеонаблюдения за лабораторными животными.
  • Совместные проекты с Microsoft Research: мягкая сегментация видео и поиск текста в изображениях.

Курс и домашние задания

54:39
  • Курс включает 13 лекций и домашние задания двух типов: упражнения и задания.
  • Упражнения помогают освоить методы, необходимые для выполнения заданий.
  • Задания реализуются в MATLAB, который удобен для разработки алгоритмов.

Упражнение и цель курса

55:59
  • Упражнение: создание программы для обработки изображений и реализация алгоритма.
  • Цель курса: создание прототипа системы распознавания автомобильных номеров.
  • Этапы работы: распознавание цифр, поиск номеров в изображении, распознавание всего номера и распознавание видео.

Структура курса

57:20
  • Переход от низкоуровневого зрения к высокоуровневому.
  • Дополнительные главы компьютерного зрения: распознавание видео, трёхмерная реконструкция, распознавание действий человека.
  • Темы: обработка изображений, модели изображений, частотная фильтрация, пирамиды, словари, локальные особенности, сопоставление изображений, методы оценки параметров, устойчивые к шуму, категоризация изображений, машинное обучение.

Методы машинного обучения и поиск объектов

58:34
  • Метод опорных векторов как ключевой инструмент машинного обучения.
  • Поиск объектов: пешеходов, автомобилей и других.
  • Методы на основе огромных коллекций изображений из интернета.

Сегментация и цифровой фотомонтаж

59:40
  • Сегментация изображений, включая семантическую сегментацию.
  • Системы цифрового фотомонтажа: выделение объектов, склейка изображений, заделка артефактов, определение подделок.

Анализ видео и трёхмерная реконструкция

59:40
  • Анализ видео: распознавание действий, анализ человека, выделение черт.
  • Автоматическая оценка красоты человека по фотографии.
  • Трёхмерная реконструкция из пользовательских фотографий.