20.02.2024 Метод главных компонент (PCA), MDS, t-SNE

YOUTUBE · 26.11.2025 06:53

Ключевые темы и таймкоды

Введение в тему понижения размерности

0:10
  • Обсуждение актуальности задачи понижения размерности данных, когда количество признаков может быть слишком большим или некоторые из них неинформативны.
  • Упоминание о важности оценки важности признаков перед применением алгоритмов машинного обучения.

Метод главных компонент и его геометрическая интерпретация

8:09
  • Метод главных компонент (ПСА) - продукт некоторых утверждений из линейной алгебры, удобный способ разложения симметричной матрицы.
  • ПСА может быть использован для визуализации данных и выбора алгоритма машинного обучения.
  • ПСА может быть применен к кривым и поверхностям второго порядка для приведения их к каноническому виду.

Линейная алгебра и эллипсы

11:45
  • В видео обсуждается линейная алгебра и ее применение в визуализации данных.
  • Линейная алгебра включает в себя аффинное преобразование, которое включает сдвиг системы координат и линейное преобразование, которое включает умножение на матрицу.
  • Умножение на матрицу может быть использовано для поворота или отражения системы координат.

Выбор системы координат

14:11
  • В видео объясняется, как выбрать систему координат для визуализации данных.
  • Для этого нужно найти направление, вдоль которого объекты максимально различаются.
  • Это направление можно найти, вращая прямую вокруг центра масс.
  • Направление, которое максимизирует дисперсию, называется главными компонентами.
  • Главные компоненты могут быть использованы для проецирования объектов на новую систему координат.

Вычисление ковариационной матрицы

24:28
  • В видео объясняется, как вычислить ковариационную матрицу, которая является симметричной и положительно определенной.
  • Собственные числа этой матрицы являются выборочными дисперсиями вдоль соответствующих главных компонентов.

Центрирование и вычисление дисперсий

29:39
  • После центрирования признаков, матрица транспонированная на Ф умножается на исходную матрицу, что дает дисперсии столбцов.
  • В новом базисе матрица получается диагональной, что означает, что признаки не коррелированы.

Получение новых координат и объяснение метода главных компонентов

32:55
  • Метод главных компонентов позволяет получить некоррелированный базис, что дает возможность получить новые координаты.
  • Собственные числа упорядочиваются по возрастанию, и можно отбросить лишние компоненты, чтобы вычислить долю объясненной дисперсии.

Применение алгоритма PCA

37:45
  • Объясняется, что доля объясненной дисперсии показывает, насколько хорошо алгоритм PCA объясняет данные.
  • Демонстрируется применение алгоритма PCA на примере набора данных с координатами.

Использование PCA для визуализации данных

45:14
  • Объясняется, как PCA может быть использован для визуализации данных, например, ирисов Фишера.
  • Демонстрируется, как PCA может быть использован для понижения размерности пространства до двух.

Задание на применение PCA

47:51
  • Задание на применение PCA и сжатие изображений.

Визуализация многомерных данных

49:08
  • Обсуждение алгоритмов понижения размерности данных, таких как PCA (Principal Component Analysis) и T-SNE (t-distributed Stochastic Neighbor Embedding).
  • PCA - это алгоритм без учителя, который находит новые координаты для каждой точки в пространстве, но не сохраняет внутреннюю структуру данных.
  • T-SNE - это алгоритм с учителем, который сохраняет внутреннюю структуру данных, но требует больше времени на обработку.

Примеры применения алгоритмов

53:49
  • Примеры использования PCA и T-SNE для визуализации данных, таких как книги, рукописные цифры и другие.
  • PCA показывает снижение размерности, но теряет детализацию, в то время как T-SNE сохраняет детализацию и показывает скрытые закономерности.

Понижение размерности до двух

59:56
  • Цель - понизить размерность данных до двух, чтобы визуализировать их на плоскости.
  • PCA и T-SNE могут быть использованы для этой задачи, но результаты могут быть разными.

Обсуждение метода сохранения попарных расстояний

1:02:49
  • Автор обсуждает идею сохранения попарных расстояний между объектами в многомерном и маломерном пространстве.
  • Он объясняет, что эта идея может быть хорошей, но на практике она не всегда работает.

Визуализация результатов работы алгоритма

1:11:02
  • Автор демонстрирует результаты работы алгоритма на примере гистограммы.
  • Он показывает, что большинство расстояний близки друг к другу, что говорит о том, что точки далеки друг от друга.

Идея приближения распределения

1:13:54
  • Автор предлагает идею приближения распределения, а не расстояния между объектами.
  • Он объясняет, что это можно делать с помощью метода сравнения распределений.
  • В следующий раз автор планирует обсудить более детально этот метод и его применение.

Обсуждение распределения и аппроксимации

1:16:42
  • В видео обсуждается распределение вероятностей для каждого образца и каждого признака.
  • Распределение представлено в виде двумерного графика, но на самом деле оно многомерное.
  • Обсуждается идея аппроксимации, когда новые объекты добавляются в систему координат, и их распределение вероятностей может быть изменено.
  • В случае с новыми объектами, для их аппроксимации необходимо пересчитать все параметры.
  • Однако, если есть обученные аппроксимации, можно использовать их для аппроксимации новых объектов.

Заключение и планы на будущее

1:18:38
  • В заключение, автор благодарит зрителей за активность и вопросы, и обещает продолжить обсуждение темы в следующей лекции.
  • Он также подчеркивает, что важно выполнять задания и задавать вопросы, если что-то непонятно.
  • В следующий раз будет обсуждаться задача регрессии, и автор обещает рассказать много нового.