#10. Оптимизаторы градиентных алгоритмов: RMSProp, AdaDelta, Adam, Nadam | Машинное обучение

YOUTUBE · 01.12.2025 03:48

Ключевые темы и таймкоды

Введение в градиентные алгоритмы

0:00
  • Градиентные алгоритмы имеют недостаток: застревание в локальных оптимумах.
  • В локальных оптимумах производная равна нулю, что приводит к обнулению градиента.
  • Стахастические градиентные алгоритмы могут образовывать сильные колебания.

Метод импульсов

0:55
  • Метод импульсов предложен Борисом Поликом в 1964 году.
  • Усредняет градиенты по шагам с помощью экспоненциального скользящего среднего.
  • Регулирует количество учитываемых прошлых градиентов с помощью параметра гамма.

Преимущества метода импульсов

2:36
  • Сглаживает градиенты, уменьшая амплитуды случайных изменений.
  • Позволяет избежать застревания в локальных оптимумах, постепенно затухая градиент.
  • Улучшает сходимость стахастических градиентов и находит глубокие минимумы функций.

Импульс Нестерова

3:36
  • Учитывает смещение в сторону импульса при вычислении градиента.
  • Берет градиент в точке, на которую смещается благодаря импульсу.
  • Улучшает сходимость к точке оптимума по сравнению с методом импульсов.

RMSProp

5:24
  • Нормализует скорость изменения вектора весов.
  • Вычисляет скользящее экспоненциальное среднее для квадратов градиентов.
  • Делит градиент на корень квадратный из элементов вектора, что выравнивает скорость изменения коэффициентов.

ADAM

9:10
  • Объединяет методы RMSProp и метод импульсов.
  • Вычисляет экспоненциальные скользящие средние и нормирует их.
  • Использует параметры гамма, альфа, эпсилон для корректировки весов.

Заключение

9:49
  • Формулы служат для понимания принципов работы оптимизаторов.
  • Алгоритмы реализованы в стандартных пакетах, таких как Scikit-learn, LeNet-5, Keras, PyTorch, TensorFlow и другие.
  • Для глубокого погружения в математику оптимизаторов можно найти множество публикаций.

Оптимизатор Nesterov Adam

10:54
  • Nesterov Adam отличается от обычного Adam моментом Нестерова.
  • Алгоритм корректировки весов аналогичен Adam, но с небольшими изменениями.
  • Существует множество оптимизаторов, и каждый может придумать свой.

Метод Левенберга-Маркварта

11:52
  • Метод основан на методе Ньютона для оптимизации весов.
  • Проблема в вычислении матрицы вторых частных производных на каждой итерации.
  • Левенберг и Марквар предложили считать матрицу диагональной, что упрощает вычисление обратной матрицы.

Эвристика Левенберга-Маркварта

12:45
  • Диагональная матрица легко вычисляется, так как обратная диагональная матрица равна единице на главной диагонали.
  • Мю предотвращает деление на ноль и задает скорость сходимости алгоритма.
  • Параметр интервью определяет скорость сходимости при линейном изменении функции.

Выбор оптимизатора

13:45
  • Выбор оптимизатора зависит от опыта и удачи.
  • Перебираются несколько оптимизаторов, затем оставляются те, которые сработали лучше всего.
  • Цель - найти глубокий минимум показателя качества и не переобучить модель.

Применение оптимизаторов

14:37
  • Ссылки на занятия по применению оптимизаторов в Keras и TensorFlow.