#10. Оптимизаторы градиентных алгоритмов: RMSProp, AdaDelta, Adam, Nadam | Машинное обучение

YOUTUBE · 01.12.2025 03:48

Ключевые темы и таймкоды

Введение в градиентные алгоритмы

0:00

Градиентные алгоритмы имеют недостаток: застревание в локальных оптимумах.
В локальных оптимумах производная равна нулю, что приводит к обнулению градиента.
Стахастические градиентные алгоритмы могут образовывать сильные колебания.

Метод импульсов

0:55

Метод импульсов предложен Борисом Поликом в 1964 году.
Усредняет градиенты по шагам с помощью экспоненциального скользящего среднего.
Регулирует количество учитываемых прошлых градиентов с помощью параметра гамма.

Преимущества метода импульсов

2:36

Сглаживает градиенты, уменьшая амплитуды случайных изменений.
Позволяет избежать застревания в локальных оптимумах, постепенно затухая градиент.
Улучшает сходимость стахастических градиентов и находит глубокие минимумы функций.

Импульс Нестерова

3:36

Учитывает смещение в сторону импульса при вычислении градиента.
Берет градиент в точке, на которую смещается благодаря импульсу.
Улучшает сходимость к точке оптимума по сравнению с методом импульсов.

RMSProp

5:24

Нормализует скорость изменения вектора весов.
Вычисляет скользящее экспоненциальное среднее для квадратов градиентов.
Делит градиент на корень квадратный из элементов вектора, что выравнивает скорость изменения коэффициентов.

ADAM

9:10

Объединяет методы RMSProp и метод импульсов.
Вычисляет экспоненциальные скользящие средние и нормирует их.
Использует параметры гамма, альфа, эпсилон для корректировки весов.

Заключение

9:49

Формулы служат для понимания принципов работы оптимизаторов.
Алгоритмы реализованы в стандартных пакетах, таких как Scikit-learn, LeNet-5, Keras, PyTorch, TensorFlow и другие.
Для глубокого погружения в математику оптимизаторов можно найти множество публикаций.

Оптимизатор Nesterov Adam

10:54

Nesterov Adam отличается от обычного Adam моментом Нестерова.
Алгоритм корректировки весов аналогичен Adam, но с небольшими изменениями.
Существует множество оптимизаторов, и каждый может придумать свой.

Метод Левенберга-Маркварта

11:52

Метод основан на методе Ньютона для оптимизации весов.
Проблема в вычислении матрицы вторых частных производных на каждой итерации.
Левенберг и Марквар предложили считать матрицу диагональной, что упрощает вычисление обратной матрицы.

Эвристика Левенберга-Маркварта

12:45

Диагональная матрица легко вычисляется, так как обратная диагональная матрица равна единице на главной диагонали.
Мю предотвращает деление на ноль и задает скорость сходимости алгоритма.
Параметр интервью определяет скорость сходимости при линейном изменении функции.

Выбор оптимизатора

13:45

Выбор оптимизатора зависит от опыта и удачи.
Перебираются несколько оптимизаторов, затем оставляются те, которые сработали лучше всего.
Цель - найти глубокий минимум показателя качества и не переобучить модель.

Применение оптимизаторов

14:37

Ссылки на занятия по применению оптимизаторов в Keras и TensorFlow.