Прикладные задачи анализа данных, лекция 15 — RL

YOUTUBE · 28.11.2025 07:26

Ключевые темы и таймкоды

Введение в обучение с подкреплением

0:10
  • Лекция о супер интрадакторе и обучении с подкреплением.
  • Обсуждение задач, решаемых обучением с подкреплением.

Обучение с учителем и обучение с подкреплением

4:44
  • Обучение с учителем - обучение на основе известных меток классов.
  • Обучение с подкреплением - обучение на основе действий и их последствий.

Примеры задач обучения с подкреплением

8:21
  • Обучение робота управлять автомобилем без водителя.
  • Задача прогнозирования правильного действия на основе данных датчиков и видео.

Обучение с подкреплением и обучение с учителем

11:30
  • Обучение с подкреплением упрощено для простоты лекции.
  • Обучение с подкреплением может столкнуться с нестандартными ситуациями, которые не были в обучающей выборке.

Супервайт обучение и его особенности

12:50
  • Супервайт обучение - это обучение с учителем, когда данные предполагаются независимыми и одинаково распределенными.
  • В супервайт обучении с такси, данные зависят от действий водителя, что усложняет задачу.

Процесс принятия решений и супервайт обучение

18:33
  • Процесс принятия решений - это взаимодействие агента с окружающей средой, где агент принимает решения на основе наблюдений.
  • Супервайт обучение используется для обучения агента, который должен решать задачу в процессе принятия решений.

Решение задачи с супервайт обучением

20:28
  • Обучение агента на основе видео и действий водителя.
  • Проблема дистрибного шифта - когда агент начинает ошибаться и отъезжать от маршрута.
  • Решение проблемы: использование агментаций и стимулирование не плохих ситуаций.

Обучение с подкреплением

24:26
  • В видео обсуждается подход к обучению с подкреплением, который называется дагер.
  • Идея дагера заключается в том, чтобы заставить эксперта разметить только те данные, которые действительно нужны для обучения.
  • Эксперт должен разметить данные, когда агент делает что-то неправильное, а не просто собирать данные.

Применение дагера

30:02
  • Дагер может быть полезен в задачах, где сложно найти эксперта, который сможет собрать данные.
  • Однако, дагер не подходит для задач, где нужно обыграть эксперта, например, в шахматах.
  • В видео также упоминается, что дагер может быть использован для обучения самодвижущихся машин, но в реальных ситуациях, вероятно, используется множество эвристик и других алгоритмов.

Пример использования дагера

34:03
  • В видео показан пример использования дагера для обучения машинки ездить.
  • В процессе обучения водитель ездит вместе с искусственным интеллектом, перехватывая руль в опасных ситуациях.
  • В итоге, машинка ездит только по ограниченному количеству маршрутов, но не убивает никого.

Обучение с подкреплением

35:26
  • Обучение с подкреплением - это процесс, в котором агент (нейронная сеть) обучается на основе наблюдений и наград, получаемых от среды.
  • Примеры применения: робототехника, игры, языковые модели.

Обучение с подкреплением в шахматах

43:27
  • Обучение собак с подкреплением: дрессировщик подает команду и ждет, пока собака выполнит ее случайно, затем дает корм.
  • Обучение с подкреплением: агент получает награду за достижение цели, а не за выполнение команды.

Дизайн наград

46:54
  • Награды должны быть легко считать и понимать, что они означают.
  • В шахматах: победа - плюс один, проигрыш - минус один, нечаль.
  • В обучении собак: награда за прыжки, чтобы собака не запуталась.

Дизайн наград

50:24
  • В обучении с подкреплением, агент максимизирует сумму наград за эпизод взаимодействия.
  • Награда зависит от состояния и действия агента, но не зависит от времени взаимодействия.

Выбор наград

56:02
  • Первый вариант: награда только в конце эпизода (за победу или проигрыш).
  • Второй вариант: награда за взятие фигур противника и штраф за потерю фигур.
  • Первый вариант лучше, так как он концентрирует агента на конечной цели.

Примеры дизайна наград

1:00:32
  • В шахматах: первый вариант - награда только в конце игры, второй вариант - бонусы за взятие фигур.
  • В игре с лодочкой: агент нашел способ жить более счастливо, собирая чемоданчики, которые увеличивают его скорость.

Обсуждение алгоритмов и сред

1:02:57
  • В видео обсуждается сложность определения оптимального поведения агента в среде, где агент собирает награды, и как это связано с историей получения наград.
  • Обсуждается использование коэффициента дисконтирования для учета временной ценности наград.

Марковские процессы принятия решений

1:10:53
  • Марковские процессы принятия решений - это среды, в которых агент может принимать решения, основываясь только на текущем наблюдении.
  • В таких средах агент не может решить задачу, не имея истории.
  • Примеры марковских процессов: робот-пылесос, теннисист, агент, собирающий монеты.

Формальное описание марковских процессов

1:14:17
  • Марковские процессы имеют пространство состояний, пространство действий, вероятности перехода в следующее состояние и функцию награды.
  • В видео обсуждаются способы управления политикой агента и вероятностное распределение по траекториям.

Обучение агентов с помощью генетического алгоритма

1:19:59
  • В видео обсуждается обучение агентов с использованием генетического алгоритма, который выбирает лучшие траектории для обучения.
  • Генетический алгоритм работает с вероятностными распределениями и выбирает лучшие траектории для обучения, основываясь на их суммарной награде.

Кросс-энтропийный метод оптимизации

1:26:10
  • Кросс-энтропийный метод оптимизации используется для обучения агентов без использования производной функции.
  • Этот метод работает путем выбора элитных траекторий и перемещения вероятностного распределения в сторону этих траекторий.

Обучение агентов с таблицами

1:31:21
  • В видео объясняется, как использовать таблицы для обучения агентов, где каждая строка представляет состояние, а каждый столбец - действие.
  • Затем из этих таблиц выбираются лучшие траектории, которые называются элитами.
  • На основе этих элит, агент учится выбирать действия в определенных состояниях.

Обсуждение шахматного примера

1:34:53
  • В видео обсуждается пример шахматной партии, где у нас есть 30 ходов в партии и 50 партий в целом.
  • В результате получается 1500 пар из одной партии и 50000 пар из всех партий.

Ноутбук для семинара

1:37:29
  • В видео упоминается ноутбук, который можно скачать с GitHub.
  • Ноутбук содержит курс по эрелю и практику лорель, а также другие полезные материалы.

Разбор семинара

1:41:31
  • В семинаре обсуждается среда, которая имитирует машинку, едущую к флажку.
  • В среде есть ограничения на координаты и скорости, а также три действия: вправо, влево и бездействие.
  • Задача агента - доехать до флажка как можно быстрее.

Решение задачи

1:47:54
  • В видео предлагается решение задачи с использованием функции от наблюдения и момента времени.
  • В результате машинка начинает ехать вправо, но не может заехать на горку из-за недостатка мощности.
  • Задача требует дополнительных идей для решения.

Введение в кросс-энтропийный метод

1:49:11
  • Обсуждение алгоритма кросс-энтропийного метода для обучения агентов в играх.
  • Алгоритм основан на максимизации лучших элитных действий.

Реализация кросс-энтропийного метода

1:57:36
  • Создание статистической политики с равномерным распределением действий.
  • Генерация сессий с помощью статистической политики и определение лучших элитных действий.
  • Использование функции "select" для выбора лучших сессий и их сохранения.

Анализ результатов

2:04:24
  • Анализ гистограммки с наградами за сессии.
  • Обсуждение использования перцентилей для выбора лучших сессий.
  • Реализация функции "select" для сохранения только лучших сессий.

Элитные состояния и действия

2:06:01
  • В видео обсуждается алгоритм, который вычисляет элитные состояния и действия, используя функцию, которая сортирует состояния и действия по их наградам.
  • Затем эти состояния и действия используются для обновления политики.

Нормирование и обновление политики

2:14:22
  • Обсуждается необходимость нормирования новой политики, чтобы избежать деления на ноль.
  • Обновленная политика затем используется для обучения агента.

Гистограммы и результаты обучения

2:19:50
  • Обсуждаются гистограммы, которые показывают результаты обучения агента.
  • Упоминается, что обновление картинок происходит быстрее по мере обучения агента.
  • Обсуждается, почему средняя награда и трэш-холд могут отличаться.
  • Упоминается, что это типичная проблема для краснонтропийного метода и что это может быть предметом исследования для студентов.

Обсуждение посещения занятий

2:22:57
  • Автор видео говорит, что он не против посещения занятий, но есть ограничения по количеству людей.
  • Если придет слишком много людей, то преподавателям будет сложно проверять домашние задания.
  • Автор предлагает договориться с Евгением Соколовым о посещении занятий заранее.

Рекомендации по просмотру видео

2:23:57
  • Автор предлагает подписаться на канал "Объединение в тележке любителей реля" для получения дополнительной информации.
  • Завершает видео, прощаясь с зрителями.