Глубокое изучение Q с помощью Tensorflow и Space Invaders 🕹️👾 (учебное пособие)

YOUTUBE · 27.11.2025 05:02

Ключевые темы и таймкоды

Введение в глубокое Q-обучение

0:00
  • Томас Симонини представляет курс глубокого обучения с подкреплением с помощью TensorFlow.
  • В серии статей будет рассмотрена архитектура, в видео - реализация.
  • Сегодня будет внедрен агент глубокого Q-обучения, который научится играть в Atari Space Invaders.

Реализация агента глубокого Q-обучения

1:44
  • Создание среды Atari Space Invaders и предварительная обработка кадров.
  • Функция предварительной обработки кадров для уменьшения сложности состояний и сокращения времени вычислений.
  • Использование dq (двусторонняя очередь) для хранения кадров и их удаления по мере добавления новых.
  • Настройка гиперпараметров и создание модели глубокой нейронной сети.

Обучение агента и настройка TensorBoard

9:17
  • Создание программы writer для отслеживания потерь.
  • Обучение агента с использованием процесса выборки и обучения.
  • Реализация функции predict action для выбора случайного действия или действия с наибольшим значением Q.

Обучение агента глубокого Q-обучения

12:20
  • В видео рассказывается о процессе обучения агента глубокого Q-обучения, который играет в игру Atari Space Invaders.
  • Сначала инициализируются переменные и скорость затухания, затем для каждого эпизода в диапазоне total episode устанавливается шаг равным нулю.
  • В новом эпизоде добавляется кадр полностью, а в случае смерти агента эпизод заканчивается.
  • После этого подсчитывается общее количество наград, полученных в этом эпизоде, и печатается необходимая информация.

Учебная часть

15:23
  • В учебной части извлекается из памяти случайный мини-набор впечатлений, состояния, действия, награды и следующие состояния.
  • Затем настраивается целевая очередь, где значение q для следующего состояния определяется сетью dq.
  • Если эпизод заканчивается, целевое значение q равно только вознаграждению, иначе оно равно вознаграждению плюс коэффициент дисконтирования на максимальное значение q для следующего состояния.
  • После этого рассчитываются потери, и для каждых пяти эпизодов сохраняется модель.

Результаты и советы

17:43
  • В результате агент глубокого Q-обучения начинает учиться играть в Atari Space Invaders.
  • Советуется самостоятельно написать код, экспериментировать и модифицировать новую среду.
  • В следующий раз будет внедрена улучшенная версия архитектуры глубокого Q-обучения для игры в Doom.