Дагер может быть полезен в задачах, где сложно найти эксперта, который сможет собрать данные.
Однако, дагер не подходит для задач, где нужно обыграть эксперта, например, в шахматах.
В видео также упоминается, что дагер может быть использован для обучения самодвижущихся машин, но в реальных ситуациях, вероятно, используется множество эвристик и других алгоритмов.
В видео обсуждается сложность определения оптимального поведения агента в среде, где агент собирает награды, и как это связано с историей получения наград.
Обсуждается использование коэффициента дисконтирования для учета временной ценности наград.
В видео обсуждается алгоритм, который вычисляет элитные состояния и действия, используя функцию, которая сортирует состояния и действия по их наградам.
Затем эти состояния и действия используются для обновления политики.