Введение 0:22 Приветствие и представление участников. Тема видео: временные ряды и прикладные задачи. Обещание рассказать о задачах и подходах к их решению.
Что такое временные ряды 1:01 Временные ряды - это данные с временной меткой. Примеры: продажи, заболевания, курс валют. Характеристики: тренд, сезонность.
Прогнозирование 2:43 Прогнозирование необходимо для планирования. Примеры: количество сотрудников, наличность в банкомате, продажи товаров. Сложности: зависимость рядов, влияние новостей и локаций. Использование нейронных сетей для больших объемов данных.
Классификация 4:29 Отображение ряда в метку. Примеры: детектор лжи, активность человека. Методы: метрики, ДТВ, табличные данные.
Пастеризация 7:15 Разделение рядов на группы. Примеры использования: поиск похожих пользователей, прогнозирование. Сложности: неопределенность в определении похожести. Методы: метрики, табличные данные.
Сегментация 9:28 Выделение периодов с разной динамикой. Примеры: изменения среднего значения, дисперсии, трендов. Методы: библиотечные функции, анализ метрик.
Поиск аномалий 11:03 Определение аномалий в временных рядах. Офлайн и онлайн поиск. Методы: сравнение с окном, обучение моделей. Применение: прогнозирование, анализ процессов.
Введение в мониторинг и прогнозирование 14:00 Мониторинг помогает быстро выявлять аномалии в поведении оборудования. Методы включают обучение моделей на исторических данных и сравнение прогнозов с новыми значениями. Прогнозирование временных рядов требует восстановления функции, аппроксимирующей будущее поведение процесса.
Метрики и их интерпретация 16:10 Метрики для прогнозирования временных рядов схожи с метриками регрессии. Средняя абсолютная ошибка и средняя квадратичная ошибка используются для количественных величин. Процентные ошибки и их модификации, такие как симметричная процентная ошибка, легче интерпретировать.
Валидация и разбиение данных 19:31 Важно соблюдать временную структуру данных при разбиении на фалды. Существуют три основные стратегии: постепенное увеличение количества фалдов, фиксированная обучающая выборка и вставка пространства между выборками.
Стратегии прогнозирования 20:54 Регрессионная стратегия использует стандартные методы для задач регрессии или классификации. Можно строить одну модель на каждый шаг прогнозирования или одну общую модель для всех шагов. Авторегрессионная стратегия предсказывает на шаг вперед и вызывает модель на предсказанных значениях.
Локальные и глобальные модели 23:23 Локальные модели обучаются на каждом временном ряде, глобальные модели обучаются на всех данных. Глобальные модели быстрее обучаются и удобнее в использовании, но могут быть менее точными. Локальные модели хорошо параллелятся и подходят для задач холодного старта.
Методы прогнозирования 28:02 Предсказание толпы использует краудсорсинг и исторические данные для предсказания событий. Правила и эвристики применяются при малом количестве данных и экспертных знаниях. Моделирование конкретных распределений помогает предсказывать временные ряды с сезонностью.
Нормализация и распределение 31:29 Дневной временной ряд после нормализации можно аппроксимировать распределением Дирихле. Иногда стоит смотреть на данные подробнее, прежде чем решать задачу.
Лаги и скользящие статистики 31:53 Лаги и скользящие статистики могут быть хорошим линейным приближением. Сезонная наивная модель и градиентный бустинг могут показывать хорошие результаты.
Модель Хольта-Винтерса 32:28 Модель Хольта-Винтерса имеет три параметра для оптимизации. Это базовая модель, которая хорошо работает с сезонностью и внешними признаками.
Модель Рима 33:06 Модель Рима умеет работать с сезонностью и внешними признаками. Настройка параметров основана на переборе гиперпараметров и информационном критерии Акаике.
Проблемы с выбросами и нестационарными рядами 34:29 Модели плохо работают с выбросами и нестационарными рядами. Можно логарифмировать временной ряд или обрезать историю для улучшения модели.
Модель от Facebook 35:12 Модель от Facebook хорошо интерпретируема и работает с сезонностью, внешними признаками и выбросами. Встроена функция для анализа прогнозов и настройки параметров.
Приведение временного ряда к задаче регрессии 36:25 Временной ряд задач прогнозирования часто сводится к задаче регрессии. Признаки могут быть получены из самого временного ряда или дополнительных данных.
Признаки из временного ряда 37:20 Основные признаки: лаги, временные метки, бегущая статистика, фурье преобразование. Фурье преобразование помогает выявлять сезонные паттерны.
Стандартизация и удаление тренда 39:25 Важно стандартизировать временные ряды для лучшего сравнения. Удаление тренда и сезонности помогает улучшить модели.
Преобразования временного ряда 40:27 Преобразования: логарифмирование, дифференцирование, сглаживание. С осторожностью применять дифференцирование на продакшн.
Разделение данных на тренировочную и тестовую выборки 42:11 Важно помнить о временной структуре данных. Разделение данных на тренировочную и тестовую выборки помогает избежать ошибок.
Глубокие модели и их ограничения 50:53 Глубокие модели не являются панацеей и зависят от данных и задачи. Графовые модели используются для предсказания инкассации банкоматов, так как они сильно завязаны на гео-координаты. Глубокие модели могут работать нестабильно при малом количестве данных.
Ансамбли моделей и их преимущества 51:25 Ансамбли моделей могут быть более эффективными, чем глубокие модели. Использование различных моделей, таких как наивные и более сложные, может улучшить результаты. Ансамбли позволяют комбинировать модели для достижения лучших результатов.
Сравнение моделей и их применение 52:23 Сравнение различных моделей показывает, что одни модели могут быть лучше для определенных задач. Стандартные модели, такие как R, также могут быть полезны в некоторых случаях. Важно учитывать, что данные могут быть из одного домена для лучшего предсказания.
Прогнозирование временных рядов 54:38 Прогнозирование временных рядов может быть сложным, особенно для регрессионных моделей. Использование табличек и фичей может упростить процесс. Прогнозирование на будущее может быть полезно, чтобы избежать переобучения на ближайших данных.
Разбиение данных и использование метрик 56:35 Разбиение данных на обучающую и валидационную выборки может быть полезным. Важно аккуратно использовать шафлинг и фолды для улучшения результатов. Примеры с метриками могут помочь в принятии решений.
Дополнительные вопросы и помощь 57:33 В телеграм-канале можно задавать дополнительные вопросы и получать помощь. Семинарист готов ответить на вопросы и помочь в решении задач. Завершение семинара и благодарность участникам.