Прикладные задачи анализа данных, лекция 8 — Временные ряды 2

YOUTUBE · 28.11.2025 07:25

Ключевые темы и таймкоды

Введение

0:22
  • Приветствие и представление участников.
  • Тема видео: временные ряды и прикладные задачи.
  • Обещание рассказать о задачах и подходах к их решению.

Что такое временные ряды

1:01
  • Временные ряды - это данные с временной меткой.
  • Примеры: продажи, заболевания, курс валют.
  • Характеристики: тренд, сезонность.

Прогнозирование

2:43
  • Прогнозирование необходимо для планирования.
  • Примеры: количество сотрудников, наличность в банкомате, продажи товаров.
  • Сложности: зависимость рядов, влияние новостей и локаций.
  • Использование нейронных сетей для больших объемов данных.

Классификация

4:29
  • Отображение ряда в метку.
  • Примеры: детектор лжи, активность человека.
  • Методы: метрики, ДТВ, табличные данные.

Пастеризация

7:15
  • Разделение рядов на группы.
  • Примеры использования: поиск похожих пользователей, прогнозирование.
  • Сложности: неопределенность в определении похожести.
  • Методы: метрики, табличные данные.

Сегментация

9:28
  • Выделение периодов с разной динамикой.
  • Примеры: изменения среднего значения, дисперсии, трендов.
  • Методы: библиотечные функции, анализ метрик.

Поиск аномалий

11:03
  • Определение аномалий в временных рядах.
  • Офлайн и онлайн поиск.
  • Методы: сравнение с окном, обучение моделей.
  • Применение: прогнозирование, анализ процессов.

Введение в мониторинг и прогнозирование

14:00
  • Мониторинг помогает быстро выявлять аномалии в поведении оборудования.
  • Методы включают обучение моделей на исторических данных и сравнение прогнозов с новыми значениями.
  • Прогнозирование временных рядов требует восстановления функции, аппроксимирующей будущее поведение процесса.

Метрики и их интерпретация

16:10
  • Метрики для прогнозирования временных рядов схожи с метриками регрессии.
  • Средняя абсолютная ошибка и средняя квадратичная ошибка используются для количественных величин.
  • Процентные ошибки и их модификации, такие как симметричная процентная ошибка, легче интерпретировать.

Валидация и разбиение данных

19:31
  • Важно соблюдать временную структуру данных при разбиении на фалды.
  • Существуют три основные стратегии: постепенное увеличение количества фалдов, фиксированная обучающая выборка и вставка пространства между выборками.

Стратегии прогнозирования

20:54
  • Регрессионная стратегия использует стандартные методы для задач регрессии или классификации.
  • Можно строить одну модель на каждый шаг прогнозирования или одну общую модель для всех шагов.
  • Авторегрессионная стратегия предсказывает на шаг вперед и вызывает модель на предсказанных значениях.

Локальные и глобальные модели

23:23
  • Локальные модели обучаются на каждом временном ряде, глобальные модели обучаются на всех данных.
  • Глобальные модели быстрее обучаются и удобнее в использовании, но могут быть менее точными.
  • Локальные модели хорошо параллелятся и подходят для задач холодного старта.

Методы прогнозирования

28:02
  • Предсказание толпы использует краудсорсинг и исторические данные для предсказания событий.
  • Правила и эвристики применяются при малом количестве данных и экспертных знаниях.
  • Моделирование конкретных распределений помогает предсказывать временные ряды с сезонностью.

Нормализация и распределение

31:29
  • Дневной временной ряд после нормализации можно аппроксимировать распределением Дирихле.
  • Иногда стоит смотреть на данные подробнее, прежде чем решать задачу.

Лаги и скользящие статистики

31:53
  • Лаги и скользящие статистики могут быть хорошим линейным приближением.
  • Сезонная наивная модель и градиентный бустинг могут показывать хорошие результаты.

Модель Хольта-Винтерса

32:28
  • Модель Хольта-Винтерса имеет три параметра для оптимизации.
  • Это базовая модель, которая хорошо работает с сезонностью и внешними признаками.

Модель Рима

33:06
  • Модель Рима умеет работать с сезонностью и внешними признаками.
  • Настройка параметров основана на переборе гиперпараметров и информационном критерии Акаике.

Проблемы с выбросами и нестационарными рядами

34:29
  • Модели плохо работают с выбросами и нестационарными рядами.
  • Можно логарифмировать временной ряд или обрезать историю для улучшения модели.

Модель от Facebook

35:12
  • Модель от Facebook хорошо интерпретируема и работает с сезонностью, внешними признаками и выбросами.
  • Встроена функция для анализа прогнозов и настройки параметров.

Приведение временного ряда к задаче регрессии

36:25
  • Временной ряд задач прогнозирования часто сводится к задаче регрессии.
  • Признаки могут быть получены из самого временного ряда или дополнительных данных.

Признаки из временного ряда

37:20
  • Основные признаки: лаги, временные метки, бегущая статистика, фурье преобразование.
  • Фурье преобразование помогает выявлять сезонные паттерны.

Стандартизация и удаление тренда

39:25
  • Важно стандартизировать временные ряды для лучшего сравнения.
  • Удаление тренда и сезонности помогает улучшить модели.

Преобразования временного ряда

40:27
  • Преобразования: логарифмирование, дифференцирование, сглаживание.
  • С осторожностью применять дифференцирование на продакшн.

Разделение данных на тренировочную и тестовую выборки

42:11
  • Важно помнить о временной структуре данных.
  • Разделение данных на тренировочную и тестовую выборки помогает избежать ошибок.

Глубокие модели

45:07
  • Многослойный перцептрон полезен для интеграции в функцию потерь.

Глубокие модели и их ограничения

50:53
  • Глубокие модели не являются панацеей и зависят от данных и задачи.
  • Графовые модели используются для предсказания инкассации банкоматов, так как они сильно завязаны на гео-координаты.
  • Глубокие модели могут работать нестабильно при малом количестве данных.

Ансамбли моделей и их преимущества

51:25
  • Ансамбли моделей могут быть более эффективными, чем глубокие модели.
  • Использование различных моделей, таких как наивные и более сложные, может улучшить результаты.
  • Ансамбли позволяют комбинировать модели для достижения лучших результатов.

Сравнение моделей и их применение

52:23
  • Сравнение различных моделей показывает, что одни модели могут быть лучше для определенных задач.
  • Стандартные модели, такие как R, также могут быть полезны в некоторых случаях.
  • Важно учитывать, что данные могут быть из одного домена для лучшего предсказания.

Прогнозирование временных рядов

54:38
  • Прогнозирование временных рядов может быть сложным, особенно для регрессионных моделей.
  • Использование табличек и фичей может упростить процесс.
  • Прогнозирование на будущее может быть полезно, чтобы избежать переобучения на ближайших данных.

Разбиение данных и использование метрик

56:35
  • Разбиение данных на обучающую и валидационную выборки может быть полезным.
  • Важно аккуратно использовать шафлинг и фолды для улучшения результатов.
  • Примеры с метриками могут помочь в принятии решений.

Дополнительные вопросы и помощь

57:33
  • В телеграм-канале можно задавать дополнительные вопросы и получать помощь.
  • Семинарист готов ответить на вопросы и помочь в решении задач.
  • Завершение семинара и благодарность участникам.