Прикладные задачи анализа данных, лекция 11 — Продуктовая аналитика (A/B-тесты)

YOUTUBE · 28.11.2025 07:25

Ключевые темы и таймкоды

Введение

0:00
  • Автор представляет себя как Фил, который проводит лекцию о тестировании.
  • Он работает в Яндексе, ранее занимался машинным обучением в Дзене и в такси.

Планирование тестирования

8:37
  • Автор обсуждает планирование тестирования, включая выбор количества наблюдений и использование различных критериев.
  • Он также упоминает о токсичном бомбеже и о том, как он может быть использован для проверки статистики.

Планирование эксперимента

10:30
  • В видео обсуждается планирование эксперимента, где группа пользователей делится на две части: экспериментальную и контрольную.
  • Экспериментальная группа получает новые изменения, а контрольная группа остается без изменений.
  • Обсуждается вопрос о том, как долго следует держать эксперимент, и предлагается использовать недельную сезонность для определения количества дней.

Расчет количества наблюдений

17:30
  • В видео объясняется, как рассчитать количество наблюдений, необходимых для эксперимента.
  • Это зависит от количества активных пользователей, которые приходят на платформу каждый день.
  • Обсуждается, как выбрать процент пользователей для эксперимента, и предлагается использовать один процент пользователей для примера.

Гипер-параметры эксперимента

20:22
  • В видео обсуждаются гипер-параметры эксперимента, включая ошибку первого рода, ошибку второго рода и мощность критерия.
  • Обсуждается, как эти параметры влияют на результаты эксперимента и как их можно использовать для определения успеха эксперимента.

Презумпция нулевой гипотезы

22:52
  • В контексте статистики, презумпция нулевой гипотезы означает, что изменения в данных не происходят, и мы будем брать эти изменения, если данные показывают обратное.
  • Это аналогично презумпции невиновности в суде, где обвиняемый считается невиновным, пока не доказано обратное.

Ошибки первого и второго рода

23:52
  • В статистике, ошибки первого и второго рода - это ошибки, которые могут произойти при принятии решений.
  • Ошибка первого рода - это когда мы ошибочно принимаем нулевую гипотезу, когда на самом деле есть изменения.
  • Ошибка второго рода - это когда мы ошибочно отвергаем нулевую гипотезу, когда на самом деле есть изменения.

Минимальный детектируемый эффект

24:52
  • Минимальный детектируемый эффект - это минимальная разность между параметрами, которую мы хотим уловить.
  • Это может быть разница в количестве лайков, например, или в других параметрах, которые мы хотим отслеживать.

Критерии и ошибки

26:07
  • В видео обсуждается, как определить минимальную величину, которую нужно поймать с помощью критерия.
  • Критерии обычно заключаются в том, что у нас есть группа и мы посчитали среднюю по этой группе.
  • Если гипотеза о средней нулевой, то мы формулируем ее как "изменений никаких не было".
  • Если гипотеза об альтернативе, то она формулируется в терминах движения в каком-то направлении.
  • Критические значения для принятия решения определяются относительно порога, который нужно выделить.
  • Обычно это делается с помощью нормального распределения с параметрами ноль один.

Ошибки первого и второго рода

31:59
  • Ошибки первого и второго рода связаны с гипотезами и их принятием или отклонением.
  • Ошибка первого рода - это когда мы ошибочно принимаем гипотезу о нулевой гипотезе, когда на самом деле она неверна.
  • Ошибка второго рода - это когда мы ошибочно отклоняем гипотезу об альтернативе, когда на самом деле она верна.
  • Обычно за ошибкой второго рода следят меньше, чем за ошибкой первого рода.

Количество наблюдений для теста

34:59
  • Количество наблюдений для теста зависит от уровня значимости, ошибки, которую мы выбрали, и двух дисперсий, которые неизвестны.
  • Формула для количества наблюдений выглядит следующим образом: (дисперсия контрольной группы + дисперсия тритман группы) / 0.5 \* (1 - альфа) + (1 - бета)².
  • Эта формула может быть разной для разных критериев, но она позволяет определить необходимое количество наблюдений для проведения теста.

Планирование аб-теста

37:52
  • В видео обсуждается планирование аб-теста, включая выбор количества наблюдений и дисперсии.
  • Упоминается, что для теста мен уни форму какой-то другой.
  • Формулы для расчета количества наблюдений и дисперсии обсуждаются.
  • Упоминается, что для теста мен уни форму можно использовать сравнение уровня значимости с пю или сравнение статистики зетопс со статистикой из распределения.

Валидация и подбор количества наблюдений

40:52
  • Обсуждается процесс валидации и подбора количества наблюдений для аб-теста.
  • Упоминается, что можно запустить тест на валидационной выборке, чтобы оценить дисперсию и количество наблюдений.
  • Упоминается, что в некоторых случаях можно пропустить этап валидации и сразу перейти к тестированию на тестовой выборке.

Примеры кейсов и планирование аб-теста

44:44
  • Рассказывается о кейсе с домогательствами в такси, где аб-тест не может быть проведен из-за редких данных.
  • Обсуждается важность валидации и подбора количества наблюдений для аб-теста.
  • Упоминается, что валидационная выборка может быть использована для подбора гипер-параметров теста.

Обсуждение предпосылок для теста

50:44
  • В видео обсуждается, что для использования теста необходимо выполнение трех предпосылок: независимость наблюдений, большое N и отсутствие выбросов.
  • Если хотя бы одна из этих предпосылок не выполняется, тест может не работать или давать неправильные результаты.

Примеры нарушения предпосылок

56:22
  • В видео приводятся примеры, когда тест может не работать из-за нарушения предпосылок.
  • Например, если выборки зависимы или имеют разные дисперсии, тест может дать неправильные результаты.

Альтернативные тесты для маленьких выборок

1:01:22
  • Если выборки очень маленькие, можно использовать другой тест, который называется "тест на разность средних".
  • Этот тест имеет точное распределение и может быть использован для сравнения средних значений в двух выборках.

Нормальность наблюдений и статистика

1:03:14
  • В статистике важно учитывать нормальность наблюдений, а не только нормальность средних.
  • Если выборка маленькая, то можно использовать приблизительное распределение для квантилей.
  • Тест-статистика может быть использована только при нормальности наблюдений.

Тест на выбросы и медианы

1:08:14
  • Тест на выбросы не зависит от медианы, но может быть полезен в медицине.
  • Тест на выбросы позволяет сравнивать направления изменений, а не их величины.

Тест Манна-Уитни и ранги

1:11:07
  • Тест Манна-Уитни позволяет сравнивать две независимые выборки.
  • Тест Манна-Уитни является ранговым и имеет табличное распределение.

Аб-тесты и их использование

1:15:07
  • В видео обсуждается использование аб-тестов для проверки гипотез и контроля количества "какашек", которые могут быть выпущены в процессе тестирования.
  • Рассматриваются три популярных теста: t-тест, z-тест и F-тест, а также их применение в различных ситуациях.

Мифы и проблемы аб-тестов

1:21:44
  • Развенчиваются мифы о том, что аб-тесты работают только для больших выборок и что бустрап хорошо работает для маленьких выборок.
  • Обсуждаются проблемы, связанные с дизайном аб-тестов, и способы их решения, такие как стратификация и контроль дисперсии.

Многорукие бандиты и байесовские методы

1:25:44
  • Рассматриваются многорукие бандиты и байесовские методы, которые позволяют выбирать между несколькими альтернативами в процессе тестирования.
  • Упоминается, что Google недавно выпустил несколько инструментов для тестирования, которые могут быть интересны для изучения.

Выборки и тестирование

1:27:44
  • Автор обсуждает важность проведения теста на схожесть выборок перед проведением аб-теста.
  • Он упоминает, что для этого можно использовать тест Манна-Уитни, но не объясняет, почему именно этот тест.

Репрезентативность выборки

1:30:37
  • Автор подчеркивает, что для адекватного исследования важно собирать репрезентативную выборку, которая отражает исследуемое явление.
  • Он также упоминает о технике стратификации, которая позволяет создавать выборки, похожие по своим характеристикам.

Эконометрика и мошенничество

1:33:37
  • Автор обсуждает применимость эконометрических методов в сфере мошенничества.
  • Он отмечает, что если задача заключается в прогнозировании, то эконометрика не нужна, так как она предназначена для проверки гипотез и интерпретации коэффициентов.
  • Если же задача заключается в прогнозировании, то можно использовать машинное обучение, которое не требует соблюдения эконометрических предпосылок.