Базовая статистика и меры связи: базовая лекция | Марк Шафир | Летняя Школа Анализа Данных 2022

YOUTUBE · 16.11.2025 09:14

Ключевые темы и таймкоды

Введение и уровни измерений

0:02
  • Приветствие от Марка Шафира, ведущего летней школы анализа данных.
  • Объяснение важности уровня измерений для выбора методов анализа данных.
  • Описание номинального уровня: варианты ответов не упорядочены, например, «ничего не понял», «слишком быстро», «многое узнал».

Порядковый, интервальный и абсолютный уровни

1:00
  • Порядковый уровень: семибальная шкала с близкими и удалёнными оценками.
  • Интервальный уровень: чёткие оценки с интервалами.
  • Абсолютный уровень: абсолютная оценка с осмысленным нулём.
  • Возможность упрощения шкал более высокого порядка.

Операции на разных уровнях измерений

2:00
  • В номинальном уровне нельзя считать среднее, так как значения не упорядочены.
  • В дихотомической шкале можно посчитать среднее, например, «мужчина» — 1, «женщина» — 0.
  • Для порядковых переменных требуются специальные меры связи, такие как коэффициент порядковой корреляции.

Работа с номинальными данными

3:51
  • Номинальные данные часто встречаются в маркетинговых исследованиях: бренды, города, сегменты.
  • Анализ соответствия — инструмент для работы с номинальными данными.
  • Стандартизованные остатки — ещё один полезный инструмент для номинальных данных.

История методов анализа данных

4:49
  • Большинство методов статистики созданы для интервального и порядкового уровней измерений.
  • Методы анализа данных изначально применялись к производственной статистике.
  • В маркетинговых исследованиях инструменты для номинальных и порядковых шкал стали развиваться позже.

Заключение

5:50
  • Номинальные и порядковые шкалы часто используются в анализе данных.
  • Для этих шкал существуют специальные инструменты и методы.
  • Летняя школа стремится уделить больше внимания анализу данных с использованием номинальных и порядковых шкал.

Введение в дисперсию распределения

6:03
  • Обсуждение дисперсии распределения в базовой статистике.
  • Пример с двумя случайными величинами: красной и синей, измеряемыми от 0 до 200.
  • Красное распределение: высокое и узкое, среднее значение — 100, большая частота встречаемости среднего значения.

Сравнение красного и синего распределений

6:59
  • Синее распределение: среднее значение тоже 100, но частота встречаемости среднего значения меньше, около 70.
  • Синее распределение растянуто, значения часто встречаются в диапазоне ±30 от среднего.
  • У красного распределения дисперсия маленькая, у синего — большая.

Определение дисперсии и стандартного отклонения

7:56
  • Дисперсия — мера разброса данных вокруг среднего значения.
  • Стандартное отклонение — корень из дисперсии.
  • Формула дисперсии: сумма квадратов отклонений от среднего, делённая на размер выборки.

Влияние размера выборки на дисперсию

8:52
  • Маленькая дисперсия при небольших отклонениях от среднего и большой выборке.
  • Большая дисперсия при больших отклонениях и маленькой выборке.
  • Необходимость большой выборки для точного измерения дисперсии.

Пример расчёта дисперсии

9:52
  • Пример расчёта дисперсии для значений 6, 7, 8, 9, 10.
  • Расчёт отклонений от среднего и их квадратов.
  • Получение стандартного отклонения как корня из дисперсии.

Стандартизация и нормализация

11:43
  • Стандартизация позволяет сравнивать разные величины, например, возраст, рост, доход.
  • Пример со средним ростом 155 см и стандартным отклонением 11,5 см.
  • Нормализация приводит параметры к единой шкале.

Виды распределений

12:56
  • Различные виды распределений: нормальное, смещённое, хи-квадрат, бимодальное, экспоненциальное.
  • Нормальное распределение наиболее удобно для работы.
  • Стандартизованное нормальное распределение наиболее полезно для анализа данных.

Нормальное распределение

13:48
  • Нормальное распределение имеет среднее значение 0 и стандартное отклонение 1.
  • Значения обычно лежат в диапазоне от -3 до 3.
  • Для проверки нормальности распределения используются тесты, например, Колмогорова-Смирнова.

Требования к распределению в регрессии

14:47
  • В регрессии требуется нормальное распределение данных.
  • Пример распределения, которое не является нормальным: сначала почти константа, потом огромный всплеск.
  • Стандартизованное нормальное распределение имеет среднюю 0 и дисперсию 1.

Стандартизация данных

15:43
  • Доход и возраст стандартизуются путём деления на стандартное отклонение.
  • После стандартизации данные измеряются от -3 до 3.
  • Стандартизация позволяет сравнивать различные показатели.

Зет-числа и доверительные вероятности

16:37
  • Зет-числа имеют важный физический смысл.
  • Доверительные вероятности указывают, сколько процентов значений лежит в определённом диапазоне.
  • Примеры доверительных вероятностей: 68,3%, 95,4%, 99,7%.

Практические доверительные вероятности

18:51
  • 90% доверительная вероятность: диапазон от -1,64 до +1,64.
  • 95% доверительная вероятность: 1,96.
  • 99% доверительная вероятность: 2,58.

Способы приведения данных к нормальным

19:51
  • Помимо логарифмирования и преобразования Box-Cox, можно использовать квадратный корень или возведение в степень.

Ошибка выборки

20:07
  • Ошибка выборки может быть смещённой, случайной или несмещённой.
  • Смещённые оценки возникают из-за ошибок в формулировках или построении выборки.
  • Случайные ошибки неизбежны из-за разнообразия участников выборки.

Вычисление стандартной ошибки

22:14
  • Стандартная ошибка зависит от уровня доверительной вероятности, дисперсии и размера выборки.
  • Чем выше доверительная вероятность, тем больше стандартная ошибка.
  • Увеличение дисперсии увеличивает стандартную ошибку, а увеличение размера выборки уменьшает её.

Различия между t-тестом и z-тестом

24:09
  • Z-тест используется для сравнения долей признака, например, доли пользователей продукта среди мужчин и женщин.
  • t-тест применяется для сравнения средних значений, например, среднего дохода мужчин и женщин.
  • Для минимизации стандартной ошибки требуется большая выборка и малая дисперсия.

Визуализация стандартной ошибки

25:08
  • Пример с зелёной линией на выборке 2401 показывает минимальную стандартную ошибку 2%.
  • Максимальная стандартная ошибка достигается при вероятности 50 на 50.

Влияние размера выборки на погрешность

26:04
  • При выборке 1000 погрешность составляет ±3%, при 600 — ±4%.
  • Чем меньше выборка, тем больше погрешность.

Использование калькулятора на сайте «Радара»

27:03
  • Калькулятор на сайте «Радара» позволяет рассчитать ошибку выборки для различных размеров выборки.
  • Пример: уровень знания бренда 40% на выборке 1000 человек, ошибка выборки ±3%.

Управление доверительным интервалом

28:02
  • Увеличение доверительной вероятности увеличивает стандартную ошибку.
  • Можно подобрать подходящий уровень значимости для обеспечения достаточной точности.

Пример с уровнем значимости

28:57
  • При уровне значимости 95% и выборке 1000 человек погрешность при доле признака 50% составляет ±6,5%.
  • При уменьшении выборки до 300 человек погрешность значительно увеличивается.
  • Можно экспериментировать с различными уровнями значимости и доверительными интервалами для поиска оптимальных значений.

Анализ дисперсии и стандартной ошибки

29:54
  • Дисперсия — это мера разброса данных вокруг среднего значения.
  • В верхнем кейсе дисперсия меньше, а стандартная ошибка меньше.
  • В нижнем кейсе дисперсия больше, а стандартная ошибка больше.

Пример с долей пользователей

30:54
  • Доля пользователей продукта среди мужчин — 57%, среди женщин — 50%.
  • Стандартная ошибка для мужчин — ±5, для женщин — ±3.
  • Доверительные интервалы перекрываются, поэтому различия не значимы.

Влияние размера выборки на значимость различий

32:51
  • На больших выборках даже небольшие различия становятся значимыми.
  • Пример: разница в 3 процентных пункта между 35% и 32% значима при выборке в 3000 человек.
  • Доверительный уровень значимости не сильно влияет на значимость различий.

Особенности нормального распределения

33:48
  • Типичные значения дисперсии 50 на 50 дают наибольшую погрешность.
  • Различия в районе 50% менее значимы, чем на краях распределения.

Индекс NPS и его анализ

34:44
  • Индекс NPS состоит из двух долей: промоутеров и критиков.
  • Для сравнения NPS разных компаний нужно учитывать все доли и их доверительные интервалы.
  • Специальный калькулятор значимых различий NPS учитывает все параметры.

Пример сравнения NPS Билайн и МТС

36:42
  • У Билайн: промоутеры — 43%, критики — 20%.
  • У МТС: промоутеры — 27%, критики — 38%.
  • На базе в 200 интервью различия значимы.
  • Даже при небольших выборках значительные различия в NPS могут быть обнаружены.

Введение в корреляцию

37:49
  • Корреляция — это взаимосвязь между двумя случайными величинами.
  • Положительная корреляция: увеличение одной величины приводит к увеличению другой, например, стаж работы и зарплата.
  • Нулевая корреляция: данные хаотично разбросаны, без явной связи.
  • Отрицательная корреляция: увеличение одной величины приводит к уменьшению другой, например, возраст и зарплата.

Примеры корреляций

38:43
  • Примеры разных коэффициентов корреляций: от больших значений до нулевых.
  • Графики разброса показывают, как данные выстраиваются в линию при высокой корреляции или образуют облако при низкой.

Анализ графиков разброса

39:30
  • Большие корреляции указывают на сильную связь между показателями.
  • Обратные корреляции могут быть полезны или вредны в зависимости от бизнес-задач.
  • Нулевые корреляции свидетельствуют об отсутствии связи между переменными.

Ранговые коэффициенты корреляции

40:28
  • Корреляция Спирмена и Кендалла используются для порядковых чисел.
  • Они учитывают ранг числа, а не среднее значение отклонения от среднего.
  • Пример: пятибалльная шкала от «совершенно не согласен» до «полностью согласен».

Сравнение корреляций

41:27
  • При небольших корреляциях ранговая корреляция Спирмена даёт меньший результат.
  • При больших корреляциях ранговая корреляция Спирмена показывает лучшие результаты.
  • Ранговые коэффициенты предпочтительны для порядковых шкал.

Ограничения корреляций

43:22
  • Большинство корреляций симметричны и требуют одинакового типа шкалы признаков.
  • Корреляция Пирсона не подходит для номинальных и порядковых шкал.
  • Корреляции Кендалла и Спирмена могут обрабатывать порядковые и интервальные шкалы.

Будущие темы

44:18
  • Обсуждение требований к типу шкалы признаков будет продолжено в модулях 2 и 3.
  • Планируется более подробное рассмотрение случаев с порядковыми и интервальными шкалами.

Анализ соответствия

44:50
  • Позволяет анализировать разноизмеренные шкалы одновременно, например, возраст, доход, страну, бренд, образование.
  • Инструмент полезен для работы с данными в виде порядковых высказываний.
  • Рекомендуется использовать ранговую корреляцию Спирмена или Кендалла для порядковых данных.

Анализ остатков

45:49
  • Помогает при работе с номинальными данными, например, для измерения имиджа бренда.
  • Пример использования: оценка влияния имиджевой рекламы на продажи бренда.
  • Респонденты сопоставляют высказывания с брендами, отвечая «да» или «нет».

Обработка данных

47:43
  • Данные можно анализировать в формате «да» или «нет» или с оценками по шкале.
  • Оценки по шкале лучше для анализа, но сложнее для респондентов.
  • Анализ остатков позволяет выявить связи между брендами и высказываниями.

Расчёт ожидаемых частот

48:43
  • Ожидаемые частоты рассчитываются на основе предположения о независимости событий.
  • Разница между наблюдаемыми и ожидаемыми частотами показывает наличие связи.
  • Пример расчёта: для Альфа-Банка ожидаемая частота — 1095, наблюдаемая — 591.

Стандартизованные остатки

51:39
  • Стандартизованные остатки вычисляются путём возведения в квадрат и деления на стандартные отклонения.
  • Значения стандартизованных остатков интерпретируются как z-числа из нормального распределения.
  • Большие значения указывают на высокую вероятность связи между брендами и атрибутами.

Интерпретация z-чисел

52:35
  • Z-числа измеряются в диапазоне от -3 до 3.
  • Нетипично большие или маленькие значения указывают на сильную связь.
  • Пороговое значение 1.96 соответствует 95% доверительному интервалу.
  • Серые значения указывают на отсутствие связи.

Пороговое значение и доверительная вероятность

54:30
  • Пороговое значение 1.64 соответствует доверительной вероятности 90%.
  • При пороге 95% часть коэффициентов не подходит под критерий.
  • Таблицы остатков можно использовать для анализа различных данных, включая имидж брендов и социальные демографические характеристики.

Настройка порога значимости

55:18
  • В маркетинговых исследованиях обычно используется порог 1.96.
  • Порог можно менять в зависимости от размера выборки.
  • Для небольших выборок можно установить порог 1.64 для 90% доверительной вероятности.

Влияние различий в данных на анализ остатков

56:04
  • Если данные не сильно различаются, таблица остатков будет скучной.
  • Анализ остатков чувствителен к размеру выборки и различиям в данных.
  • Для получения более ярких различий нужно менять высказывания или бренды или увеличивать размер выборки.

Сравнение динамики в анализе остатков

58:28
  • Централизованные остатки не показывают степень связи, только её наличие с определённой вероятностью.
  • Для оценки степени связи нужны корреляции и регрессии.
  • Прямые процентные профили лучше подходят для анализа динамики изменений в ассоциациях.

Преимущества анализа остатков

1:01:22
  • Анализ остатков сравнивает данные со всей таблицей, выявляя нетипичные связи.
  • Нетипичные значения могут указывать на интересные связи, которые не видны невооружённым глазом.
  • Сравнение ожидаемых и наблюдаемых частот помогает выявить различия в данных.

Различия в ассоциациях крупных и менее известных брендов

1:02:22
  • Крупные бренды, такие как Сбербанк, имеют высокие проценты ассоциаций.
  • Менее известные банки, например Сити-банк и Уралсиб, имеют меньшие проценты ассоциаций.
  • Анализ остатков позволяет увидеть различия в ассоциациях между брендами и атрибутами.

Анализ остатков

1:03:21
  • Анализ остатков сравнивает ожидаемые и наблюдаемые аккаунты напрямую, игнорируя процентные профили.
  • Учитывает вес брендов, атрибутов и чистоту их встречаемости.
  • Позволяет выявить значимые различия в связях между брендами и атрибутами.

Интерпретация результатов

1:03:50
  • Если остатки находятся в интервале от -2 до 2, это может указывать на отсутствие значимых различий, даже если по процентам виден рост атрибута.
  • Анализ остатков рассматривает все связи в комплексе, сравнивая их с другими брендами и атрибутами.
  • Изменение структуры восприятия бренда может нивелировать рост одного атрибута, если другие связи также изменились.

Рекомендации по мерам связи

1:05:17
  • Для номинальных уровней измерения рекомендуется использовать хи-квадрат.
  • Анализ остатков и анализ соответствий более точно определяют наличие связи между конкретными строками и столбцами.
  • Для интервальных и номинальных уровней можно использовать тест сравнения средних, дисперсионный анализ и дискриминантный анализ.

Интервальные интервальные уровни

1:08:12
  • При анализе связи между доходом и возрастом рекомендуется использовать корреляцию и регрессию.
  • Корреляция показывает степень связи между переменными, а регрессия — насколько увеличивается доход с увеличением возраста.
  • Анализ остатков и анализ соответствий позволяют глубже понять связь между отдельными категориями переменных.

Использование SPSS

1:10:39
  • SPSS остаётся стандартом для маркетинговых и социологических исследований, несмотря на наличие нареканий.
  • Несмотря на недостатки, SPSS удобен для обработки опросов и имеет уникальные процедуры.
  • Знание SPSS необходимо для работы в многих отраслях.

Структура курса

1:12:22
  • Первая лекция в каждом модуле бесплатная, без хардкорной методологической части.
  • Вторая и третья лекции в каждом модуле доступны на платном тарифе, где подробно рассматриваются анализ данных, SPSS, синтаксис и макросы.
  • Записи лекций будут доступны в личном кабинете.

Анонс будущих лекций

1:13:26
  • В четверг будут рассмотрены методы анализа данных: тесты, дисперсионный анализ, корреляции, матрицы корреляции и анализ остатков.
  • Во вторник будет обсуждаться анализ соответствия.