Основы статистики. Анатолий Карпов. Институт биоинформатики. Часть 1

YOUTUBE · 30.11.2025 08:57

Ключевые темы и таймкоды

Введение в курс

0:00
  • Курс по ведению статистики состоит из трех недель.
  • Первая неделя посвящена базовым понятиям: выборка, генеральная совокупность, описательная статистика, статистически значимые различия.
  • Вторая и третья недели будут более интенсивными, с изучением регрессионного анализа, дисперсионного анализа, t-критерия, коэффициентов корреляции.
  • Курс включает практические задания для закрепления материала.

Практические задания

0:59
  • Задания будут направлены на интерпретацию результатов и вычисление статистических показателей.
  • Можно использовать специальные программы или рассчитывать показатели вручную.
  • Курс обещает быть увлекательным и интересным.

Генеральная совокупность

1:47
  • Генеральная совокупность - это множество всех объектов, относительно которых делаются выводы в исследовании.
  • Примеры: все совершеннолетние жители Санкт-Петербурга для социологов, все пациенты с определенным заболеванием для врачей.
  • Важно определить, на какое множество объектов вы хотите обобщить результаты.

Выборка

2:47
  • В большинстве случаев генеральная совокупность слишком велика для полного исследования.
  • Исследователь выбирает часть генеральной совокупности - выборку.
  • Выборка должна быть репрезентативной, чтобы отражать свойства генеральной совокупности.

Методы формирования выборки

3:44
  • Простая случайная выборка: случайное выборка элементов генеральной совокупности.
  • Стратифицированная выборка: разделение генеральной совокупности на страты и случайный выбор элементов из каждой страты.
  • Стратифицированная выборка также обеспечивает репрезентативность.

Групповая выборка

5:11
  • Разделение генеральной совокупности на похожие кластеры.
  • Экономия ресурсов и времени за счет выбора нескольких кластеров.
  • Использование случайной выборки внутри выбранных кластеров.

Типы переменных

6:10
  • Количественные переменные: измеренные значения, например, рост.
  • Непрерывные и дискретные количественные переменные.
  • Номинативные переменные: разделение на группы, например, пол.

Ранговые переменные

8:09
  • Сравнение рангов, но не арифметические операции.
  • Пример: марафонский забег, где первый быстрее пятого.
  • Возможность перехода от количественной к номинативной переменной.

Исследование распределения переменных

10:06
  • Гистограммы частот для количественных переменных.
  • Симметричное и асимметричное распределение.
  • Использование мер центральной тенденции и изменчивости.

Мода распределения

12:00
  • Мода как значение, встречающееся максимально часто.
  • Пример с выборкой роста испытуемых.
  • Использование графика дот-плод для определения моды.

Медиана как мера центральной тенденции

14:13
  • Медиана делит упорядоченное множество данных пополам.
  • При нечетном количестве элементов медиана легко находится.
  • При четном количестве элементов медиана равна среднему значению двух значений в середине упорядоченных данных.

Среднее значение как мера центральной тенденции

15:13
  • Среднее значение рассчитывается как сумма всех значений, деленная на количество элементов.
  • Обозначение выборочного среднего: x с верхним подчеркиванием.
  • Обозначение среднего значения генеральной совокупности: M.

Применение мер центральной тенденции

16:10
  • В симметричном и немодальном распределении можно использовать любую меру центральной тенденции.
  • В асимметричном распределении с выбросами лучше использовать моду или медиану.
  • Ссылка на лекцию о недопониманиях при использовании среднего значения.

Свойства среднего значения

18:25
  • Прибавление числа к каждому значению увеличивает среднее значение на это число.
  • Умножение каждого значения на число увеличивает среднее значение в это же число раз.
  • Сумма отклонений от среднего значения равна нулю.

Изменчивость данных

20:15
  • Размах: разность между максимальным и минимальным значением.
  • Недостатки размаха: зависимость от крайних значений.
  • Введение дисперсии и среднеквадратического отклонения для более точного расчета изменчивости.

Дисперсия как мера изменчивости

22:06
  • Дисперсия: среднее квадратное отклонение индивидуальных значений от среднего.
  • Возведение отклонений в квадрат для устранения отрицательных значений.
  • Извлечение квадратного корня из дисперсии для получения истинного среднего отклонения.

Среднеквадратическое отклонение

24:03
  • Среднеквадратическое отклонение σ показывает среднее значение отклонений от среднего значения выборки.
  • Обозначения σ и SD используются для генеральной совокупности и выборки соответственно.
  • Для выборочных значений в знаменателе формулы дисперсии добавляется минус один.

Пример расчета дисперсии и стандартного отклонения

25:36
  • Пример с выборкой из семи наблюдений: среднее значение 3, дисперсия 2, стандартное отклонение 1.4.
  • Прибавление числа к каждому наблюдению не изменяет дисперсию и стандартное отклонение.
  • Умножение каждого значения на константу увеличивает стандартное отклонение и дисперсию.

Квантили распределения

29:06
  • Квантили делят данные на равные части, например, медиана делит на две части, квартели на четыре.
  • Пример расчета квартелей для выборки из 30 наблюдений.
  • График бокс-плот показывает медиану, первый и третий квартели, а также межквартальный размах.

График бокс-плот

30:58
  • График бокс-плот отображает данные в виде прямоугольника с медианой в центре.
  • Верхняя и нижняя границы прямоугольника соответствуют третьему и первому квартелям.
  • Усы графика показывают значения, отклоняющиеся более чем на полтора межквартальных размаха от медианы.

Применение бокс-плота

31:55
  • График бокс-плот используется для сравнения двух групп данных.
  • Он помогает оценить выраженность признака и изменчивость переменной.
  • Переход к изучению нормального распределения для более глубокого понимания статистики.

Нормальное распределение

33:39
  • Нормальное распределение унимодальное и симметричное.
  • Отклонения от среднего значения равновероятны и подчиняются вероятностному закону.
  • В диапазоне от среднего до одного стандартного отклонения находится около 34% наблюдений.

Применение нормального распределения

34:33
  • В реальном мире многие характеристики распределены нормально.
  • Вероятностное распределение и экс-вероятностный закон важны для статистического анализа.
  • Стандартизация данных переводит их в шкалу с средним значением 0 и стандартным отклонением 1.

Преобразование данных в z-шкалу

35:32
  • Для преобразования данных в z-шкалу нужно отнять среднее значение и разделить на стандартное отклонение.
  • Это приводит к тому, что среднее становится равным нулю, а дисперсия равна единице.
  • Преобразование не изменяет форму распределения.

Применение z-преобразования

37:30
  • z-преобразование помогает определить процент наблюдений в любом диапазоне.
  • Пример: для выборки с средним значением 150 и стандартным отклонением 8, 30% наблюдений превышают 154.
  • Вероятность превышения значения в z-шкале составляет около 30%.

Центральная предельная теорема

40:15
  • Центральная предельная теорема лежит в основе статистической проверки гипотез.
  • Пример: при нормальном распределении в генеральной совокупности, выборочные средние значения в среднем близки к реальному среднему.
  • Увеличение объема выборки улучшает точность выборочных оценок и уменьшает стандартную ошибку среднего.

Центральная предельная теорема

42:32
  • Большинство выборочных наблюдений близки к реальному показателю.
  • Если признак имеет нормальное распределение, то распределение выборочных средних будет нормальным.
  • Стандартное отклонение этого распределения называется стандартной ошибкой среднего и рассчитывается как стандартное отклонение генеральной совокупности, деленное на корень из числа наблюдений.

Влияние числа наблюдений

43:31
  • Чем больше наблюдений, тем ближе выборочные средние к реальному среднему генеральной совокупности.
  • Изменчивость выборочных средних уменьшается с увеличением числа наблюдений.
  • Стандартная ошибка среднего уменьшается с увеличением числа наблюдений и уменьшением изменчивости признака.

Применение центральной предельной теоремы

44:23
  • Если выборка репрезентативна и число наблюдений больше 30, можно использовать стандартное отклонение выборки для оценки стандартного отклонения генеральной совокупности.
  • Пример: выборка из 100 наблюдений с средним значением 3 и стандартным отклонением 5.
  • Стандартная ошибка среднего рассчитывается как стандартное отклонение выборки, деленное на корень из числа наблюдений.

Доверительные интервалы

45:43
  • Центральная предельная теорема используется для построения доверительных интервалов для среднего значения.
  • Пример: исследование экспрессии гена у 64 человек.
  • Мы не можем точно знать среднее значение генеральной совокупности, но можем рассчитать интервал, который включает этот параметр с вероятностью 95%.

Интерпретация доверительных интервалов

47:36
  • 95% всех выборочных средних лежат в диапазоне плюс-минус 1.96 стандартных ошибок среднего.
  • Если рассчитать интервал для каждого выборочного среднего, то 95% из них включат среднее генеральной совокупности.
  • Если бы мы многократно повторяли эксперимент, то в 95% случаев интервал включал бы среднее генеральной совокупности.

Расчет доверительного интервала

49:53
  • Среднее значение выборки равно 100, стандартное отклонение - 4, в эксперименте участвовало 64 человека.
  • Стандартная ошибка среднего рассчитывается как стандартное отклонение, деленное на корень из числа наблюдений.
  • Для 95% доверительного интервала правая граница - выборочное среднее плюс 1.96 стандартных ошибок, левая граница - выборочное среднее минус 1.96 стандартных ошибок.

Определение границ доверительного интервала

50:47
  • Правая граница: 100 + 1.96 * 0.5 = 100.98.
  • Левая граница: 100 - 1.96 * 0.5 = 99.02.
  • Интервал с 95% уверенностью содержит среднее генеральной совокупности.

Увеличение уверенности в интервале

51:38
  • Для 99% уверенности интервал должен быть шире: выборочное среднее плюс-минус 2.58 стандартных ошибок.
  • Доверительные интервалы широко применяются в статистике для оценки параметров генеральной совокупности.
  • Существуют разногласия в интерпретации доверительных интервалов, рекомендуется изучить пост коллеги по этой теме.

Применение доверительных интервалов

53:33
  • Доверительные интервалы помогают оценивать неизвестные параметры генеральной совокупности.
  • В большинстве случаев нас интересуют конкретные гипотезы, например, о продолжительности жизни или влиянии нового лекарства.

Статистическая проверка гипотез

54:01
  • Пример: проверка влияния нового препарата на срок выздоровления.
  • Нулевая гипотеза: препарат не влияет на выздоровление, альтернативная гипотеза: препарат влияет.
  • Если нулевая гипотеза верна, выборочное среднее должно быть распределено нормально вокруг среднего генеральной совокупности.

Расчет отклонения выборочного среднего

55:55
  • Зет-преобразование: выборочное среднее минус среднее генеральной совокупности, деленное на стандартную ошибку среднего.
  • Результат: -3, что означает отклонение на -3 сигмы.
  • Вероятность отклонения на -3 сигмы или больше составляет около 3 тысячных.

Итоги первого этапа

57:51
  • На первом этапе предположили, что верна нулевая гипотеза.
  • Выборочное среднее оказалось равным 18.5, что отклоняется от среднего генеральной совокупности 20.
  • Вероятность такого отклонения составляет около 0.0003.
  • Основная идея статистического вывода: сначала допускаем нулевую гипотезу, затем рассчитываем вероятность случайных различий.

Уровень значимости

58:47
  • Уровень значимости помогает определить, какую гипотезу считать наиболее состоятельной.
  • Чем меньше уровень значимости, тем больше оснований отклонить нулевую гипотезу.
  • Если уровень значимости меньше 0.05, можно принять альтернативную гипотезу.
  • Если уровень значимости больше 0.05, оснований для отклонения нулевой гипотезы недостаточно.

Двусторонний уровень значимости

59:45
  • Вероятность учитывает оба конца распределения, так как неизвестно, в какую сторону будет отклонение.
  • Используется двусторонний уровень значимости, учитывающий отклонения в обе стороны.
  • Иногда используется односторонний критерий, но это редкость.

Некорректные интерпретации уровня значимости

1:00:44
  • Уровень значимости не говорит о вероятности нулевой гипотезы.
  • Пример с монеткой: вероятность выпадения орла 10 раз подряд равна 0.001, но это не означает, что монетка нечестная.
  • Уровень значимости не сообщает о силе эффекта или величине различий.

Уровень значимости больше 0.05

1:01:43
  • Если уровень значимости больше 0.05, недостаточно оснований для отклонения нулевой гипотезы.
  • Это не означает, что нулевая гипотеза верна с вероятностью 70% или 30%.
  • Уровень значимости просто не позволяет отклонить нулевую гипотезу.

Заключение первой недели

1:02:48
  • Уровень значимости не говорит о правильности или ценности результатов.
  • Статистика — это инструмент, который может подтвердить любую гипотезу.
  • Ошибки первого и второго рода: отклонение нулевой гипотезы, когда она верна, и не отклонение, когда верна альтернативная гипотеза.
  • Ошибки влияют на процедуру статистической проверки гипотез.