Введение в регуляризацию 0:06 Обсуждение проблем при обучении линейных моделей. Проблема зашумлённых данных и выбросов. Проблема мультиколлинеарности линейно зависимых столбцов в матрице признаков.
Определение регуляризации 2:22 Регуляризация как метод борьбы с переобучением и мультиколлинеарностью. Введение штрафа за большие веса модели.
Виды регуляризации 3:00 L1-регуляризация: учёт суммы модулей весов. L2-регуляризация: учёт суммы квадратов весов. Elastic Net: комбинация L1 и L2 с разными коэффициентами.
Реализация L2-регуляризации 4:03 Добавление слагаемого в функцию потерь для учёта L2-нормы весов. Роль гиперпараметра λ в степени регуляризации.
Проблемы с данными разного масштаба 5:01 Неравномерный вклад весов в модель при разных масштабах данных. Необходимость стандартизации данных для равномерного штрафа.
Стандартизация данных 6:39 Процесс стандартизации данных в Scikit-learn. Влияние стандартизации на относительные штрафы за веса.
Особенности L2-регрессии 7:28 Отсутствие усреднения в функции потерь. Влияние размера выборки на подбор гиперпараметра.
Аналитическое решение L2-регрессии 9:24 Дифференцируемость функции потерь и наличие аналитического решения. Зануление свободного члена для избежания штрафа.
Реализация SGD для L2-регрессии 13:00 Усреднение функции потерь по размеру батча. Сходимость SGD и его эффективность.
L1-регуляризация 15:51 Формула L1-регуляризации и проблема недифференцируемости модуля. Реализация SGD с сглаженной функцией модуля.
Результаты L1-регуляризации 19:36 Сравнение коэффициентов с результатами Scikit-learn. Улучшение предсказания по сравнению с L2-регрессией. Небольшие отклонения в отдельных моментах обучения.
Различия между Ridge и Lasso регрессией 20:30 В Lasso регрессии задача минимизации функции потерь сводится к минимизации функции на эллипсах при условии, что веса лежат внутри квадрата. В Ridge регрессии задача аналогична, но сумма квадратов весов должна быть меньше константы, и веса лежат внутри круга. В Lasso часто встречаются решения, при которых веса равны нулю, что позволяет отбирать признаки для обучения. Ridge регрессия не зануляет веса модели и имеет аналитическое решение.
Применение на реальных данных 24:17 Используется набор данных «Ирис Фишера» для классификации трёх сортов ирисов. Визуализация данных с помощью библиотеки Seaborn показывает, что класс 0 хорошо отделяется от других, а классы 1 и 2 — хуже.
Регуляризация в логистической регрессии 26:49 Логистическая регрессия требует использования регуляризации для предотвращения резкого изменения вероятностей принадлежности класса. Без регуляризации вероятности будут почти всегда равны 0 или 1, что затрудняет интерпретацию результатов. Регуляризация позволяет более плавно менять вероятности, улучшая качество классификации.
Использование пайплайна 29:37 Пайплайн позволяет последовательно применять операции, такие как стандартизация данных и логистическая регрессия. Это упрощает работу с моделью и позволяет легко изменять параметры.
Результаты моделирования 37:04 Модель обучена с параметром C, который штрафует за большие веса. На тестовой выборке модель показывает неплохой результат, хотя и немного хуже, чем на обучающей. Визуализация плоскостей показывает, что класс 0 отделяется лучше всего, а классы 1 и 2 — хуже.
Заключение 39:33 Подведены итоги изучения линейной логистической регрессии, аналитических решений и регуляризации. Обсуждены виды регуляризации и их применение на практике. Благодарность за внимание и прощание.