Полный Пайплайн (Pipeline) || Машинное Обучение

YOUTUBE · 28.11.2025 03:44

Ключевые темы и таймкоды

Разделение данных и обработка отсутствующих значений

0:00
  • В видео автор использует код из предыдущих уроков для загрузки датасета Титаник и его разделения на тренировочные и тестовые наборы.
  • Он также обрабатывает отсутствующие значения в данных, заменяя их средним значением по соответствующему признаку.

Объединение категориальных признаков

3:33
  • Автор объединяет признаки "семья" и "родственники" в один признак "семья" для лучшего понимания их взаимосвязи.
  • Он также объединяет признаки "каюта" и "секс" в бинарные признаки "каюта" и "секс".

Сохранение данных и подготовка к машинному обучению

8:28
  • Автор сохраняет обработанные данные в формате CSV и подготавливает их для машинного обучения.
  • Он также объясняет, как использовать сохраненные данные в последующих этапах разработки.

Очистка и подготовка данных

12:30
  • Удаление ненужных признаков (ке, эмбаркт, нейм, тикет) и сохранение данных в новом дата-фрейме.
  • Разделение данных на тренировочные, валидационные и тестовые наборы с помощью функции split.

Кросс-валидация

22:30
  • Импорт кросс-валидации и модели случайного леса.
  • Разбиение тренировочных данных на 5 частей для обучения модели и оставшаяся часть для тестирования.
  • Процедура повторяется 5 раз, меняя местами части данных для обучения и тестирования.

Кросс-валидация и настройка гиперпараметров

23:54
  • В видео объясняется процесс кросс-валидации и настройки гиперпараметров для случайного леса классификатора.
  • Сначала импортируются необходимые библиотеки и функции, затем объявляются переменные для тренировочных данных и меток.
  • Затем создается экземпляр случайного леса классификатора и вызывается функция кросс-валидации.
  • Функция кросс-валидации принимает в качестве параметров классификатор, тренировочные данные и метки, а также количество частей для разбиения данных.
  • В результате работы функции получается массив значений, который затем усредняется для получения финального результата.

Настройка гиперпараметров

28:27
  • В видео описывается процесс настройки гиперпараметров случайного леса классификатора.
  • Гиперпараметры включают количество деревьев, максимальную глубину каждого дерева и другие параметры.
  • Затем вызывается функция с указанными гиперпараметрами и кросс-валидацией, после чего результат сохраняется в переменную.
  • В конце видео демонстрируется вывод результатов работы функции, который затем может быть преобразован в удобоваримый вид с помощью отдельной репрезентативной функции.

Подготовка данных и выбор гиперпараметров

31:31
  • Функция резал принимает результаты и выдает среднее арифметическое значение и стандартное отклонение.
  • Выбор оптимальных гиперпараметров для модели случайного леса.

Применение функции резал и выбор лучшей модели

34:02
  • Функция резал используется для вывода результатов.
  • Выбор трех лучших комбинаций гиперпараметров для моделей рф-1, рф-2 и рф-3.

Оценка моделей на валидационном наборе

38:42
  • Использование метода придикт для предсказаний моделей на валидационном наборе.
  • Сравнение метрик (прикол, престиж) для разных моделей.

Выбор лучшей модели для тестирования

44:04
  • Модель рф-1 с максимальной глубиной для деревьев 12 и количеством деревьев 50 обладает лучшими показателями.
  • Применение модели рф-1 на тестовом наборе для оценки метрик.