Полный Пайплайн (Pipeline) || Машинное Обучение

0:00

В видео автор использует код из предыдущих уроков для загрузки датасета Титаник и его разделения на тренировочные и тестовые наборы.
Он также обрабатывает отсутствующие значения в данных, заменяя их средним значением по соответствующему признаку.

3:33

Автор объединяет признаки "семья" и "родственники" в один признак "семья" для лучшего понимания их взаимосвязи.
Он также объединяет признаки "каюта" и "секс" в бинарные признаки "каюта" и "секс".

8:28

Автор сохраняет обработанные данные в формате CSV и подготавливает их для машинного обучения.
Он также объясняет, как использовать сохраненные данные в последующих этапах разработки.

12:30

Удаление ненужных признаков (ке, эмбаркт, нейм, тикет) и сохранение данных в новом дата-фрейме.
Разделение данных на тренировочные, валидационные и тестовые наборы с помощью функции split.

22:30

Импорт кросс-валидации и модели случайного леса.
Разбиение тренировочных данных на 5 частей для обучения модели и оставшаяся часть для тестирования.
Процедура повторяется 5 раз, меняя местами части данных для обучения и тестирования.

23:54

В видео объясняется процесс кросс-валидации и настройки гиперпараметров для случайного леса классификатора.
Сначала импортируются необходимые библиотеки и функции, затем объявляются переменные для тренировочных данных и меток.
Затем создается экземпляр случайного леса классификатора и вызывается функция кросс-валидации.
Функция кросс-валидации принимает в качестве параметров классификатор, тренировочные данные и метки, а также количество частей для разбиения данных.
В результате работы функции получается массив значений, который затем усредняется для получения финального результата.

28:27

В видео описывается процесс настройки гиперпараметров случайного леса классификатора.
Гиперпараметры включают количество деревьев, максимальную глубину каждого дерева и другие параметры.
Затем вызывается функция с указанными гиперпараметрами и кросс-валидацией, после чего результат сохраняется в переменную.
В конце видео демонстрируется вывод результатов работы функции, который затем может быть преобразован в удобоваримый вид с помощью отдельной репрезентативной функции.

31:31

Функция резал принимает результаты и выдает среднее арифметическое значение и стандартное отклонение.
Выбор оптимальных гиперпараметров для модели случайного леса.

34:02

38:42

44:04

Модель рф-1 с максимальной глубиной для деревьев 12 и количеством деревьев 50 обладает лучшими показателями.
Применение модели рф-1 на тестовом наборе для оценки метрик.

Ключевые темы и таймкоды