Stanford CS229 Машинное обучение I Самостоятельное обучение I 2022 I Лекция 16

YOUTUBE · 21.11.2025 18:28

Ключевые темы и таймкоды

Обучение без меток

0:04

В последние годы в области искусственного интеллекта наблюдается смещение парадигмы от обучения с использованием меток к обучению без меток.
Это позволяет использовать большие объемы данных без меток и масштабировать обучение.

Предварительная подготовка и адаптация

4:03

Предварительная подготовка включает в себя обучение на больших объемах данных без меток, используя большую модель.
Адаптация включает в себя обучение модели на последующих задачах, используя небольшой объем данных с метками.
Цель предварительной подготовки - изучить общую структуру данных и использовать ее для последующих задач.

Базовая модель и адаптация

9:19

Базовая модель - это модель, которая предварительно подготовлена на основе немаркированных данных и может выполнять множество различных задач.
Адаптация - это процесс обучения модели на последующих задачах с использованием небольшого объема данных с метками.

Предварительная подготовка модели

10:52

Модель представляет собой функцию, сопоставляющую входные данные с выходными.
Входные данные могут быть текстом, изображением или лекцией.
Модель изучается без меток, используется функция потерь для оптимизации модели.

Адаптация модели

15:30

Адаптация модели к новым задачам с использованием помеченных данных.
Линейное исследование: применение линейного классификатора к функции, предсказывающей метку.
Оптимизация вектора w для соответствия новой задаче.

Трансферное обучение

22:34

Термин "передаточное обучение" использовался в начале 2000-х годов.
В наши дни, когда используется предварительная подготовка, это означает предварительную настройку на набор данных меток и адаптацию к новым задачам.
Задача может быть совсем не похожа на последующие задачи, и нет меток для обучения.

Предварительная подготовка и тонкая настройка

24:16

Обсуждение методов предварительной подготовки и тонкой настройки для обучения моделей.
Предварительная подготовка - использование немаркированных данных для обучения модели, тонкая настройка - использование помеченных данных для оптимизации модели.

Контрастивное обучение

34:20

Контрастивное обучение - обучение без использования ярлыков, с использованием увеличения данных для создания искусственных примеров.
Увеличение данных - преобразование одного изображения в другое, используя различные операции, такие как обрезка, изменение цвета и т.д.
Применение контрастивного обучения для немаркированных данных.

Обучение без присмотра

37:52

В процессе обучения без присмотра используется принцип проектирования, который позволяет создавать неожиданные потери.
Функция потерь состоит из двух частей: одна часть стремится к тому, чтобы два дополнения имели схожие представления, а другая часть стремится к тому, чтобы случайные пары имели разные представления.

Функция потерь

43:24

Функция потерь определяется как логарифм минус внутренний продукт между двумя дополнениями.
Цель функции потерь - сделать так, чтобы изображения, соответствующие одному и тому же примеру, были как можно ближе друг к другу, а изображения, соответствующие разным примерам, были как можно дальше друг от друга.

Интерпретация функции потерь

50:21

Функция потерь может быть интерпретирована как вопрос о классификации по нескольким классам или как вопрос о том, какой из примеров наиболее коррелирует с другим примером.
Точная форма функции потерь не так важна, как принцип проектирования, который используется для создания неожиданных потерь.

Трансформация и предварительная подготовка

53:24

В видео обсуждается процесс трансформации и предварительной подготовки данных для обучения языковой модели.
Трансформация используется для преобразования чисел в буквы, а предварительная подготовка включает в себя отбрасывание последних слоев и использование оставшейся сети для классификации изображений.

Кодирование данных и вероятностная модель

56:49

Обсуждается процесс кодирования данных в виде последовательности слов и использование вероятностной модели для представления совместной вероятности данных.
Модель использует правило цепочки для вычисления условной вероятности и параметрическую форму для моделирования условной вероятности.

Создание и использование языковой модели

1:02:31

Создается языковая модель с использованием сети и трансформатора для кодирования и предсказания условной вероятности.
Трансформатор принимает последовательность векторов и выдает последовательность векторов, которые затем используются для вычисления условной вероятности.

Векторы и предсказания

1:05:53

В видео объясняется, как предсказать вероятность p(x|x1, x2, ..., xt) для каждого слова x, учитывая предыдущие слова x1, x2, ..., xt.
Для этого используется вектор c, который зависит только от предыдущих слов.
Затем вычисляется вектор wt, который умножается на вектор c, чтобы получить вероятностный прогноз.

Определение softmax

1:08:25

В видео дается определение softmax, которое используется для преобразования вектора в вероятностный прогноз.
Softmax - это экспоненциальное умножение вектора на сумму экспоненциальных элементов вектора.

Авторегрессионный трансформатор

1:10:25

В видео объясняется, что авторегрессионный трансформатор - это модель, в которой вектор c зависит только от предыдущих слов, что позволяет предсказывать вероятность для каждого слова, не видя других слов после него.

Функция потерь

1:13:10

После определения вероятностного прогноза, необходимо определить функцию потерь, которая включает все параметры, включая w, тета и e.
Функция потерь - это перекрестная потеря энтропии для всех позиций.

Адаптация языковой модели

1:15:14

В видео обсуждается, как адаптировать языковую модель к последующим задачам, таким как тонкая настройка и линейный зонд.
Модель может быть использована для генерации следующего слова, учитывая предыдущее слово и контекст.

Обучение с нулевым результатом

1:17:02

Обучение с нулевым результатом - это способ адаптации модели, где задача задается в виде вопросов или тестов.
Модель генерирует следующее слово, учитывая предыдущий вопрос или тест.

Обучение в контексте

1:19:52

Обучение в контексте - это метод, при котором примеры объединяются в последовательность токенов, называемую "подсказкой".
Модель обучается на этих примерах, генерируя следующее слово, учитывая предыдущее слово и контекст.