Stanford CS229 Машинное обучение I Самостоятельное обучение I 2022 I Лекция 16

YOUTUBE · 21.11.2025 18:28

Ключевые темы и таймкоды

Обучение без меток

0:04
  • В последние годы в области искусственного интеллекта наблюдается смещение парадигмы от обучения с использованием меток к обучению без меток.
  • Это позволяет использовать большие объемы данных без меток и масштабировать обучение.

Предварительная подготовка и адаптация

4:03
  • Предварительная подготовка включает в себя обучение на больших объемах данных без меток, используя большую модель.
  • Адаптация включает в себя обучение модели на последующих задачах, используя небольшой объем данных с метками.
  • Цель предварительной подготовки - изучить общую структуру данных и использовать ее для последующих задач.

Базовая модель и адаптация

9:19
  • Базовая модель - это модель, которая предварительно подготовлена на основе немаркированных данных и может выполнять множество различных задач.
  • Адаптация - это процесс обучения модели на последующих задачах с использованием небольшого объема данных с метками.

Предварительная подготовка модели

10:52
  • Модель представляет собой функцию, сопоставляющую входные данные с выходными.
  • Входные данные могут быть текстом, изображением или лекцией.
  • Модель изучается без меток, используется функция потерь для оптимизации модели.

Адаптация модели

15:30
  • Адаптация модели к новым задачам с использованием помеченных данных.
  • Линейное исследование: применение линейного классификатора к функции, предсказывающей метку.
  • Оптимизация вектора w для соответствия новой задаче.

Трансферное обучение

22:34
  • Термин "передаточное обучение" использовался в начале 2000-х годов.
  • В наши дни, когда используется предварительная подготовка, это означает предварительную настройку на набор данных меток и адаптацию к новым задачам.
  • Задача может быть совсем не похожа на последующие задачи, и нет меток для обучения.

Предварительная подготовка и тонкая настройка

24:16
  • Обсуждение методов предварительной подготовки и тонкой настройки для обучения моделей.
  • Предварительная подготовка - использование немаркированных данных для обучения модели, тонкая настройка - использование помеченных данных для оптимизации модели.

Контрастивное обучение

34:20
  • Контрастивное обучение - обучение без использования ярлыков, с использованием увеличения данных для создания искусственных примеров.
  • Увеличение данных - преобразование одного изображения в другое, используя различные операции, такие как обрезка, изменение цвета и т.д.
  • Применение контрастивного обучения для немаркированных данных.

Обучение без присмотра

37:52
  • В процессе обучения без присмотра используется принцип проектирования, который позволяет создавать неожиданные потери.
  • Функция потерь состоит из двух частей: одна часть стремится к тому, чтобы два дополнения имели схожие представления, а другая часть стремится к тому, чтобы случайные пары имели разные представления.

Функция потерь

43:24
  • Функция потерь определяется как логарифм минус внутренний продукт между двумя дополнениями.
  • Цель функции потерь - сделать так, чтобы изображения, соответствующие одному и тому же примеру, были как можно ближе друг к другу, а изображения, соответствующие разным примерам, были как можно дальше друг от друга.

Интерпретация функции потерь

50:21
  • Функция потерь может быть интерпретирована как вопрос о классификации по нескольким классам или как вопрос о том, какой из примеров наиболее коррелирует с другим примером.
  • Точная форма функции потерь не так важна, как принцип проектирования, который используется для создания неожиданных потерь.

Трансформация и предварительная подготовка

53:24
  • В видео обсуждается процесс трансформации и предварительной подготовки данных для обучения языковой модели.
  • Трансформация используется для преобразования чисел в буквы, а предварительная подготовка включает в себя отбрасывание последних слоев и использование оставшейся сети для классификации изображений.

Кодирование данных и вероятностная модель

56:49
  • Обсуждается процесс кодирования данных в виде последовательности слов и использование вероятностной модели для представления совместной вероятности данных.
  • Модель использует правило цепочки для вычисления условной вероятности и параметрическую форму для моделирования условной вероятности.

Создание и использование языковой модели

1:02:31
  • Создается языковая модель с использованием сети и трансформатора для кодирования и предсказания условной вероятности.
  • Трансформатор принимает последовательность векторов и выдает последовательность векторов, которые затем используются для вычисления условной вероятности.

Векторы и предсказания

1:05:53
  • В видео объясняется, как предсказать вероятность p(x|x1, x2, ..., xt) для каждого слова x, учитывая предыдущие слова x1, x2, ..., xt.
  • Для этого используется вектор c, который зависит только от предыдущих слов.
  • Затем вычисляется вектор wt, который умножается на вектор c, чтобы получить вероятностный прогноз.

Определение softmax

1:08:25
  • В видео дается определение softmax, которое используется для преобразования вектора в вероятностный прогноз.
  • Softmax - это экспоненциальное умножение вектора на сумму экспоненциальных элементов вектора.

Авторегрессионный трансформатор

1:10:25
  • В видео объясняется, что авторегрессионный трансформатор - это модель, в которой вектор c зависит только от предыдущих слов, что позволяет предсказывать вероятность для каждого слова, не видя других слов после него.

Функция потерь

1:13:10
  • После определения вероятностного прогноза, необходимо определить функцию потерь, которая включает все параметры, включая w, тета и e.
  • Функция потерь - это перекрестная потеря энтропии для всех позиций.

Адаптация языковой модели

1:15:14
  • В видео обсуждается, как адаптировать языковую модель к последующим задачам, таким как тонкая настройка и линейный зонд.
  • Модель может быть использована для генерации следующего слова, учитывая предыдущее слово и контекст.

Обучение с нулевым результатом

1:17:02
  • Обучение с нулевым результатом - это способ адаптации модели, где задача задается в виде вопросов или тестов.
  • Модель генерирует следующее слово, учитывая предыдущий вопрос или тест.

Обучение в контексте

1:19:52
  • Обучение в контексте - это метод, при котором примеры объединяются в последовательность токенов, называемую "подсказкой".
  • Модель обучается на этих примерах, генерируя следующее слово, учитывая предыдущее слово и контекст.