Лекция. Языковое моделирование: N-граммные модели.

YOUTUBE · 01.12.2025 09:40

Ключевые темы и таймкоды

Введение

0:06
  • Обсуждение задачи языкового моделирования с помощью энграммных языковых моделей.
  • План занятия: определение энграмм, обучение моделей, практическое использование, плюсы и минусы.

Определение энграмм

0:42
  • Энграмма — это последовательность из n подряд идущих слов в тексте.
  • Пример: текст «студенты на паре открыли свои книги» содержит однограммы, биграммы и триграммы.

Алгоритм обучения энграммной модели

1:31
  • Выбор параметра n для определения величины контекста.
  • Разбиение текста на энграммы.
  • Подсчёт частоты встречаемости каждой энграммы.
  • Пример расчёта вероятности следующего слова на основе контекста.

Практические аспекты обучения

3:15
  • Вставка служебных токенов в начало и конец предложения.
  • Замена неизвестных слов на токен «юнк».
  • Эти методы применимы не только к энграммным, но и к другим языковым моделям.

Генерация предложений

5:06
  • Генерация предложений с помощью сэмплирования.
  • Проблема генерации несуществующих энграмм при большом порядке n.
  • Сглаживание Лапласа как способ решения проблемы.

Плюсы и минусы энграммных моделей

7:09
  • Плюсы: быстрота работы, простота обучения.
  • Минусы: чувствительность к домену, большой объём памяти, ограниченный контекст, проблема несуществующих энграмм.

Заключение

9:54
  • Подведение итогов: определение энграмм, практические аспекты, плюсы и минусы.