Введение 0:06 Обсуждение задачи языкового моделирования с помощью энграммных языковых моделей. План занятия: определение энграмм, обучение моделей, практическое использование, плюсы и минусы.
Определение энграмм 0:42 Энграмма — это последовательность из n подряд идущих слов в тексте. Пример: текст «студенты на паре открыли свои книги» содержит однограммы, биграммы и триграммы.
Алгоритм обучения энграммной модели 1:31 Выбор параметра n для определения величины контекста. Разбиение текста на энграммы. Подсчёт частоты встречаемости каждой энграммы. Пример расчёта вероятности следующего слова на основе контекста.
Практические аспекты обучения 3:15 Вставка служебных токенов в начало и конец предложения. Замена неизвестных слов на токен «юнк». Эти методы применимы не только к энграммным, но и к другим языковым моделям.
Генерация предложений 5:06 Генерация предложений с помощью сэмплирования. Проблема генерации несуществующих энграмм при большом порядке n. Сглаживание Лапласа как способ решения проблемы.
Плюсы и минусы энграммных моделей 7:09 Плюсы: быстрота работы, простота обучения. Минусы: чувствительность к домену, большой объём памяти, ограниченный контекст, проблема несуществующих энграмм.