#022 ML Татьяна Шаврина. Эволюция подходов к обработке естественного языка (NLP)

YOUTUBE · 28.11.2025 08:16

Ключевые темы и таймкоды

Введение

0:00
  • Михаил приветствует Татьяну, эксперта по технологиям Сбербанка и НЛП, и начинает разговор.

Биография Татьяны

0:59
  • Татьяна рассказывает о своем образовании в МГУ, интересе к языкам и лингвистике, а также о своем опыте работы в области машинного обучения и искусственного интеллекта.

Афоризм об увольнении лингвистов

1:57
  • Татьяна упоминает известный афоризм о том, что качество системы возрастает после увольнения лингвиста, который объясняет, что статистический перевод стал более популярным из-за его обобщающей способности и простоты в использовании.

НЛП и его применение

3:53
  • Татьяна объясняет, что НЛП является большим направлением, которое включает в себя смежные области, такие как нейронауки.
  • Она считает, что технологии, связанные с обработкой языка, могут стать ключевыми для построения сильного искусственного интеллекта, поскольку язык является ключом к человеческому мышлению и пониманию логики.

Эволюция НЛП

4:48
  • Татьяна рассказывает о развитии НЛП, начиная с исправления опечаток в компьютерных программах и заканчивая современными методами обработки естественного языка.
  • В 1960-х годах появились первые статистические модели для обработки текстов, а в 1990-х годах стали собирать национальные корпуса языков.

Модель Ворту-Век

10:26
  • Ворту-Век позволяет эффективно сжимать огромные векторы слов до размерности в несколько сотен признаков, сохраняя при этом их интерпретацию.
  • Это позволяет обрабатывать большие объемы текстовых данных и строить хорошие статистики.

Размерность вектора и вероятностная модель

16:13
  • Видео объясняет, что размерность вектора в миллион используется для размещения всех слов в пространстве и сохранения отношений между ними.
  • Сложность работы с вероятностной моделью связана с низкой частотой слов и необходимостью преобразований для сохранения вероятностей.

Модель мешка слов и ворту век

19:47
  • Модель мешка слов используется для подсчета абсолютных частот встречаемости слов в корпусе.
  • Ворту век - алгоритм снижения размерности, который предсказывает текущее слово, исходя из слов справа и слева, или предсказывает слова справа и слева, исходя из текущего слова.
  • Ворту век используется для классификации текстов, извлечения информации и разметки текста.

Использование ворту века в современных технологиях

24:37
  • Современные инонимайзеры используют ворту век для определения похожих слов и контекстов.
  • Ворту век может быть использован как модель для получения вектора признаков слов в большой нейросетевой архитектуре.

Проблемы с использованием LSTM и рекуррентных сетей

27:31
  • LSTM и рекуррентные сети имеют проблемы с параллельной обработкой и забывают информацию о том, что происходит в прошлом.
  • Автокодерные модели и авторегрессивные модели решают эту проблему, анализируя всю последовательность сразу.

Механизм внимания и его применение

28:29
  • Механизм внимания позволяет модели выучить однозначное соответствие между словами в разных языках.
  • Визуализация механизма внимания позволяет интерпретировать результаты.

Обучение на больших корпусах и разреженное внимание

30:26
  • Разреженное внимание позволяет модели изучать язык, не забывая о том, что происходило в прошлом.
  • Мультиязычность и байт-кодирование позволяют обучать модели на всех языках одновременно.

Байт-кодирование и его преимущества

32:19
  • Байт-кодирование позволяет кодировать символы и последовательности символов в одно число, что упрощает обучение мультиязычных моделей.
  • Байт-кодирование помогает родственным языкам дополнять друг друга при обучении.

Мультиязычные модели и большие генеративные модели

35:42
  • Мультиязычные модели позволяют обучать модели на разных языках, что особенно важно для малоресурсных языков.
  • Большие генеративные модели, такие как GPT-3, используются для генерации текста, распознавания речи, автоматического перевода и других задач.

Проблема достоверности знаний в языковых моделях

41:06
  • Языковые модели не всегда могут определить, какие знания достоверны, и это требует дополнительных исследований и обучения.
  • В настоящее время, языковые модели проходят обучение по надежным источникам, таким как Википедия, но это не всегда достаточно для определения достоверности знаний.

Нейросетевые подходы в реформе

46:59
  • Татьяна обсуждает использование нейросетей в реформе, особенно в контексте игр, где игроки могут общаться с помощью текстовых команд.
  • Она объясняет, что языковые модели могут быть использованы для определения лучшего действия в заданной среде.

Изучение языков животных

52:12
  • Татьяна обсуждает возможность создания переводчика с языка животных на человеческий язык.
  • Она отмечает, что у животных есть сигнальные системы, но не языки в полном смысле этого слова.

Советы по изучению НЛП

57:29
  • Татьяна рекомендует изучить классические методы НЛП, такие как корпусный поиск и статистический анализ.
  • Она также советует посмотреть онлайн-курсы по НЛП, такие как курс Андрея Карпаты и кембриджский курс.

Важность практики в машинном обучении

1:00:19
  • Спикер подчеркивает, что практика играет ключевую роль в машинном обучении.
  • Он отмечает, что важно иметь сбалансированную практику, работая с крупными библиотеками, такими как трансформеры, чтобы понять их особенности и минусы.
  • Спикер также упоминает, что задачи машинного обучения можно разделить на три категории: секту-сек, скон с лейблинг и классификация.
  • Он подчеркивает, что важно получить практику по всем трем задачам, а также по специализированным областям, таким как распознавание речи и генерация.

Заключение и благодарность

1:01:18
  • Спикер благодарит Татьяну за ее вклад в подкаст и надеется, что после этого выпуска больше молодых специалистов заинтересуется машинным обучением.
  • Он также благодарит слушателей за их поддержку и призывает их оставить отзывы и оценки на платформах подкастов.
  • В заключение, спикер призывает подписаться на его телеграм-канал и обещает услышаться в следующем выпуске.