Объяснены модели MAMBA и пространства состояний | SSM объяснен

YOUTUBE · 28.11.2025 06:44

Ключевые темы и таймкоды

Введение в Mamba

0:01

Mamba - это модель пространства состояний, которая произвела фурор после своего выхода.
Mamba была отклонена в eClear, но стала популярной благодаря улучшению моделей пространства состояний SSMS.
Mamba делает SSMS конкурентоспособными с Transformers, улучшая их производительность и потребление памяти.

Основы моделей пространства состояний SSMS

1:47

SSMS работают как линейные RNN, обрабатывая токены один за другим.
SSMS имеют четыре набора матриц и параметров: delta, a, b и c.
Delta изменяет веса в матрицах a и b, что позволяет SSMS обрабатывать входные данные.

Дискретизация и линейные преобразования

3:19

Delta изменяет матрицы a и b на этапе дискретизации.
SSMS вычисляют скрытое состояние для каждого токена, умножая предыдущее состояние на a и текущее состояние на b.
Для получения окончательного представления токена используется матрица c.

Непрерывные и дискретные SSMS

5:25

SSMS основаны на непрерывных дифференциальных уравнениях, преобразованных в матричные уравнения.
Дискретизация позволяет SSMS работать с дискретными шагами, что улучшает производительность.
Delta определяет размер шага для дискретизации, влияя на точность и производительность.

Преимущества SSMS перед Transformers

8:09

SSMS линейно масштабируются, в отличие от квадратичного масштабирования Transformers.
SSMS могут обрабатывать токены параллельно во время обучения, что ускоряет вычисления.
SSMS не обеспечивают такой высокой точности, как Transformers, из-за негибкости в обработке входных данных.

Селективные SSMS

12:13

Селективные SSMS могут обрабатывать входные токены по-разному, чтобы запоминать или игнорировать определенные данные.
Дельта b и c зависят от встраивания каждого токена, что позволяет фокусироваться на одних маркерах больше, чем на других.
Проблема с зависящими от входных данных параметрами заключается в невозможности использования свертки.

Параллельное ассоциативное сканирование

13:01

Авторы Mamba предлагают параллельное ассоциативное сканирование для быстрого вычисления матричных умножений.
Это основано на алгоритмической идее сохранения промежуточных шагов для быстрого выполнения задач.
Аппаратная реализация ускоряет процесс, преобразуя дельты a, b и c из медленной оперативной памяти GPU в быструю SRAM GPU.

Архитектура Mamba

15:40

Mamba состоит из модуля выборочного пространства состояний и других элементов.
Линейный слой удваивает размерность вложения входного токена, что увеличивает пространство для обмена информацией.
Канонический слой свертки one d перемещает информацию между измерениями и использует функцию активации SELU.

Эффективность Mamba

17:28

Mamba не требует промежуточных слоев, так как может постоянно использовать один и тот же слой.
Mamba так же эффективна, как и трансформеры, и превосходит другие SSMS и модели без внимания.
При увеличении длины последовательности Mamba работает быстрее и эффективнее.

Применение Mamba

19:35

Mamba подходит для задач классификации последовательностей ДНК и авторегрессионного моделирования звука.
Mamba превосходит современные решения в этих областях.
Mamba бросает вызов трансформаторам, работая с различными типами данных.

Заключение

20:46

Mamba возвращает RNNs в виде SSMS, делая их быстрыми и мощными.
Видео заканчивается призывом к подписке и покупке товаров в магазине канала.