Проект Mamba-3 был представлен исследователями из Carnegie Mellon и Princeton и описан в материале MarkTechPost от 19 марта 2026 года. Модель позиционируется как новая реализация модели пространств состояний (SSM) с состояниями в 2× меньшего размера и улучшенной аппаратной эффективностью MIMO‑декодинга.

Авторы отмечают, что по мере того как вычисления в момент инференса становятся ключевым фактором производительности больших языковых моделей, архитектуры начинают смещать акцент в сторону эффективности инференса. Традиционные трансформеры остаются доминирующими, но их квадратичная сложность по вычислениям и линейные требования к памяти создают узкие места при развёртывании, что и мотивирует разработку решений вроде Mamba-3, нацеленных на снижение вычислительных затрат при инференсе.