TriAttention от MIT, NVIDIA и Zhejiang University: сжатие KV‑кеша с пропускной способностью в 2,5 раза выше
Метод TriAttention сжимает KV‑кеш, достигая точности, сопоставимой с полным вниманием, и повышая пропускную способность в 2,5×.

Коротко по делу
- 01
11 апреля 2026 года исследователи из MIT, NVIDIA и Zhejiang University представили TriAttention — алгоритм компрессии KV‑кеша, который, по их данным, сопоставим по точности с…
- 02
11 апреля 2026 года команда исследователей из MIT, NVIDIA и Zhejiang University предложила TriAttention — метод сжатия KV‑кеша.
- 03
KV‑кеш хранит ключи и значения для ранее сгенерированных токенов и становится узким местом при длинных цепочках рассуждений: модели могут генерировать десятки тысяч токенов, и…
Что произошло
11 апреля 2026 года исследователи из MIT, NVIDIA и Zhejiang University представили TriAttention — алгоритм компрессии KV‑кеша, который, по их данным, сопоставим по точности с полным механизмом внимания и обеспечивает в 2,5 раза большую пропускную способность при обработке…
Почему это важно
Это решение может позволить разработчикам и операторам LLM обрабатывать более длинные контексты с меньшими задержками и меньшими требованиями к памяти KV‑кеша, что упростит развёртывание моделей для задач длительного рассуждения.
Контекст
11 апреля 2026 года команда исследователей из MIT, NVIDIA и Zhejiang University предложила TriAttention — метод сжатия KV‑кеша. Авторы заявляют, что TriAttention сохраняет точность полного attention и одновременно повышает пропускную способность в 2,5 раза.
Детали
KV‑кеш хранит ключи и значения для ранее сгенерированных токенов и становится узким местом при длинных цепочках рассуждений: модели могут генерировать десятки тысяч токенов, и каждый токен добавляет нагрузку на память и пропускную способность. В тексте исследования авторы приводят TriAttention как способ уменьшить объём KV‑кеша без потери качества.
Что это меняет
Практически, при подтверждении результатов в независимых бенчмарках TriAttention может ускорить инференс на длинных контекстах и снизить требования к пропускной способности аппаратуры при деплое больших моделей, сохраняя сопоставимую точность с полным attention.






