MarkTechPost
TriAttention от MIT, NVIDIA и Zhejiang University: сжатие KV‑кеша с пропускной способностью в 2,5 раза выше
Метод TriAttention сжимает KV‑кеш, достигая точности, сопоставимой с полным вниманием, и повышая пропускную способность в 2,5×.
Почему это важно
Это решение может позволить разработчикам и операторам LLM обрабатывать более длинные контексты с меньшими задержками и меньшими требованиями к памяти KV‑кеша, что упростит развёртывание моделей для задач длительного рассуждения.