AI digest за 11 апреля

MarkTechPost

TriAttention от MIT, NVIDIA и Zhejiang University: сжатие KV‑кеша с пропускной способностью в 2,5 раза выше

Метод TriAttention сжимает KV‑кеш, достигая точности, сопоставимой с полным вниманием, и повышая пропускную способность в 2,5×.

Почему это важно

Это решение может позволить разработчикам и операторам LLM обрабатывать более длинные контексты с меньшими задержками и меньшими требованиями к памяти KV‑кеша, что упростит развёртывание моделей для задач длительного рассуждения.