Новая архитектура Transformer учится, когда «думать», а когда запоминать
Немецкая команда предложила механизм, в котором модель сама определяет число итераций рассуждения и использует дополнительную память.

Ключевые тезисы
- 01
Немецкая исследовательская группа представила адаптивный Transformer, который сам решает, сколько раз «думать» над задачей и комбинирует это с внешней памятью; в экспериментах на…
- 02
Немецкая команда предложила механизм, в котором модель сама определяет число итераций рассуждения и использует дополнительную память.
- 03
Если идея подтвердится в более широких тестах, адаптивное управление числом итераций рассуждения вместе с памятью может позволить меньшим моделям достигать уровня…
Что произошло
Немецкая исследовательская группа представила адаптивный Transformer, который сам решает, сколько раз «думать» над задачей и комбинирует это с внешней памятью; в экспериментах на математике такой подход превзошёл более крупные модели.
Почему это важно
Если идея подтвердится в более широких тестах, адаптивное управление числом итераций рассуждения вместе с памятью может позволить меньшим моделям достигать уровня производительности крупных в задачах, требующих логики и рассуждений, сокращая вычислительные затраты и давая новый путь к повышению эффективности моделей.
Контекст
Немецкая исследовательская группа разработала модификацию архитектуры Transformer, где модель адаптивно выбирает число итераций рассуждения для каждого входа, то есть самостоятельно решает, «сколько раз думать» над задачей, и при этом использует дополнительный модуль памяти. Как сообщает The Decoder (публикация от 22 марта 2026 года), в их испытаниях сочетание адаптивных итераций рассуждения и внешней памяти показало лучшие результаты на математических задачах по сравнению с более крупными моделями, хотя в статье не приводятся подробные метрические значения или названия датасетов.
Детали
Подход подчёркивает разделение между задачами, требующими итеративного вычисления и рассуждения, и задачами, где критична долговременная память: модель решает, когда стоит потратить ресурс на дополнительные итерации, а когда опереться на сохранённые знания. Работа предлагает альтернативу чистому масштабированию моделей: вместо увеличения числа параметров исследователи используют управляемую стратегию рассуждения и внешнюю память, что потенциально меняет приоритеты в оптимизации архитектур и распределении вычислительных ресурсов.


