Article

Новая архитектура Transformer учится, когда «думать», а когда запоминать

Немецкая команда предложила механизм, в котором модель сама определяет число итераций рассуждения и использует дополнительную память.

22 марта 2026 г. в 08:31Обновлено: 23 марта 2026 г. в 00:33Global AI News DeskThe Decoder3 мин
Металлический размышляющий робот в профиль держит в руках песочные часы; в прозрачной части его черепа видна сеть нейронных связей. Слева от робота парят подсвеченные блоки памяти/серверы. Кинематографичное освещение, приглушённый фон, сильный фокус на роботе, часах и блоках памяти.
Signal summary

Ключевые тезисы

  • 01

    Немецкая исследовательская группа представила адаптивный Transformer, который сам решает, сколько раз «думать» над задачей и комбинирует это с внешней памятью; в экспериментах на…

  • 02

    Немецкая команда предложила механизм, в котором модель сама определяет число итераций рассуждения и использует дополнительную память.

  • 03

    Если идея подтвердится в более широких тестах, адаптивное управление числом итераций рассуждения вместе с памятью может позволить меньшим моделям достигать уровня…

Что произошло

Немецкая исследовательская группа представила адаптивный Transformer, который сам решает, сколько раз «думать» над задачей и комбинирует это с внешней памятью; в экспериментах на математике такой подход превзошёл более крупные модели.

Почему это важно

Если идея подтвердится в более широких тестах, адаптивное управление числом итераций рассуждения вместе с памятью может позволить меньшим моделям достигать уровня производительности крупных в задачах, требующих логики и рассуждений, сокращая вычислительные затраты и давая новый путь к повышению эффективности моделей.

Long read

Контекст

Немецкая исследовательская группа разработала модификацию архитектуры Transformer, где модель адаптивно выбирает число итераций рассуждения для каждого входа, то есть самостоятельно решает, «сколько раз думать» над задачей, и при этом использует дополнительный модуль памяти. Как сообщает The Decoder (публикация от 22 марта 2026 года), в их испытаниях сочетание адаптивных итераций рассуждения и внешней памяти показало лучшие результаты на математических задачах по сравнению с более крупными моделями, хотя в статье не приводятся подробные метрические значения или названия датасетов.

Детали

Подход подчёркивает разделение между задачами, требующими итеративного вычисления и рассуждения, и задачами, где критична долговременная память: модель решает, когда стоит потратить ресурс на дополнительные итерации, а когда опереться на сохранённые знания. Работа предлагает альтернативу чистому масштабированию моделей: вместо увеличения числа параметров исследователи используют управляемую стратегию рассуждения и внешнюю память, что потенциально меняет приоритеты в оптимизации архитектур и распределении вычислительных ресурсов.

Связанные материалы

Еще по этой теме