OpenAI описывает метод мониторинга «цепочек рассуждений» — внутренних шагов, которые агенты выполняют при написании кода — для изучения возможной смещённости в их поведении. Компания подчёркивает, что такой подход даёт контекст для оценки принятия решений агентами.

В публикации отмечено, что анализируется поведение агентов в реальных развертываниях с целью обнаружения потенциальных рисков и укрепления мер безопасности ИИ. Подробные метрики и конкретные результаты в статье не приводятся.