The Furnace | Notion

Основные фичи

Spec-first phase: отдельный spec-agent сначала формирует failing tests и план выполнения.
Bounded coder/review loop: после PR review может вернуть changes_requested, кодер получает priorReview, число раундов ограничено.
Structured agent output: reviewer отдает verdict, reasoning, findings[] с path/line/severity.
Результат каждого review round публикуется в PR, включая inline-комментарии.
Human-pause escalations в Linear: ac-clarification, dep-missing, design-question с deep link в workflow run.
Human-in-the-loop через Temporal signals: человек отвечает сигналом, workflow продолжается без рестарта.
Temporal дает retries/backoff, heartbeats, cancellation signals, queryable state, replay behavior и устойчивость к падениям workers.
Каждый phase attempt выполняется в новом ephemeral container, чтобы снизить state drift и повысить безопасность.
Pre-warmed per-repo devcontainer images ускоряют cold start.

На крупных неподготовленных репозиториях без AGENTS.md, docs и быстрого test feedback агент застревает в долгом цикле фиксов и сжигает лимиты.
Слабые модели, например Haiku, могут часами зависать в code-review loop.
Если репозиторий не готов к агентской работе, результат часто плохой: таймауты, плохой код, плохой feedback loop.
Devcontainers не всегда реально упрощают окружение: они добавляют отдельную конструкцию, которой может не быть в target repo.

UI над оркестратором для Temporal signals и основных этапов lifecycle без лишнего шума Temporal UI.
Evals и статистику по performance на разных задачах и репозиториях.
Тесты на реальных больших репозиториях.
Code review несколькими persona с итоговым выводом.