Основные фичи
- Spec-first phase: отдельный spec-agent сначала формирует failing tests и план выполнения.
- Bounded coder/review loop: после PR review может вернуть
changes_requested, кодер получает priorReview, число раундов ограничено.
- Structured agent output: reviewer отдает
verdict, reasoning, findings[] с path/line/severity.
- Результат каждого review round публикуется в PR, включая inline-комментарии.
- Human-pause escalations в Linear:
ac-clarification, dep-missing, design-question с deep link в workflow run.
- Human-in-the-loop через Temporal signals: человек отвечает сигналом, workflow продолжается без рестарта.
- Temporal дает retries/backoff, heartbeats, cancellation signals, queryable state, replay behavior и устойчивость к падениям workers.
- Каждый phase attempt выполняется в новом ephemeral container, чтобы снизить state drift и повысить безопасность.
- Pre-warmed per-repo devcontainer images ускоряют cold start.
Failure modes
- На крупных неподготовленных репозиториях без
AGENTS.md, docs и быстрого test feedback агент застревает в долгом цикле фиксов и сжигает лимиты.
- Слабые модели, например Haiku, могут часами зависать в code-review loop.
- Если репозиторий не готов к агентской работе, результат часто плохой: таймауты, плохой код, плохой feedback loop.
- Devcontainers не всегда реально упрощают окружение: они добавляют отдельную конструкцию, которой может не быть в target repo.
Что еще сделали бы
- UI над оркестратором для Temporal signals и основных этапов lifecycle без лишнего шума Temporal UI.
- Evals и статистику по performance на разных задачах и репозиториях.
- Тесты на реальных больших репозиториях.
- Code review несколькими persona с итоговым выводом.