Основные фичи
- Несколько candidates запускаются параллельно, чтобы не зависеть от удачи одного агента.
- Победителя выбирают тесты и verification, а не LLM self-report.
- Sandbox + isolated worktrees защищают
.env, production и main.
- Durable state +
resume / retry / cancel / provide: Ctrl-C и crash не убивают run.
- Repair-loop с эскалацией на более сильную модель.
- Разные модели на разные фазы: analysis, code, review.
- Память между запусками: constitution, repair-lessons, exemplars.
- Review gates по changed paths: миграции требуют operability, auth требует security.
cost.jsonl + audit chain показывают токены и действия агента.
- Rate limit + circuit breaker не дают 429 уйти в бесконечную дорогую петлю.
Failure modes
- Нечеткая задача без acceptance criteria уходит в
Blocked или NeedsInput.
- Backend может сказать "готово", но patch не применяется, тесты падают, изменены не те файлы или нет artifact.
- Слишком большой context дает таймауты, зависания subprocess и деградацию качества.
- Codex/Claude CLI как backend может зависнуть, вернуть пустой output или не записать expected artifact.
- Если sandbox required, но runtime недоступен, нужен preflight fail до worktree и agent run.
- Baseline может быть уже красным; нужна baseline comparison.
- Хороший candidate patch может не примениться к target branch из-за base drift.
- Publish имеет side effects: branch уже push, PR создан, а comment/label update упал.