🛡️ Sandbox kernel vs hooks app-layer
Os dois resolvem segurança — mas para threats diferentes:
🔒 Codex: kernel sandbox
- Threat model: agente potencialmente adversário
- Syscall negado antes de executar
- Modelo não escapa com prompt criativo
- Restrição binária: permitido ou bloqueado
- Bom pra: auditar código suspeito, rodar scripts não confiáveis
🎛️ Claude: hooks app-layer
- Threat model: agente bem-intencionado mas confiante demais
- Hook intercepta cada tool call
- Pode rodar lint, validar schema, applicar policy
- Programável: lógica de negócio
- Bom pra: seu código, sua equipe, suas convenções
Lição: não é "qual é mais seguro". É "segurança contra o quê". Sandbox protege do agente. Hook protege do agente erra com boa intenção.
⚡ Tokens e velocidade
Diferença prática que compõe ao longo do dia:
| Métrica | Claude Code | Codex CLI |
|---|---|---|
| Tokens / task | baseline | 2-3× menos |
| Tempo / resposta | dezenas de segundos | segundos |
| Custo API | 4× mais caro | baseline |
| Iterações/h | menor | maior |
Implicações práticas
- Task rápida e repetitiva → Codex (composição vale muito)
- Task densa única → Claude (qualidade compensa o custo)
- Pay-per-token tight orçamento → preferência Codex
- Subscription Max/Pro → indiferente, use o melhor
🏆 Benchmarks: SWE-bench vs Terminal-Bench
SWE-bench Verified
Claude Code (Opus 4.6) — campeão.
Benchmark de refator real em repos complexos. Mede capacidade de ler código denso e fazer mudança correta.
Terminal-Bench 2.0
Codex CLI lidera por 12 pontos sobre Claude.
Benchmark de tarefas terminal: shell, DevOps, automação. Mede capacidade de operar bash e fluxos de CI.
Mapa mental: "tem que pensar fundo no código?" → Claude. "tem que mexer no shell, deploy, CI?" → Codex.
🚧 Limitações honestas
Claude Code — fraquezas
- ✗Rate-limit — reclamação #1 em r/ClaudeCode
- ✗4× mais tokens que Codex
- ✗Terminal/DevOps 12 pts atrás
- ✗Pode rodar tools sem confirmação se config permissivo
Codex CLI — fraquezas
- ✗Frontend é fraco — design e UX raros
- ✗Sessões longas viram erráticas
- ✗Sandbox binário pode bloquear workflow legítimo (network)
- ✗Hooks não têm equivalente — perde flexibilidade
📋 Tabela decisória: task → agente
A tabela pra colar na parede. Bate o olho, decide em 2 segundos:
| Task | Use | Por quê |
|---|---|---|
| Refator profundo, repo grande | Claude | SWE-bench 80,8% |
| Script shell rápido | Codex | Terminal-Bench lidera |
| Frontend novo, UI | Claude | Codex fraco em frontend |
| Auditar código suspeito | Codex | Kernel sandbox |
| Onboarding em repo novo | Claude | Lê fundo, explica bem |
| Batch paralelo (até 6) | Codex | max_threads explícito |
| Workflow com hooks/policy | Claude | App-layer programável |
| Iteração rápida tipo "shell loop" | Codex | Resposta em segundos |
| Travou (qualquer task) | o outro | Frase mágica do 2.3 |
🎓 Usar os dois > escolher o melhor
A literatura de 2026 (DataCamp, Termdock, blakecrosley, MindStudio) converge:
Conclusão consensual da indústria
"Use Codex para delegação cloud-sandboxed e isolamento kernel; use Claude Code para governance programável, refator de horizonte longo e revisão focada em segurança. Os melhores resultados vêm de usar os dois."
— consenso 2026, múltiplas fontes
Resultado emergente: 1+1 > 2. Forças complementares geram saída melhor do que a melhor das duas isoladas. É o que o curso prepara você pra extrair.
📚 Resumo
Próximo:
3.3 — Limpando sessão e auditando com subagentes