3.2 Forças e Limitações

🛡️ Sandbox kernel vs hooks app-layer

Os dois resolvem segurança — mas para threats diferentes:

🔒 Codex: kernel sandbox

Threat model: agente potencialmente adversário
Syscall negado antes de executar
Modelo não escapa com prompt criativo
Restrição binária: permitido ou bloqueado
Bom pra: auditar código suspeito, rodar scripts não confiáveis

🎛️ Claude: hooks app-layer

Threat model: agente bem-intencionado mas confiante demais
Hook intercepta cada tool call
Pode rodar lint, validar schema, applicar policy
Programável: lógica de negócio
Bom pra: seu código, sua equipe, suas convenções

Lição: não é "qual é mais seguro". É "segurança contra o quê". Sandbox protege do agente. Hook protege do agente erra com boa intenção.

⚡ Tokens e velocidade

Diferença prática que compõe ao longo do dia:

Métrica	Claude Code	Codex CLI
Tokens / task	baseline	2-3× menos
Tempo / resposta	dezenas de segundos	segundos
Custo API	4× mais caro	baseline
Iterações/h	menor	maior

Implicações práticas

Task rápida e repetitiva → Codex (composição vale muito)
Task densa única → Claude (qualidade compensa o custo)
Pay-per-token tight orçamento → preferência Codex
Subscription Max/Pro → indiferente, use o melhor

🏆 Benchmarks: SWE-bench vs Terminal-Bench

SWE-bench Verified

80,8%

Claude Code (Opus 4.6) — campeão.

Benchmark de refator real em repos complexos. Mede capacidade de ler código denso e fazer mudança correta.

Terminal-Bench 2.0

+12 pts

Codex CLI lidera por 12 pontos sobre Claude.

Benchmark de tarefas terminal: shell, DevOps, automação. Mede capacidade de operar bash e fluxos de CI.

Mapa mental: "tem que pensar fundo no código?" → Claude. "tem que mexer no shell, deploy, CI?" → Codex.

🚧 Limitações honestas

Claude Code — fraquezas

✗Rate-limit — reclamação #1 em r/ClaudeCode
✗4× mais tokens que Codex
✗Terminal/DevOps 12 pts atrás
✗Pode rodar tools sem confirmação se config permissivo

Codex CLI — fraquezas

✗Frontend é fraco — design e UX raros
✗Sessões longas viram erráticas
✗Sandbox binário pode bloquear workflow legítimo (network)
✗Hooks não têm equivalente — perde flexibilidade

📋 Tabela decisória: task → agente

A tabela pra colar na parede. Bate o olho, decide em 2 segundos:

Task	Use	Por quê
Refator profundo, repo grande	Claude	SWE-bench 80,8%
Script shell rápido	Codex	Terminal-Bench lidera
Frontend novo, UI	Claude	Codex fraco em frontend
Auditar código suspeito	Codex	Kernel sandbox
Onboarding em repo novo	Claude	Lê fundo, explica bem
Batch paralelo (até 6)	Codex	max_threads explícito
Workflow com hooks/policy	Claude	App-layer programável
Iteração rápida tipo "shell loop"	Codex	Resposta em segundos
Travou (qualquer task)	o outro	Frase mágica do 2.3

🎓 Usar os dois > escolher o melhor

A literatura de 2026 (DataCamp, Termdock, blakecrosley, MindStudio) converge:

Conclusão consensual da indústria

"Use Codex para delegação cloud-sandboxed e isolamento kernel; use Claude Code para governance programável, refator de horizonte longo e revisão focada em segurança. Os melhores resultados vêm de usar os dois."

— consenso 2026, múltiplas fontes

Resultado emergente: 1+1 > 2. Forças complementares geram saída melhor do que a melhor das duas isoladas. É o que o curso prepara você pra extrair.

📚 Resumo

✓

Sandbox kernel (Codex) vs hooks app-layer (Claude) — threats diferentes

✓

Codex: 2-3× menos tokens, segundos vs dezenas de seg

✓

SWE-bench (Claude) vs Terminal-Bench (Codex)

✓

Limitações: rate-limit (Claude), frontend e sessões longas (Codex)

✓

Tabela decisória pronta — bate o olho, escolhe

✓

Usar os dois > escolher um — consenso da indústria

3.3 — Limpando sessão e auditando com subagentes

← Anterior Próximo: Limpar e Auditar →