Verificando acesso...

MÓDULO 3.2

⚖️ Forças, limitações e quando usar cada um

Sandbox kernel vs hooks app-layer. Tokens, velocidade, benchmarks. Tabela decisória task→agente. Por que combinar é melhor que escolher.

1

🛡️ Sandbox kernel vs hooks app-layer

Os dois resolvem segurança — mas para threats diferentes:

🔒 Codex: kernel sandbox

  • Threat model: agente potencialmente adversário
  • Syscall negado antes de executar
  • Modelo não escapa com prompt criativo
  • Restrição binária: permitido ou bloqueado
  • Bom pra: auditar código suspeito, rodar scripts não confiáveis

🎛️ Claude: hooks app-layer

  • Threat model: agente bem-intencionado mas confiante demais
  • Hook intercepta cada tool call
  • Pode rodar lint, validar schema, applicar policy
  • Programável: lógica de negócio
  • Bom pra: seu código, sua equipe, suas convenções

Lição: não é "qual é mais seguro". É "segurança contra o quê". Sandbox protege do agente. Hook protege do agente erra com boa intenção.

2

⚡ Tokens e velocidade

Diferença prática que compõe ao longo do dia:

MétricaClaude CodeCodex CLI
Tokens / taskbaseline2-3× menos
Tempo / respostadezenas de segundossegundos
Custo API4× mais carobaseline
Iterações/hmenormaior

Implicações práticas

  • Task rápida e repetitiva → Codex (composição vale muito)
  • Task densa única → Claude (qualidade compensa o custo)
  • Pay-per-token tight orçamento → preferência Codex
  • Subscription Max/Pro → indiferente, use o melhor
3

🏆 Benchmarks: SWE-bench vs Terminal-Bench

SWE-bench Verified

80,8%

Claude Code (Opus 4.6) — campeão.

Benchmark de refator real em repos complexos. Mede capacidade de ler código denso e fazer mudança correta.

Terminal-Bench 2.0

+12 pts

Codex CLI lidera por 12 pontos sobre Claude.

Benchmark de tarefas terminal: shell, DevOps, automação. Mede capacidade de operar bash e fluxos de CI.

Mapa mental: "tem que pensar fundo no código?" → Claude. "tem que mexer no shell, deploy, CI?" → Codex.

4

🚧 Limitações honestas

Claude Code — fraquezas

  • Rate-limit — reclamação #1 em r/ClaudeCode
  • 4× mais tokens que Codex
  • Terminal/DevOps 12 pts atrás
  • Pode rodar tools sem confirmação se config permissivo

Codex CLI — fraquezas

  • Frontend é fraco — design e UX raros
  • Sessões longas viram erráticas
  • Sandbox binário pode bloquear workflow legítimo (network)
  • Hooks não têm equivalente — perde flexibilidade
5

📋 Tabela decisória: task → agente

A tabela pra colar na parede. Bate o olho, decide em 2 segundos:

TaskUsePor quê
Refator profundo, repo grandeClaudeSWE-bench 80,8%
Script shell rápidoCodexTerminal-Bench lidera
Frontend novo, UIClaudeCodex fraco em frontend
Auditar código suspeitoCodexKernel sandbox
Onboarding em repo novoClaudeLê fundo, explica bem
Batch paralelo (até 6)Codexmax_threads explícito
Workflow com hooks/policyClaudeApp-layer programável
Iteração rápida tipo "shell loop"CodexResposta em segundos
Travou (qualquer task)o outroFrase mágica do 2.3
6

🎓 Usar os dois > escolher o melhor

A literatura de 2026 (DataCamp, Termdock, blakecrosley, MindStudio) converge:

Conclusão consensual da indústria

"Use Codex para delegação cloud-sandboxed e isolamento kernel; use Claude Code para governance programável, refator de horizonte longo e revisão focada em segurança. Os melhores resultados vêm de usar os dois."

— consenso 2026, múltiplas fontes

Resultado emergente: 1+1 > 2. Forças complementares geram saída melhor do que a melhor das duas isoladas. É o que o curso prepara você pra extrair.

📚 Resumo

Sandbox kernel (Codex) vs hooks app-layer (Claude) — threats diferentes
Codex: 2-3× menos tokens, segundos vs dezenas de seg
SWE-bench (Claude) vs Terminal-Bench (Codex)
Limitações: rate-limit (Claude), frontend e sessões longas (Codex)
Tabela decisória pronta — bate o olho, escolhe
Usar os dois > escolher um — consenso da indústria

Próximo:

3.3 — Limpando sessão e auditando com subagentes