← SCRAM AI Lab
Opus 4.7 cuesta 5x más que Sonnet 4.6 y rinde aproximadamente 2x en razonamiento complejo. Sonnet basta para 70% de los casos productivos. Cuándo el delta paga.
May 21, 2026
12 lecturas
A precios públicos de mayo 2026: Sonnet 4.6 está en $3/MTok input y $15/MTok output. Opus 4.7 está en $15/MTok input y $75/MTok output. Eso es 5x. En razonamiento complejo, los benchmarks muestran Opus 4.7 sacando aproximadamente 2x el rendimiento de Sonnet 4.6 (medido en tareas tipo SWE-bench Verified, GPQA, planning multi-step). La aritmética es brutal: estás pagando 5x para obtener 2x. La pregunta no es "¿cuál es mejor?", es "¿el caso de uso justifica pagar 2.5x más por unidad de calidad?".
Sonnet 4.6 es excelente, y en muchos escenarios la diferencia con Opus es imperceptible para el usuario:
Si tu caso vive aquí, usar Opus es prender dinero. Y peor: la latencia adicional (~2.5s vs ~1.2s p50) empeora UX.
Anthropic permite cachear bloques de prompt (system prompt, herramientas, documentos RAG). Los hits cuestan 10% del precio normal de input. Para un chatbot con system prompt de 8k tokens, esto significa:
Esto cambia la matemática Opus-vs-Sonnet. Si tu system prompt es grande y se reutiliza, Opus con cache puede acercarse en costo a Sonnet sin cache. El cache hace viable usar el modelo bueno en más casos, no solo los críticos.
Hay diferencias cualitativas que no se ven en precio. Opus 4.7 mantiene tono y voz más consistentes en conversaciones largas, refuta razonamientos defectuosos del usuario sin colapsar, y tiende a admitir ignorancia en lugar de inventar. Para tareas donde la integridad intelectual importa (compliance, due diligence, dictámenes técnicos), pagar 5x es justificable. Para FAQ con RAG, no.
Toma 50 inputs reales de tu producción, corre ambos modelos, blind-grade los outputs. La mitad de las veces vas a descubrir que Sonnet 4.6 ya está al nivel que necesitas. La otra mitad te va a confirmar que Opus paga para tu caso específico.
Si llevas seis meses pagando Opus para todo "por si acaso", probablemente estás regalando 60-70% de presupuesto de inferencia. ¿Cuándo fue la última vez que mediste la calidad real de Sonnet 4.6 en tu caso?
Artículos relacionados
Defensa contra prompt injection: scoring práctico
LLM-as-judge no escala ni en costo ni en latencia. Un scorer regex con patrones ponderados y threshold 0.6 atrapa 90% del problema en 2ms y sin llamadas extras al modelo.
Circuit breaker + retry exponencial para LLMs
Los endpoints de LLMs fallan diferente que las APIs tradicionales. 429 y 529 son ritmo, no muerte. El patrón circuit breaker con HALF_OPEN evita inundar al provider en mal momento.
Anatomía de un AI router de cuatro tiers
Gemini Flash para 'gracias', gpt-4o-mini para clasificación, Sonnet 4.6 para conversación útil, Opus 4.7 solo cuando importa. Resultado: 70% menos costo en chatbots de volumen.