Anatomía de un AI router de cuatro tiers

Gemini Flash para 'gracias', gpt-4o-mini para clasificación, Sonnet 4.6 para conversación útil, Opus 4.7 solo cuando importa. Resultado: 70% menos costo en chatbots de volumen.

May 21, 2026

200 lecturas

Anatomía de un AI router de cuatro tiers

El 60% de los mensajes a tu chatbot son "gracias", "ok", "perfecto"

Si mides los mensajes reales que llegan a un chatbot de producción, vas a encontrar una distribución brutal: el 60% es acknowledgment trivial, el 30% es pregunta de bajo contexto, el 8% requiere razonamiento real, y el 2% son los casos críticos donde un error sale caro. Pagar Opus 4.7 (~$15/MTok output) para responder "de nada" a alguien que dijo "gracias" es indefendible. Y sin embargo lo hace la mayoría de los chatbots que usan "un solo modelo bueno".

El router de cuatro tiers

El patrón que SCRAM corre en producción tiene cuatro niveles, cada uno con un modelo distinto:

Tier 0 — Gemini 3 Flash: acknowledgments, despedidas, "ok/gracias/perfecto". $0.075/MTok input. Latencia p50 ~300ms.
Tier 1 — gpt-4o-mini: clasificación intent, extracción de slots, FAQ con RAG simple. $0.15/MTok input. ~600ms.
Tier 2 — Claude Sonnet 4.6: conversación útil, SPIN selling, manejo de objeciones, RAG complejo. $3/MTok input. ~1.2s.
Tier 3 — Claude Opus 4.7: razonamiento crítico, debugging técnico, planning multi-step, casos donde un error cuesta más que el modelo. $15/MTok input. ~2.5s.

determineTier: la función que decide

type Tier = 0 | 1 | 2 | 3;

function determineTier(message: string, ctx: Context): Tier {
  const trimmed = message.trim().toLowerCase();
  const wordCount = trimmed.split(/\s+/).length;

  // Tier 0: acknowledgment puro
  const ackPatterns = /^(gracias|ok|listo|perfecto|sale|va|si|no|excelente)[.!]?$/;
  if (ackPatterns.test(trimmed) || wordCount <= 2) return 0;

  // Tier 3: señales de criticidad
  if (ctx.isHighValueDeal || ctx.isEscalated) return 3;
  if (/error|stack trace|no funciona|urgente|critic/i.test(message) && wordCount > 15) return 3;

  // Tier 1: preguntas cortas con baja complejidad
  if (wordCount < 12 && !ctx.hasOpenObjection) return 1;

  // Tier 2: default productivo
  return 2;
}

Las señales que importan en producción: longitud del mensaje, presencia de keywords técnicos, valor del deal en el CRM, etapa del funnel. No te compliques con clasificadores ML: una función pura con heurísticas explícitas es 5ms, debugeable y la puedes ajustar viendo logs.

Métricas reales de ahorro

En un chatbot con 12,000 mensajes/día y 60% acknowledgments antes del router:

Sin router (todo a Sonnet 4.6): ~$48/día en inferencia.
Con router de 4 tiers: ~$14/día. Ahorro 70%.
Con router + prompt caching en tier 2/3: ~$9/día. Ahorro 81%.

La sorpresa: la calidad percibida sube, no baja. Los mensajes de tier 0 responden en 300ms en lugar de 2s, lo que da al usuario sensación de fluidez. Los de tier 3 reciben razonamiento real en lugar del compromiso mediocre de un modelo "para todo".

Fallbacks entre tiers

Cada tier tiene fallback al siguiente superior si: (a) el provider devuelve 429/529, (b) latencia rebasa SLO, (c) el modelo expresó duda ("no estoy seguro" en la respuesta, detectable con un patrón corto). El fallback no es retry; es escalar. Y se loguea: si el 15% de los tier 1 escala a tier 2, tu clasificación está mal calibrada.

Por qué no usar Opus para todo

Aparte del costo, hay un tema de latencia. Opus 4.7 a ~2.5s de TTFT es genial para razonamiento, pero para "¿cuál es su horario?" se siente lento. La percepción de inteligencia en un chatbot está dominada por fluidez en lo trivial y profundidad en lo importante. Un router te da las dos. Un solo modelo te da una a costa de la otra.

Lo que se rompe en producción

Drift de clasificación: con el tiempo los usuarios usan vocabulario que tu router no anticipó. Revisa logs semanales.
Personalidades distintas por tier: Sonnet y gpt-4o-mini tienen tonos diferentes; un usuario que pase de tier 1 a tier 2 nota el cambio. Mantén system prompts consistentes en voz.
Métricas separadas: latencia y costo POR TIER, no agregadas. El agregado oculta dónde está el problema.

¿Cuántos de los mensajes de tu chatbot del último mes eran "gracias"? Si no lo sabes, ese es el primer dato que vale la pena medir antes de discutir routers.

routing

multi-modelo

arquitectura

Twitter LinkedIn WhatsApp