← SCRAM AI Lab
Qué son los embeddings, cómo funcionan y por qué son la base de RAG, recomendaciones y búsqueda semántica. Explicación técnica accesible.
April 8, 2026
75 lecturas

Si los LLMs son el motor de la IA generativa, los embeddings son el combustible de la IA aplicada. Cada vez que un sistema de IA busca documentos relevantes, recomienda productos, detecta duplicados o entiende el significado de un texto — está usando embeddings.
Y sin embargo, es uno de los conceptos menos entendidos fuera de los equipos técnicos. Esta guía explica qué son, cómo funcionan y cómo usarlos en tu empresa.
Un embedding es una representación numérica del significado de un texto (o imagen, o audio). Es un vector — una lista de números, típicamente 768 a 3072 dimensiones — que captura las relaciones semánticas entre conceptos.
Ejemplo simplificado: imagina que pudieras representar cada palabra con solo 3 números que miden [formalidad, positividad, concreción]. "Excelente" podría ser [0.7, 0.9, 0.3] y "bueno" sería [0.4, 0.7, 0.4]. Son similares en positividad pero diferentes en formalidad y concreción. En la realidad, los modelos usan miles de dimensiones para capturar matices mucho más sutiles.
Lo poderoso es que textos con significado similar producen vectores similares, sin importar las palabras exactas que usen. "¿Cómo cancelo mi suscripción?" y "Quiero dar de baja mi plan" producen embeddings muy cercanos.
Los modelos de embedding son redes neuronales entrenadas específicamente para esta tarea. Los más usados:
text-embedding-3-large (OpenAI): 3072 dimensiones, el más usado en producción. Excelente para inglés y español. $0.13 por millón de tokens.
embed-v4 (Cohere): Optimizado para búsqueda con soporte multilingüe nativo. Especialmente bueno para español y portugués.
BGE-M3 (BAAI): Open-source, multilingüe. Se puede ejecutar localmente sin enviar datos a APIs externas. Ideal para empresas con restricciones de privacidad.
El proceso es simple: envías un texto a la API del modelo, recibes un vector. Almacenas ese vector en una base de datos vectorial. Cuando buscas, conviertes la query en vector y buscas los más similares.
Búsqueda semántica interna: En lugar de buscar por keywords exactas en tu wiki o documentación, los empleados buscan por significado. "¿Cuál es nuestra política de home office?" encuentra el documento aunque se llame "Lineamientos de Trabajo Remoto 2025".
RAG (Retrieval-Augmented Generation): Los embeddings son la columna vertebral de RAG. Cada fragmento de tu knowledge base se convierte en embedding, y cuando un usuario pregunta algo, se buscan los fragmentos más relevantes para inyectarlos como contexto al LLM.
Deduplicación inteligente: Detecta tickets de soporte, leads o documentos duplicados incluso cuando usan palabras diferentes. Mucho más efectivo que la comparación por texto exacto.
Clasificación zero-shot: Clasifica textos en categorías sin necesidad de datos de entrenamiento. Creas embeddings de las descripciones de cada categoría y comparas cada texto entrante contra ellas. La categoría con mayor similitud gana.
Recomendaciones: "Clientes que compraron productos similares a este" se implementa comparando embeddings de productos o historiales de compra.
La medida estándar es la similitud coseno: calcula el ángulo entre dos vectores. Valor de 0 a 1 donde 1 significa idénticos. En la práctica, textos semánticamente similares tienen similitud coseno de 0.7-0.9, y textos no relacionados tienen 0.2-0.4.
Alternativas como el producto punto y la distancia euclidiana se usan en ciertos contextos, pero la similitud coseno es el default por buenas razones: es invariante a la longitud del texto y tiene un rango intuitivo.
1. Embeddings son tu primer paso hacia la IA aplicada. Antes de construir un chatbot o un agente, implementa búsqueda semántica sobre tu documentación interna. Es el proyecto de IA con menor riesgo y mayor impacto inmediato: los empleados encuentran información 5x más rápido.
2. Prueba modelos open-source primero. BGE-M3 y otros modelos open-source de embeddings funcionan tan bien como las APIs comerciales para español. Si la privacidad de datos es una preocupación, puedes ejecutarlos localmente sin enviar nada fuera de tu infraestructura.
3. La calidad de tus embeddings determina la calidad de tu RAG. Si tu chatbot RAG da respuestas irrelevantes, el problema probablemente no está en el LLM sino en los embeddings. Experimenta con diferentes modelos de embedding y estrategias de chunking antes de cambiar el LLM.
Artículos relacionados
Traefik v2.10 con auto-renewal certs para 94 containers
Wildcard *.scram2k.com cubre la mayoría, certs individuales para el resto. acme.json shared, DNS-01 para wildcards, HTTP-01 para subdomains. Anti-patrón: cert por container.
OpenTelemetry tracing para pipelines LLM
Instrumentar pipelines LLM multi-tier con spans nested: router → tier-selection → provider-call → parsing → side-effects. Atributos gen_ai semantic conventions y flame chart en Tempo.
Loki + Grafana para logs de chatbot: query patterns
Labels útiles (org_id, session_id, tier, provider) sin caer en high-cardinality. LogQL patterns para errores por tier, p99 latency y costos por hora. Retention 30d hot.