No vendemos "RAG". Elegimos la arquitectura correcta.
RAG es una familia de estrategias, no una palabra de moda. La clave está en elegir cuál encaja con tus datos, tu presupuesto de latencia y tu necesidad de trazabilidad.
Una técnica no sirve para todo
Cuando alguien dice "vamos a implementar RAG", la pregunta no resuelta es: ¿cuál? Hay al menos seis estrategias distintas de recuperación, y cada una tiene trade-offs radicalmente diferentes en latencia, trazabilidad, escala y costo. Forzar RAG vectorial porque "es lo que se hace" en un corpus de 20k tokens es como usar una moto de carga para entregar un sobre — funciona, pero no tiene sentido.
Nuestra postura es elegir la arquitectura que el corpus y el caso de uso merecen. Y explicar exactamente por qué.
Qué impulsa al asistente de este sitio
Nuestra base de conocimiento es curada y pequeña — unos 28k tokens. A esa escala, leer nodos curados completos dentro del contexto del modelo (Wiki-LLM, sin embeddings) supera al troceado vectorial top-k: es determinista, totalmente trazable y cita la fuente exacta que usó. No hay vectores, no hay recuperación probabilística, no hay alucinaciones por un fragmento mal recuperado.
Eso no significa que sea la arquitectura correcta para todos. Significa que es la correcta para este caso.
El instrumental: seis estrategias y sus trade-offs
Wiki-LLM: nodos markdown curados, leídos completos en contexto — ideal hasta ~100k tokens, máxima trazabilidad. Context Engineering: conocimiento codificado directo en el prompt, cero latencia de recuperación, para catálogos menores de 15k tokens. RAG vectorial: similitud semántica con embeddings (pgvector, Pinecone), el baseline clásico para corpus medianos. RAG híbrido: vector + BM25 con fusión RRF, captura términos exactos que el vector pierde — SKUs, siglas, nombres de producto. RAG agéntico: el modelo decide qué buscar y si la evidencia es suficiente (ciclo ReAct), para corpus grandes y heterogéneos. GraphRAG: grafo de entidades y relaciones con recorrido y resumen de comunidades, para preguntas relacionales complejas.
El criterio de selección no es cuál está de moda. Es cuál es correcto para el corpus.