RAG: alimentar un asistente con sus documentos

El RAG en una frase

RAG, por Retrieval-Augmented Generation, parte de una idea sencilla: un modelo de lenguaje responde mejor a sus preguntas si tiene acceso a sus documentos en el momento de responder, en lugar de basarse únicamente en lo que aprendió durante su entrenamiento.

En concreto: su pregunta se transforma en una señal de búsqueda, el sistema localiza los pasajes pertinentes en su base documental, y el modelo redacta una respuesta apoyándose en esos pasajes, citando idealmente su origen. Nada más misterioso que eso.

La ventaja: su asistente conoce sus contratos, sus procedimientos, sus deliberaciones, su doctrina. No una versión generalizada de internet.

Por qué la fragmentación lo cambia todo

Antes de que un documento sea “localizable” por el asistente, se fragmenta en pasajes, normalmente de unas cientos de palabras. Sobre esos pasajes opera la búsqueda. Una mala fragmentación vuelve frágil todo lo que viene después: se recupera media cláusula, el título sin el contenido, la conclusión sin el razonamiento.

Los parámetros que cuentan:

El tamaño del pasaje. Demasiado corto (200 palabras), se pierde el contexto. Demasiado largo (2.000 palabras), la búsqueda pierde precisión. El rango adecuado: de 400 a 800 palabras, ajustado según el tipo de documento.
El solapamiento. Cada pasaje se solapa ligeramente con el siguiente (10 a 15 %), para que una idea a caballo entre dos nunca quede partida en dos.
La estructura preservada. Una fragmentación que respeta los títulos, las secciones y las viñetas funciona claramente mejor que una basada solo en el número de palabras. Un PDF con la estructura rota por el OCR es un PDF que devolverá respuestas rotas.

La regla empíricaSi sus respuestas son aproximadas, revise primero la fragmentación antes de culpar al modelo. En el 70 % de los casos que diagnosticamos, el problema está en el pasaje recuperado, no en la generación. Un buen corpus mal fragmentado da malas respuestas.

Forzar la cita de las fuentes

El reflejo que hay que imponer desde el encuadre: el asistente cita, o no responde. No “según nuestros archivos”, sino “según la deliberación del 14 de marzo de 2024, artículo 3, página 2”. Tres beneficios:

El usuario puede comprobarlo con un clic. La confianza solo se construye a este precio.
El propio asistente se autodisciplina: si no encuentra una fuente, dice que no lo sabe, en lugar de extrapolar.
Obtiene un registro auditable: qué pregunta, qué fuentes, qué respuesta. Valioso para el RGPD, la AI Act y cualquier discusión contradictoria.

Para preparar un corpus que se preste a buenas citas, vea Una buena documentación hace un buen asistente.

Los tres errores que provocan alucinaciones

El corpus podrido. Indexa todo lo que hay por ahí: versiones caducadas, borradores, notas personales. El asistente no distingue la doctrina vigente del documento de trabajo abandonado en 2019. Un corpus limpio vale más que un corpus exhaustivo.
La falta de gobernanza. Nadie es responsable de mantener el corpus al día. A los seis meses, el asistente responde con procedimientos antiguos y nadie sabe cuándo ni por qué. Sin piloto, todo RAG va a la deriva.
La instrucción de “responder siempre”. Si configura al asistente para que responda incluso sin fuente, inventará antes que reconocer su ignorancia. El buen prompt de sistema dice explícitamente “si la respuesta no está en las fuentes, indícalo”. La humildad forzada gana a la confianza artificial.

Lista de verificación para producción

El corpus tiene responsable nombrado: quién es su propietario, quién valida las incorporaciones, quién retira lo que ya no es válido.
La fragmentación se prueba con diez preguntas representativas antes de la apertura a usuarios.
El asistente cita las fuentes con página, fecha o referencia, visible en la interfaz, no solo en la traza técnica.
El prompt de sistema contiene explícitamente la instrucción “si no hay fuente, indícalo”.
Existe un mecanismo de reporte: un usuario puede señalar una respuesta errónea en dos clics, y la señal llega a alguien.
El registro completo (pregunta, fuentes, respuesta, modelo, usuario) se conserva según su política de retención.

Para integrar este RAG en su sistema de información (SSO, GDE, NAS), vea Integrar un asistente en su infraestructura.

¿Cuántos documentos hacen falta para que un RAG sea útil?

No hay un umbral mínimo. Hemos visto RAG muy útiles sobre 50 procedimientos internos bien fragmentados. El umbral alto, en cambio, exige un trabajo serio: por encima de 5.000 documentos, la calidad de la fragmentación y la organización del corpus determinan la calidad de las respuestas mucho más que el volumen.

¿Sustituye el RAG al fine-tuning del modelo?

Para el 95 % de los casos en empresa, sí. El fine-tuning tiene un coste (técnico, financiero y de actualización) que la mayoría de las organizaciones nunca amortizan. El RAG basta cuando lo que se necesita es responder sobre su documentación, que es la mayoría de los casos.

¿Se puede confiar en las citas de un RAG?

Sí, siempre que la cita se construya del lado del sistema (extracto del pasaje recuperado) y no la genere el modelo. Un buen RAG le ofrece el pasaje fuente visible, no solo una referencia textual plausible. Es un punto que conviene comprobar en la demo: pulsar sobre la cita debe llevar al documento, no a una página de error.

Probar sobre sus documentos

Veinte minutos en videollamada con su equipo. Indexamos algunos documentos reales y revisamos las respuestas juntos. No es una demo genérica.

Reservar demo→

RAG: alimentar un asistente con sus documentos

El RAG en una frase

Por qué la fragmentación lo cambia todo

Forzar la cita de las fuentes

Los tres errores que provocan alucinaciones

Lista de verificación para producción

Lectura siguiente.

Una buena documentación hace un buen asistente

Integrar un asistente en su infraestructura

Hacer prompts como un profesional