Reduciendo las alucinaciones de IA con la generación aumentada por recuperación

Reducing AI hallucinations with augmented recovery generation

En el mundo en constante evolución de la IA, los grandes modelos de lenguaje han avanzado mucho, presumiendo un impresionante conocimiento del mundo que nos rodea. Sin embargo, estos modelos, por muy inteligentes que sean, a menudo tienen dificultades para reconocer los límites de su propio conocimiento, una deficiencia que a menudo los lleva a “alucinar” para llenar los vacíos. Una técnica recientemente diseñada, conocida como Generación con Recuperación Mejorada (RAG), muestra promesa al aumentar eficientemente el conocimiento de estos modelos y reducir el impacto de la alucinación al permitir que las consultas se complementen con datos propietarios.

Navegando la brecha de conocimiento en los LLMs

Los LLMs son modelos informáticos capaces de comprender y generar texto similar al humano. Son la IA detrás de tu asistente digital, la función de autocorrección e incluso algunos de tus correos electrónicos. Su conocimiento del mundo a menudo es inmenso, pero no es perfecto. Al igual que los humanos, los LLMs pueden llegar a los límites de su conocimiento, pero en lugar de detenerse, tienden a hacer suposiciones educadas o “alucinar” para completar la tarea. Esto puede llevar a resultados que contienen información inexacta o engañosa.

En un mundo simple, la solución sería proporcionarle al modelo la información propietaria relevante en el momento exacto en que se necesita, justo cuando se hace la consulta. Sin embargo, determinar qué información es “relevante” no siempre es sencillo y requiere comprender qué se le ha pedido al LLM que logre. Aquí es donde entra en juego RAG.

El poder de los modelos de incrustación y la búsqueda de similitud de vectores

Los modelos de incrustación en el mundo de la IA actúan como traductores. Transforman documentos de texto en una gran lista de números a través de un proceso conocido como “codificación de documentos”. Esta lista representa la “comprensión” interna del modelo del significado del documento. Esta cadena de números se conoce como vector: una representación numérica de los atributos de un conjunto de datos. Cada punto de datos se representa como un vector con muchos valores numéricos, donde cada valor corresponde a una característica o atributo específico del conjunto de datos.

Aunque una cadena de números puede parecer insignificante para la persona promedio, estos números sirven como coordenadas en un espacio de alta dimensión. De la misma manera que la latitud y la longitud pueden describir una ubicación en un espacio físico, esta cadena de números describe la ubicación del texto original en un espacio semántico, el espacio de todos los posibles significados.

Tratar estos números como coordenadas nos permite medir la similitud en el significado entre dos documentos. Esta medida se toma como la distancia entre sus respectivos puntos en el espacio semántico. Una distancia más pequeña indicaría una mayor similitud en el significado, mientras que una distancia más grande sugiere una disparidad en el contenido. En consecuencia, la información relevante para una consulta se puede descubrir buscando documentos “cercanos” a la consulta en el espacio semántico. Esta es la magia de la búsqueda de similitud de vectores.

La idea detrás de la Generación con Recuperación Mejorada

RAG es una arquitectura de IA generativa que aplica similitud semántica para descubrir automáticamente información relevante para una consulta.

En un sistema RAG, tus documentos se almacenan en una base de datos de vectores (DB). Cada documento se indexa según un vector semántico producido por un modelo de incrustación, para que la búsqueda de documentos cercanos a un vector de consulta dado se pueda hacer rápidamente. Esto significa esencialmente que a cada documento se le asigna una representación numérica (el vector), que indica su significado.

Cuando llega una consulta, se utiliza el mismo modelo de incrustación para producir un vector semántico para la consulta.

Luego, el modelo recupera documentos similares de la DB utilizando la búsqueda de vectores, buscando documentos cuyos vectores estén cerca del vector de la consulta.

Una vez que se han recuperado los documentos relevantes, la consulta, junto con estos documentos, se utiliza para generar una respuesta a partir del modelo. De esta manera, el modelo no tiene que depender únicamente de su conocimiento interno, sino que puede acceder a cualquier dato que proporciones en el momento adecuado. El modelo está, por lo tanto, mejor equipado para proporcionar respuestas más precisas y contextualmente relevantes al incorporar datos propietarios almacenados en una base de datos que ofrece la búsqueda de vectores como una característica.

Existen algunas bases de datos llamadas “bases de datos de vectores” disponibles, incluida DataStax Astra DB, para la cual la búsqueda de vectores ahora está disponible en general. La principal ventaja de una base de datos que permite la búsqueda de vectores es la velocidad. Las bases de datos tradicionales tienen que comparar una consulta con cada elemento de la base de datos. En contraste, la búsqueda de vectores integrada permite una forma de indexación y incluye algoritmos de búsqueda que aceleran en gran medida el proceso, lo que permite buscar grandes cantidades de datos en una fracción del tiempo que tomaría una base de datos estándar.

Se puede aplicar un ajuste fino al codificador de consultas y al generador de resultados para un rendimiento optimizado. El ajuste fino es un proceso en el que los parámetros del modelo se ajustan ligeramente para adaptarse mejor a la tarea específica en cuestión.

RAG Versus Fine-Tuning

El ajuste fino ofrece muchos beneficios para optimizar los LLMs. Pero también tiene algunas limitaciones. En primer lugar, no permite la integración dinámica de datos nuevos o propietarios. El conocimiento del modelo permanece estático después del entrenamiento, lo que provoca alucinaciones cuando se le pregunta sobre datos fuera de su conjunto de entrenamiento. RAG, por otro lado, recupera e incorpora de manera dinámica datos actualizados y propietarios de una base de datos externa, mitigando el problema de las alucinaciones y proporcionando respuestas más precisas en contexto. RAG te permite controlar en tiempo real exactamente qué información se proporciona al modelo, lo que permite adaptar las sugerencias a usuarios específicos en el momento exacto en que se realiza una consulta.

RAG también es más eficiente y flexible computacionalmente que el ajuste fino. El ajuste fino requiere que se vuelva a entrenar todo el modelo para cada actualización del conjunto de datos, lo que es una tarea que consume mucho tiempo y recursos. Por el contrario, RAG solo requiere la actualización de los vectores de los documentos, lo que facilita una gestión de la información más sencilla y eficiente. El enfoque modular de RAG también permite el ajuste fino del mecanismo de recuperación por separado, lo que permite la adaptación a diferentes tareas o dominios sin alterar el modelo de lenguaje base.

RAG mejora el poder y la precisión de los grandes modelos de lenguaje, lo que lo convierte en una alternativa convincente al ajuste fino. En la práctica, las empresas tienden a utilizar RAG con más frecuencia que el ajuste fino.

Cambiar el Rol de los LLMs con RAG

La integración de RAG en los LLMs no solo mejora la precisión de sus respuestas, sino que también maximiza su potencial. El proceso permite que los LLMs se centren en lo que hacen mejor, que es generar contenido de manera inteligente a partir de una indicación. El modelo ya no es la única fuente de información porque RAG le proporciona conocimientos propietarios relevantes cuando es necesario, y el corpus de conocimientos al que el modelo puede acceder se puede ampliar y actualizar sin necesidad de costosos trabajos de entrenamiento del modelo.

En esencia, RAG actúa como un puente, conectando el LLM a un reservorio de conocimientos que va más allá de sus capacidades internas. Como resultado, reduce drásticamente la tendencia del LLM a “alucinar” y proporciona un modelo más preciso y eficiente para los usuarios.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AILanguage Model

Was this article helpful?

93 out of 132 found this helpful

Reduciendo las alucinaciones de IA con la generación aumentada por recuperación

Navegando la brecha de conocimiento en los LLMs

El poder de los modelos de incrustación y la búsqueda de similitud de vectores

La idea detrás de la Generación con Recuperación Mejorada

RAG Versus Fine-Tuning

Cambiar el Rol de los LLMs con RAG

Was this article helpful?

Análisis de datos reinventado de los paneles de control al copiloto de IA

Satélites Sentinel mapean superemisores de metano

Inteligencia Artificial

Últimos avances en el campo de la IA multimodal (ChatGPT + DALLE 3) + (Google BARD + extensiones) y muchos más…

Explorando NLP - Comenzando con NLP (Paso #1)

Conoce los Modelos de Difusión Compartimentados (CDM) Un enfoque de IA para entrenar diferentes modelos de difusión o indicaciones en distintas fuentes de datos.

Conoce a FastSAM La solución revolucionaria en tiempo real que logra una segmentación de alto rendimiento con una carga computacional mínima.

Esta investigación de IA presenta Photo-SLAM Elevando el mapeo fotorealista en tiempo real en dispositivos portátiles

AWS reafirma su compromiso con la IA generativa responsable