La recuperación del conocimiento toma el centro del escenario

Recuperando el conocimiento protagonista absoluto

La arquitectura GenAI se está moviendo hacia modelos de generación centrados en la recuperación interpretativa

Para hacer la transición de la implementación para consumidores a la implementación empresarial de GenAI, las soluciones deben construirse principalmente en torno a información externa al modelo utilizando la generación centrada en la recuperación (RCG).

A medida que la inteligencia artificial generativa (GenAI) se despliega en diversas industrias para una amplia gama de usos empresariales, las empresas necesitan modelos que brinden eficiencia, precisión, seguridad y rastreabilidad. La arquitectura original de los modelos similares a ChatGPT ha demostrado una brecha importante en cuanto a satisfacer estos requisitos clave. Con los primeros modelos de GenAI, la recuperación se utilizó como una ocurrencia tardía para abordar las deficiencias de los modelos que se basan en información memorizada de la memoria paramétrica. Los modelos actuales han avanzado significativamente en ese aspecto al mejorar las plataformas de solución con una generación aumentada por recuperación (RAG) como recurso principal para extraer información externa al modelo. Quizás sea hora de repensar aún más la arquitectura de la inteligencia artificial generativa y pasar de los sistemas RAG, donde la recuperación es un complemento, a modelos RCG construidos en torno a la recuperación como el acceso principal a la información.

Los modelos de generación centrados en la recuperación pueden definirse como una solución de inteligencia artificial generativa diseñada para sistemas en los que la gran mayoría de los datos residen fuera de la memoria paramétrica del modelo y no se ven principalmente en la preentrenamiento o el ajuste fino. Con RCG, el papel principal del modelo GenAI es interpretar información recuperada y relevante de un corpus de datos indexados de una empresa u otro contenido curado. En lugar de memorizar datos, el modelo se enfoca en el ajuste fino de constructos, relaciones y funcionalidades específicos. Se espera que la calidad de los datos en la salida generada se acerque al 100% de precisión y puntualidad. La capacidad de interpretar adecuadamente y utilizar grandes cantidades de datos que no se ven en la preentrenamiento requiere un mayor nivel de abstracción en el modelo y el uso de esquemas como una capacidad cognitiva clave para identificar patrones y relaciones complejas en la información. Estos nuevos requisitos de recuperación, junto con el aprendizaje automatizado de esquemas, conducirán a una mayor evolución en la preentrenamiento y el ajuste fino de los modelos de lenguaje grandes (LLMs).

Figura 1. Ventajas y desafíos de la generación centrada en la recuperación (RCG) frente a la generación aumentada por recuperación (RAG). Crédito de la imagen: Intel Labs.

Reducir sustancialmente el uso de datos memorizados de la memoria paramétrica en los modelos GenAI y, en su lugar, confiar en fuentes indexadas verificables mejorará la procedencia y desempeñará un papel importante en mejorar la precisión y el rendimiento. La suposición predominante en las arquitecturas de GenAI hasta ahora ha sido que más datos en el modelo son mejores. Con base en esta estructura actualmente predominante, se espera que la mayoría de los tokens y conceptos hayan sido ingeridos y cruzados para que los modelos puedan generar mejores respuestas a partir de su memoria paramétrica. Sin embargo, en el escenario empresarial común, se espera que la gran mayoría de los datos utilizados para la salida generada provengan de entradas recuperadas. Ahora estamos observando que tener más datos en el modelo mientras se confía en el conocimiento recuperado causa conflictos de información o incluye datos que no se pueden rastrear o verificar con su fuente. Como mencioné en mi último blog, Supervivencia del más apto, los modelos pequeños y ágiles diseñados para utilizar RCG no necesitan almacenar tantos datos en la memoria paramétrica.

En entornos empresariales donde los datos provienen principalmente de la recuperación, el sistema objetivo debe destacarse en la interpretación de información relevante no vista para satisfacer los requisitos de la empresa. Además, la prevalencia de bases de datos de vectores grandes y un aumento en el tamaño de la ventana de contexto (por ejemplo, OpenAI ha aumentado recientemente la ventana de contexto en GPT-4 Turbo de 32K a 128K) está llevando a los modelos hacia el razonamiento y la interpretación de datos complejos no vistos. Los modelos ahora requieren inteligencia para convertir datos amplios en conocimientos efectivos mediante el uso de una combinación de recuperación sofisticada y ajuste fino. A medida que los modelos se vuelven centrados en la recuperación, las competencias cognitivas para crear y utilizar esquemas ocuparán un lugar central.

Usos de GenAI por parte de los consumidores frente a los usos empresariales

Después de una década de rápido crecimiento en el tamaño y la complejidad de los modelos de IA, 2023 marca un cambio de enfoque hacia la eficiencia y la aplicación específica de la IA generativa. La transición de un enfoque en los consumidores hacia el uso empresarial es uno de los factores clave que impulsan este cambio en tres niveles: calidad de los datos, fuente de los datos y usos específicos.

● Calidad de los datos: Cuando se genera contenido y análisis para empresas, una precisión del 95% no es suficiente. Las empresas necesitan una precisión total o casi total. Es necesario ajustar los modelos para obtener un alto rendimiento en tareas específicas y gestionar la calidad de los datos utilizados para garantizar la calidad de los resultados. Además, los datos deben ser rastreables y verificables. La procedencia es importante y la recuperación de información es fundamental para determinar la fuente del contenido.

● Fuente de los datos: Se espera que la gran mayoría de los datos en las aplicaciones empresariales provengan de fuentes externas confiables, así como de datos empresariales o corporativos propietarios, que incluyen información sobre productos, recursos, clientes, cadena de suministro, operaciones internas y más. La recuperación de información es fundamental para acceder al conjunto más amplio y actualizado de datos propietarios que no están preentrenados en el modelo. Los modelos grandes y pequeños pueden tener problemas de procedencia cuando utilizan datos de su propia memoria interna en lugar de datos verificables y rastreables extraídos de fuentes empresariales. Si los datos entran en conflicto, pueden confundir al modelo.

● Usos específicos: Las funciones y constructos de los modelos para empresas tienden a especializarse en un conjunto de usos y tipos de datos. Cuando la funcionalidad de GenAI se implementa en un flujo de trabajo o una aplicación empresarial específica, es poco probable que requiera una funcionalidad todo en uno. Y dado que los datos provendrán principalmente de la recuperación, el sistema objetivo debe destacarse en la interpretación de información relevante que el modelo no haya visto de formas particulares requeridas por la empresa.

Por ejemplo, si una empresa financiera o de atención médica busca mejorar sus servicios mediante un modelo de GenAI, se enfocará en una familia de funciones necesarias para su uso previsto. Tienen la opción de entrenar un modelo desde cero e intentar incluir toda su información propia y patentada. Sin embargo, este esfuerzo probablemente será costoso, requerirá un profundo conocimiento técnico y estará sujeto a quedar rápidamente obsoleto a medida que la tecnología evoluciona y los datos de la empresa cambian continuamente. Además, de todas formas necesitarán recurrir a la recuperación para tener acceso a la información más concreta y actualizada. Un camino más efectivo es tomar un modelo base preentrenado existente (como Llama 2 de Meta) y personalizarlo mediante el ajuste fino e indexación para su recuperación. El ajuste fino utiliza solo una pequeña fracción de la información y las tareas para refinar el comportamiento del modelo, pero la amplia información propia de la empresa puede indexarse y estar disponible para su recuperación según sea necesario. A medida que el modelo base se actualiza con la última tecnología de GenAI, refrescar el modelo objetivo debería ser un proceso relativamente sencillo de repetir el flujo de ajuste fino.

Transición a la Generación Centrada en la Recuperación: Diseñando alrededor de la Extracción de Información Indexada

Meta AI y colaboradores universitarios presentaron la generación mejorada con recuperación en 2021 para abordar problemas de procedencia y actualización de conocimientos en LLMs. Los investigadores utilizaron RAG como un enfoque de propósito general para agregar memoria no paramétrica a modelos de generación con memorias paramétricas preentrenadas. La memoria no paramétrica utilizaba un índice vectorial denso de Wikipedia al que accedía un recuperador preentrenado. En un modelo compacto con menos datos memorizados, se pone un fuerte énfasis en la amplitud y la calidad de los datos indexados a los que hace referencia la base de datos de vectores, ya que el modelo no puede confiar en la información memorizada para las necesidades empresariales. Tanto RAG como RCG pueden utilizar el mismo enfoque recuperador extrayendo conocimientos relevantes de manera dinámica durante el tiempo de inferencia (ver Figura 2). Difieren en la forma en que el sistema GenAI coloca su información, así como en las expectativas de interpretación de datos previamente no vistos. Con RAG, el modelo en sí mismo es una fuente importante de información y se ve ayudado por los datos recuperados. En cambio, con RCG, la gran mayoría de los datos reside fuera de la memoria paramétrica del modelo, lo que hace que la interpretación de los datos no vistos sea el papel principal del modelo.

Cabe destacar que muchas soluciones actuales de RAG se basan en flujos como LangChain o Haystack para concatenar una recuperación en el frente con una tienda de vectores independiente a un modelo GenAI que no fue entrenado previamente con recuperación. Estas soluciones proporcionan un entorno para indexar fuentes de datos, elección de modelos y entrenamiento del comportamiento del modelo. Otros enfoques, como REALM de Google Research, experimentan con el preentrenamiento de extremo a extremo con recuperación integrada. Actualmente, OpenAI está optimizando su camino de recuperación GenAI en lugar de dejar que sea el ecosistema el encargado de crear el flujo para ChatGPT. La empresa ha lanzado recientemente la API de Asistentes, que recupera datos de dominio propietarios, información de productos o documentos de usuario externos al modelo.

Figura 2. Tanto RCG como RAG recuperan datos públicos y privados durante la inferencia, pero difieren en cómo colocan e interpretan los datos invisibles. Crédito de la imagen: Intel Labs.

En otros ejemplos, modelos de recuperación rápida como fastRAG de Intel Labs utilizan modelos de fundación pequeños pre-entrenados para extraer información solicitada de una base de conocimientos sin entrenamiento adicional, proporcionando una solución más sostenible. Construido como una extensión del framework de código abierto Haystack GenAI, fastRAG utiliza un modelo de recuperación para generar respuestas conversacionales recuperando documentos actuales de una base de conocimientos externa. Además, un equipo de investigadores de Meta publicó recientemente un artículo presentando Retrieval-Augmented Dual Instruction Tuning (RA-DIT), “una metodología de ajuste ligero que proporciona una tercera opción al equipar cualquier modelo de lenguaje grande con capacidades de recuperación”.

El cambio de modelos RAG a modelos RCG desafía el papel de la información en el entrenamiento. En lugar de ser tanto el repositorio de información como el intérprete de la información en respuesta a una solicitud, con RCG la funcionalidad del modelo cambia principalmente a ser un intérprete en contexto de la información recuperada (generalmente curada por empresas). Esto puede requerir un enfoque modificado para el pre-entrenamiento y el ajuste fino, ya que los objetivos actuales utilizados para entrenar modelos de lenguaje pueden no ser adecuados para este tipo de aprendizaje. RCG requiere diferentes habilidades del modelo, como un contexto más largo, interpretabilidad de datos, curaduría de datos y otros nuevos desafíos.

Aún hay muy pocos ejemplos de sistemas RCG en el ámbito académico o de la industria. En un caso, investigadores de Kioxia Corporation crearon el código abierto SimplyRetrieve, que utiliza una arquitectura RCG para mejorar el rendimiento de los LLM separando la interpretación del contexto y la memorización del conocimiento. Implementado en un modelo Wizard-Vicuna-13B, los investigadores descubrieron que RCG respondía con precisión a una consulta sobre la ubicación de una fábrica de una organización. En contraste, RAG intentó integrar la base de conocimientos recuperada con el conocimiento de la organización de Wizard-Vicuna. Esto resultó en información parcialmente errónea o alucinaciones. Este es solo un ejemplo: RAG y la generación sin recuperación (ROG) pueden ofrecer respuestas correctas en otras situaciones.

Figura 3. Comparación de la generación centrada en la recuperación (RCG), generación con recuperación aumentada (RAG) y generación sin recuperación (ROG). Las respuestas correctas se muestran en azul mientras que las alucinaciones se muestran en rojo. Crédito de la imagen: Kioxia Corporation.

De cierta manera, la transición de RAG a RCG se puede asemejar a la diferencia en la programación al usar constantes (RAG) y variables (RCG). Cuando un modelo de IA responde a una pregunta sobre un Ford Mustang convertible, un modelo grande estará familiarizado con muchos detalles relacionados del automóvil, como el año de introducción y las especificaciones del motor. El modelo grande también puede agregar algunas actualizaciones recuperadas recientemente, pero responderá principalmente en función de términos conocidos internamente o constantes específicas. Sin embargo, cuando se implementa un modelo en una empresa de vehículos eléctricos que se prepara para lanzar su próximo automóvil, el modelo debe razonar e interpretar de manera compleja, ya que la mayoría de los datos serán desconocidos. El modelo deberá entender cómo usar el tipo de información, como los valores de las variables, para dar sentido a los datos.

Esquema: Generalización y abstracción como una competencia durante la inferencia

Gran parte de la información recuperada en entornos empresariales (organización y personas de negocios, productos y servicios, procesos internos y activos) probablemente no haya sido vista por el modelo GenAI correspondiente durante el preentrenamiento y probablemente se muestree durante el ajuste fino. Esto implica que la arquitectura del transformador no está colocando palabras o términos “conocidos” (es decir, previamente ingeridos por el modelo) como parte de su resultado generado. En cambio, se requiere que la arquitectura coloque términos invisibles dentro de una interpretación adecuada en contexto. Esto es algo similar a cómo el aprendizaje en contexto ya permite algunas nuevas capacidades de razonamiento en los LLM sin entrenamiento adicional.

Con este cambio, se vuelven necesarias nuevas mejoras en generalización y abstracción. Una competencia clave que debe mejorarse es la capacidad de utilizar esquemas aprendidos al interpretar y utilizar términos o tokens invisibles encontrados durante el tiempo de inferencia a través de indicaciones. Un esquema en la ciencia cognitiva “describe un patrón de pensamiento o comportamiento que organiza categorías de información y las relaciones entre ellas”. Un esquema mental “puede describirse como una estructura mental, un marco que representa algún aspecto del mundo”. De manera similar, en los modelos GenAI, el esquema es un mecanismo esencial de abstracción necesario para la interpretación adecuada de los tokens, términos y datos invisibles. Los modelos de hoy ya muestran un buen dominio de la construcción e interpretación de esquemas emergentes, de lo contrario no podrían realizar tareas generativas en datos de contexto complejos invisibles de manera tan efectiva como lo hacen. A medida que el modelo recupera información previamente invisible, debe identificar el esquema de mejor coincidencia para los datos. Esto permite que el modelo interprete los datos invisibles a través del conocimiento relacionado con el esquema, no solo información explícita incorporada en el contexto. Es importante tener en cuenta que, en esta discusión, me refiero a los modelos de redes neuronales que aprenden y abstraen el esquema como una capacidad emergente, en lugar de la clase de soluciones que se basan en un esquema explícito representado en un grafo de conocimiento y referenciado durante el tiempo de inferencia.

Al observar a través de la lente de los tres tipos de capacidades del modelo (competencias cognitivas, habilidades funcionales y acceso a información), la abstracción y el uso de esquemas pertenecen claramente a la categoría de competencias cognitivas. En particular, los modelos pequeños deben poder realizar comparativamente igual que los modelos mucho más grandes (dado los datos recuperados apropiados) si perfeccionan la habilidad de construir y utilizar esquemas en la interpretación de datos. Se espera que el preentrenamiento basado en un plan de estudios relacionado con los esquemas impulse las competencias cognitivas en los modelos. Esto incluye la capacidad de los modelos para construir una variedad de esquemas, identificar los esquemas apropiados a usar en base al proceso generativo e insertar/utilizar la información con el esquema creado para crear el mejor resultado.

Por ejemplo, los investigadores mostraron cómo los actuales LLM pueden aprender esquemas básicos utilizando el marco de Hipótesis-a-Teorías (HtT). Los investigadores descubrieron que un LLM puede ser utilizado para generar reglas que luego sigue para resolver problemas de razonamiento numérico y relacional. Las reglas descubiertas por GPT-4 podrían considerarse como un esquema detallado para comprender las relaciones familiares (ver Figura 4). Los futuros esquemas de relaciones familiares pueden ser aún más concisos y poderosos.

Figura 4. Usando el conjunto de datos CLUTRR para el razonamiento relacional, el marco de Hipótesis-a-Teorías impulsa a GPT-4 a generar reglas similares a esquemas para que el LLM las siga al responder preguntas de prueba. Crédito de la imagen: Zhu et al.

Aplicando esto a un caso de negocios simple, un modelo GenAI podría usar un esquema para comprender la estructura de la cadena de suministro de una empresa. Por ejemplo, saber que “B es un proveedor de A” y “C es un proveedor de B” implica que “C es un proveedor de segundo nivel de A” sería importante al analizar documentos en busca de posibles riesgos en la cadena de suministro.

En un caso más complejo, como enseñar a un modelo GenAI las variaciones y matices de documentar la visita de un paciente a un proveedor de atención médica, un esquema emergente establecido durante la pre-entrenamiento o ajuste fino proporcionaría una estructura para comprender la información recuperada para generar informes o respaldar las preguntas y respuestas del equipo de atención médica. El esquema podría surgir en el modelo dentro de un entrenamiento/ajuste fino más amplio en casos de atención al paciente, que incluyen citas, así como otros elementos complejos como pruebas y procedimientos. A medida que el modelo GenAI se expone a todos los ejemplos, debería crear la experiencia para interpretar datos parciales del paciente que se proporcionarán durante la inferencia. La comprensión del modelo del proceso, las relaciones y las variaciones le permitirá interpretar correctamente casos de pacientes previamente no vistos sin requerir la información del proceso en la solicitud. En cambio, no debe intentar memorizar información de pacientes específicos a los que se expuso durante la pre-entrenamiento o ajuste fino. Tal memorización sería contraproducente porque la información de los pacientes cambia continuamente. El modelo debe aprender los conceptos en lugar de los casos particulares. Esta configuración también minimizaría posibles preocupaciones de privacidad.

Resumen

A medida que GenAI se implementa a gran escala en empresas de todas las industrias, hay un cambio distintivo hacia la dependencia de información propietaria de alta calidad, así como requisitos de rastreabilidad y verificabilidad. Estos requisitos clave, junto con la presión sobre la eficiencia de costos y la aplicación enfocada, están impulsando la necesidad de modelos GenAI pequeños y específicos que estén diseñados para interpretar datos locales, en su mayoría invisibles durante el proceso de pre-entrenamiento. Los sistemas centrados en la recuperación requieren elevar algunas competencias cognitivas que pueden ser dominadas por los modelos GenAI de aprendizaje profundo, como construir e identificar esquemas adecuados para usar. Mediante el uso de RCG y guiando el proceso de pre-entrenamiento y ajuste fino para crear generalizaciones y abstracciones que reflejen constructos cognitivos, GenAI puede dar un salto en su capacidad para comprender esquemas y dar sentido a datos invisibles desde la recuperación. La abstracción refinada (como el razonamiento basado en esquemas) y las competencias cognitivas altamente eficientes parecen ser la próxima frontera.

Más información: Serie GenAI

Supervivencia del más apto: los modelos compactos de generación de IA son el futuro para una IA rentable a gran escala

Referencias

Gillis, A. S. (2023, 5 de octubre). generación mejorada por recuperación. Empresa de IA. https://www.techtarget.com/searchenterpriseai/definition/retrieval-augmented-generation
Singer, G. (2023, 28 de julio). Supervivencia del más apto: los modelos compactos de generación de IA son el futuro para una IA rentable a gran escala. VoAGI. https://towardsdatascience.com/survival-of-the-fittest-compact-generative-ai-models-are-the-future-for-cost-effective-ai-at-scale-6bbdc138f618
Nuevos modelos y productos para desarrolladores anunciados en DevDay. (s.f.). https://openai.com/blog/new-models-and-developer-products-announced-at-devday
Meta IA. (s.f.). Presentación de Llama 2. https://ai.meta.com/llama/
Lewis, P. (2020, 22 de mayo). Generación mejorada por recuperación para tareas de PNL basadas en el conocimiento. arXiv.org. https://arxiv.org/abs/2005.11401
LangChain. (s.f.). https://www.langchain.com
Haystack. (s.f.). Haystack. https://haystack.deepset.ai/
Guu, K. (2020, 10 de febrero). REALM: Pre-entrenamiento del modelo de lenguaje mejorado por recuperación. arXiv.org. https://arxiv.org/abs/2002.08909
Intel Labs. (s.f.). GitHub — Intel Labs/FastRAG: marco de mejora de recuperación y generación eficiente. GitHub. https://github.com/IntelLabs/fastRAG
Fleischer, D. (2023, 20 de agosto). Preguntas y respuestas de dominio abierto utilizando recuperadores densos en fastRAG — Daniel Fleischer — VoAGI. https://medium.com/@daniel.fleischer/open-domain-q-a-using-dense-retrievers-in-fastrag-65f60e7e9d1e
Lin, X. V. (2023, 2 de octubre). RA-DIT: Ajuste dual mejorado por recuperación de instrucciones. arXiv.org. https://arxiv.org/abs/2310.01352
Ng, Y. (2023, 8 de agosto). SimplyRetrieve: una herramienta de IA generativa privada y liviana centrada en la recuperación. arXiv.org. https://arxiv.org/abs/2308.03983
Colaboradores de Wikipedia. (2023, 27 de septiembre). Esquema (psicología). Wikipedia. https://en.wikipedia.org/wiki/Schema_(psychology)
Colaboradores de Wikipedia. (2023a, 31 de agosto). Modelo mental. Wikipedia. https://en.wikipedia.org/wiki/Mental_schema
Zhu, Z. (2023, 10 de octubre). Los modelos de lenguaje grandes pueden aprender reglas. arXiv.org. https://arxiv.org/abs/2310.07064

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

artificial intelligenceGenerative Ai ToolsLarge Language ModelsNotes From Industry

Was this article helpful?

93 out of 132 found this helpful

La recuperación del conocimiento toma el centro del escenario

La arquitectura GenAI se está moviendo hacia modelos de generación centrados en la recuperación interpretativa

Usos de GenAI por parte de los consumidores frente a los usos empresariales

Transición a la Generación Centrada en la Recuperación: Diseñando alrededor de la Extracción de Información Indexada

Esquema: Generalización y abstracción como una competencia durante la inferencia

Resumen

Más información: Serie GenAI

Referencias

Was this article helpful?

Desbloquea el avance de la comprensión de video de IA con MM-VID para GPT-4V(isión)

Una Guía Completa para la División de Entrenamiento-Prueba-Validación en 2023

Inteligencia Artificial

El jefe de la búsqueda de Google dice que la empresa invierte para evitar convertirse en carroña'.

Falta de representación de nativos americanos en roles tecnológicos en Estados Unidos'.

Utilizando Psicología para Fortalecer la Ciberseguridad

Silicon Valley se enfrenta a la idea de que la 'singularidad' está aquí.

Cómo rejuvenecer usando IA Descubierto nuevo medicamento contra el envejecimiento.

Investigadores enseñan a una IA a escribir mejores leyendas de gráficos