El foso para la IA empresarial es RAG + Ajuste fino aquí está la razón

RAG + Ajuste fino El camino para el éxito de la IA empresarial

Para tener éxito con la IA generativa a gran escala, debemos dar a las LLM el cuidado que merecen. Ingresa RAG y el ajuste fino.

Foto de Volodymyr Hryshchenko en Unsplash.

El entusiasmo alrededor de las LLM es sin precedentes, pero está justificado. Desde imágenes generadas por IA del Papa vestido de pies a cabeza con Balenciaga hasta agentes de soporte al cliente sin pulso, la IA generativa tiene el potencial de transformar la sociedad tal como la conocemos.

Y de muchas maneras, las LLMs van a hacer que los ingenieros de datos sean más valiosos, ¡y eso es emocionante!

Sin embargo, una cosa es mostrarle a tu jefe una demostración genial de una herramienta de descubrimiento de datos o un generador de texto a SQL, y otra cosa es usarlo con los datos propietarios de tu empresa, o incluso más preocupante, los datos de los clientes.

Con demasiada frecuencia, las empresas se apresuran a construir aplicaciones de IA sin prever el impacto financiero y organizativo de sus experimentos. Y no es culpa suya, los ejecutivos y las juntas directivas son responsables de gran parte de la mentalidad “apresurémonos y vayamos” en torno a esta (y la mayoría) de las nuevas tecnologías. (¿Recuerdan los NFT?).

Para que la IA, especialmente la IA generativa, tenga éxito, debemos dar un paso atrás y recordar cómo cualquier software se vuelve empresarialmente listo. Para llegar allí, podemos tomar pautas de otras industrias para comprender cómo luce la preparación empresarial y aplicar estos principios a la IA generativa.

En mi opinión, la IA generativa lista para la empresa debe ser:

  • Segura y privada: Tu aplicación de IA debe asegurar que tus datos estén seguros, sean privados y cumplan con las normativas, con los controles de acceso adecuados. Piensa en: SegOps para IA.
  • Escala: Tu aplicación de IA debe ser fácil de implementar, usar y actualizar, además de ser rentable. No comprarías ni construirías una aplicación de datos si tomara meses implementarla, fuera tediosa de usar e imposible de actualizar sin introducir otros millones de problemas. No debemos tratar las aplicaciones de IA de manera diferente.
  • Confiable: Tu aplicación de IA debe ser lo suficientemente confiable y consistente. Me sería difícil encontrar a un director de tecnología dispuesto a apostar su carrera comprando o construyendo un producto que produzca código poco confiable o genere información engañosa y desordenada.

Con estas directrices en mente, ha llegado el momento de empezar a dar a la IA generativa la atención que merece. Pero no es tan fácil…

¿Por qué es difícil lograr la IA empresarial?

En pocas palabras, la infraestructura subyacente para escalar, asegurar y operar aplicaciones LLM aún no está lista.

A diferencia de la mayoría de las aplicaciones, la IA es en gran medida una caja negra. Sabemos qué estamos colocando (datos sin procesar, a menudo no estructurados) y sabemos qué estamos obteniendo, pero no sabemos cómo llegó allí. Y eso es difícil de escalar, asegurar y operar.

Toma por ejemplo GPT-4. Si bien GPT-4 superó con creces a GPT 3.5 en algunas tareas (como tomar el SAT y el examen de Cálculo AB de AP), algunas de sus salidas estaban llenas de alucinaciones o carecían del contexto necesario para cumplir adecuadamente estas tareas. Las alucinaciones son causadas por una variedad de factores, desde embeddings deficientes hasta cortes de conocimiento, y afectan con frecuencia la calidad de las respuestas generadas por LLMs disponibles públicamente o abiertos entrenados con información recopilada de internet, que son la mayoría de los modelos.

Para reducir las alucinaciones y, aún más importante, para responder preguntas comerciales significativas, las empresas necesitan mejorar los LLM con sus propios datos exclusivos, que incluyen el contexto empresarial necesario. Por ejemplo, si un cliente solicita a un chatbot de una aerolínea que cancele su boleto, el modelo necesitaría acceder a información sobre el cliente, sobre sus transacciones pasadas, sobre las políticas de cancelación y potencialmente otras piezas de información. Todo esto actualmente existe en bases de datos y almacenes de datos.

Sin ese contexto, una IA solo puede razonar con la información pública, típicamente publicada en Internet, en la que fue entrenada originalmente. Y aquí radica el dilema: exponer datos empresariales propietarios e incorporarlos en flujos de trabajo empresariales o experiencias del cliente casi siempre requiere seguridad sólida, escalabilidad y confiabilidad.

Las dos vías para una IA lista para empresas: RAG y ajuste fino

Cuando se trata de llevar la IA al mundo empresarial, las partes más críticas llegan al final del proceso de desarrollo de LLM: generación mejorada con recuperación (RAG) y ajuste fino.

Es importante tener en cuenta, sin embargo, que RAG y ajuste fino no son enfoques mutuamente excluyentes, y deben utilizarse, a menudo en conjunto, según sus necesidades específicas y caso de uso.

Cuándo usar RAG

Imagen cortesía del autor.

RAG es un marco que mejora la calidad de las salidas de LLM al proporcionar al modelo acceso a una base de datos mientras intenta responder una consulta. La base de datos, al ser un cuerpo de datos potencialmente propietarios, curado y confiable, permite que el modelo incorpore información actualizada y confiable en sus respuestas y razonamientos. Este enfoque es más adecuado para aplicaciones de IA que requieren información contextual adicional, como respuestas de soporte al cliente (como nuestro ejemplo de cancelaciones de vuelos) o búsqueda semántica en la plataforma de comunicación empresarial de su empresa.

Las aplicaciones de RAG están diseñadas para recuperar información relevante de fuentes de conocimiento antes de generar una respuesta, lo que las hace adecuadas para consultar fuentes de datos estructurados y no estructurados, como bases de datos de vectores y almacenes de características. Al recuperar información para aumentar la precisión y confiabilidad de los LLM en la generación de salidas, RAG también es altamente efectivo para reducir alucinaciones y mantener bajos los costos de entrenamiento. RAG también brinda a los equipos un nivel de transparencia, ya que conocen la fuente de los datos que están enviando al modelo para generar nuevas respuestas.

Una cosa que hay que tener en cuenta sobre las arquitecturas de RAG es que su rendimiento depende en gran medida de su capacidad para construir canalizaciones de datos efectivas que pongan los datos empresariales a disposición de los modelos de IA.

Cuándo usar ajuste fino

Imagen cortesía del autor.

El ajuste fino es el proceso de entrenar un LLM existente en un conjunto de datos más pequeño, específico de una tarea y etiquetado, ajustando los parámetros y representaciones del modelo en función de estos nuevos datos. El ajuste fino se basa en conjuntos de datos preseleccionados que informan tanto la recuperación de información como los matices y terminologías del dominio para el cual desea generar salidas.

En nuestra experiencia, el ajuste fino es más adecuado para situaciones específicas del dominio, como responder a consignas detalladas en un tono o estilo específicos, por ejemplo, un informe legal o un ticket de soporte al cliente. También es perfecto para superar el sesgo de información y otras limitaciones, como repeticiones o inconsistencias en el lenguaje. Varios estudios realizados en el último año han demostrado que los modelos ajustados tienen un rendimiento significativamente mejor que las versiones disponibles de GPT-3 y otros modelos disponibles públicamente. Se ha establecido que, para muchos casos de uso, un modelo pequeño ajustado puede superar a un modelo grande de propósito general, lo que hace que el ajuste fino sea una opción viable para la eficiencia de costos en determinados casos.

A diferencia de RAG, el ajuste fino a menudo requiere menos datos pero a expensas de más tiempo y recursos informáticos. Además, el ajuste fino opera como una caja negra; dado que el modelo internaliza el nuevo conjunto de datos, se vuelve difícil determinar el razonamiento detrás de las nuevas respuestas y las alucinaciones siguen siendo una preocupación relevante.

El ajuste fino, al igual que las arquitecturas RAG, requiere construir canalizaciones de datos efectivas que pongan (¡etiquetados!) los datos empresariales a disposición del proceso de ajuste fino. No es una tarea fácil.

Por qué probablemente tiene sentido RAG para tu equipo

Imagen cortesía del autor.

Es importante recordar que RAG y el ajuste fino no son enfoques mutuamente excluyentes, tienen fortalezas y debilidades variables, y se pueden utilizar juntos. Sin embargo, para la gran mayoría de los casos de uso, RAG probablemente tiene más sentido cuando se trata de ofrecer aplicaciones empresariales de IA generativa.

Esto es por qué:

  • La seguridad y privacidad de RAG son más manejables: Las bases de datos tienen roles y seguridad incorporados, a diferencia de los modelos de IA, y es bastante comprensible quién ve qué debido a los controles de acceso estándar. Además, tienes más control sobre qué datos se utilizan al acceder a un corpus de datos propietarios seguro y privado. Con el ajuste fino, cualquier dato incluido en el conjunto de entrenamiento queda expuesto a todos los usuarios de la aplicación, sin formas obvias de administrar quién ve qué. En muchos escenarios prácticos, especialmente cuando se trata de datos de clientes, no tener ese control no es una opción.
  • RAG es más escalable: RAG es menos costoso que el ajuste fino porque este último implica actualizar todos los parámetros de un modelo grande, lo que requiere una potencia informática extensiva. Además, RAG no requiere etiquetado y creación de conjuntos de entrenamiento, un proceso intensivo en recursos humanos que puede llevar semanas y meses perfeccionar por modelo.
  • RAG brinda resultados más confiables. En pocas palabras, RAG funciona mejor con datos dinámicos, generando resultados determinísticos a partir de un conjunto de datos curado actualizado. Dado que el ajuste fino actúa en gran medida como una caja negra, puede ser difícil determinar cómo el modelo generó resultados específicos, lo que disminuye la confianza y la transparencia. Con el ajuste fino, las alucinaciones e inexactitudes son posibles e incluso probables, ya que se confía en los pesos del modelo para codificar información empresarial de manera deficiente.

En nuestra humilde opinión, la IA empresarial lista para usar dependerá principalmente de RAG, con el ajuste fino involucrado en casos de uso más sutiles o específicos del dominio. Para la gran mayoría de aplicaciones, el ajuste fino será un plus para escenarios de nicho y se utilizará con mucha más frecuencia una vez que la industria pueda reducir el costo y los recursos necesarios para ejecutar la IA a gran escala.

Independientemente de cuál uses, sin embargo, el desarrollo de tu aplicación de IA requerirá canalizaciones que alimenten estos modelos con datos de la empresa a través de algún almacén de datos (ya sea Snowflake, Databricks, una base de datos vectorial independiente como Pinecone o cualquier otra cosa). Al final del día, si la IA generativa se utiliza en procesos internos para extraer análisis e información de datos no estructurados, se utilizará en… redoble de tambores… una canalización de datos.

Para que RAG funcione, necesitas observabilidad de datos

A principios de la década de 2010, el aprendizaje automático se promocionaba como un algoritmo mágico que realizaba milagros a pedido si se le daban los pesos perfectos a sus características. Sin embargo, lo que mejoraba típicamente el rendimiento del aprendizaje automático era invertir en características de alta calidad y, en particular, en calidad de datos.

Del mismo modo, para que la IA empresarial funcione, debes centrarte en la calidad y confiabilidad de los datos en los que dependen los modelos generativos, probablemente a través de una arquitectura RAG.

Dado que se basa en datos dinámicos, a veces incluso actualizados al minuto, RAG requiere observabilidad de datos para cumplir con las expectativas de estar lista para la empresa. Los datos pueden fallar por cualquier motivo, como datos de terceros con formato incorrecto, código de transformación defectuoso o una tarea de flujo de trabajo fallida. Y siempre lo hacen.

La observabilidad de datos brinda a los equipos la capacidad de monitorear, alertar, solucionar problemas y resolver problemas de datos o canalizaciones a gran escala en todo su ecosistema de datos. Durante años, ha sido una capa imprescindible en la pila de datos moderna; a medida que RAG adquiere importancia y la IA madura, la observabilidad se convertirá en un socio fundamental en el desarrollo de LLM.

La única forma en que RAG — y el AI empresarial — funcione es si puedes confiar en los datos. Para lograr esto, los equipos necesitan una forma escalable y automatizada de garantizar la confiabilidad de los datos, así como una forma de nivel empresarial de identificar la causa raíz y resolver los problemas rápidamente — antes de que afecten a los LLMs que atienden.

Entonces, ¿cuál es la pila de LLM de facto?

La infraestructura y la hoja de ruta técnica de las herramientas de IA se están desarrollando en este mismo momento, con nuevas empresas emergiendo todos los días para resolver diversos problemas, y gigantes de la industria afirmando que ellos también están abordando estos desafíos. Cuando se trata de incorporar datos empresariales en la IA, veo tres principales enfoques en esta carrera.

El primer enfoque: bases de datos vectoriales. Pinecone, Weaviate y otros se están posicionando como las plataformas de bases de datos imprescindibles para impulsar las arquitecturas RAG. Si bien estas tecnologías muestran mucha promesa, requieren implementar una nueva parte de la pila y crear flujos de trabajo para respaldarla desde un punto de vista de seguridad, escalabilidad y confiabilidad.

El segundo enfoque: versiones alojadas de modelos construidos por desarrolladores de LLM externos como OpenAI o Anthropic. Actualmente, la mayoría de los equipos obtienen su solución de IA generativa a través de APIs con estos líderes emergentes en IA debido a su facilidad de uso. ¿Conectarse a la API de OpenAI y aprovechar un modelo de vanguardia en minutos? Contamos con ello. Este enfoque funciona muy bien fuera de la caja si necesitas que el modelo genere código o resuelva problemas específicos bien conocidos basados en información pública. Si realmente deseas incorporar información patentada en estos modelos, podrías usar las funciones de ajuste fino o RAG incorporadas que proporcionan estas plataformas.

Y finalmente, el tercer enfoque: la pila de datos moderna. Snowflake y Databricks ya han anunciado que están integrando bases de datos vectoriales en sus plataformas, así como otras herramientas para ayudar a incorporar datos que ya se almacenan y procesan en estas plataformas en los LLMs. Esto tiene mucho sentido para muchos y permite a los equipos de datos encargados de las iniciativas de IA aprovechar las herramientas que ya utilizan. ¿Por qué reinventar la rueda cuando ya tienes las bases establecidas? Sin mencionar la posibilidad de poder combinar fácilmente datos relacionales tradicionales con datos vectoriales… Al igual que los otros dos enfoques, este tiene algunas desventajas: Snowflake Cortex, Lakehouse AI y otros productos de MDS + IA están en sus etapas iniciales y requieren una inversión inicial para incorporar la búsqueda vectorial y el entrenamiento de modelos en tus flujos de trabajo existentes. Para obtener una visión más detallada de este enfoque, te animo a leer el artículo pertinente de Meltano sobre por qué la mejor pila de LLM podría ser la que está justo frente a ti.

Independientemente del enfoque elegido, las preguntas empresariales valiosas no pueden ser respondidas por un modelo entrenado en los datos de Internet. Necesita tener contexto desde dentro de la empresa. Y al proporcionar este contexto de manera segura, escalable y confiable, podemos lograr una IA lista para la empresa.

El futuro de la IA empresarial está en tus pipelines

Para que la IA cumpla con este potencial, los equipos de datos y de IA deben tratar la ampliación de LLM con el cuidado que merecen y hacer de la seguridad, la escalabilidad y la confiabilidad una consideración de primer nivel. Ya sea que tu caso de uso requiera de RAG o ajuste fino — o ambos — deberás asegurarte de que los fundamentos de tu pila de datos estén en su lugar para mantener los costos bajos, el rendimiento consistente y la confiabilidad alta.

Los datos deben ser seguros y privados; la implementación de LLM debe ser escalable; y los resultados deben ser confiables. Mantener un control constante sobre la calidad de los datos a través de la observabilidad es fundamental para estas demandas.

¿La mejor parte de esta evolución, desde demostraciones aisladas a IA lista para la empresa? RAG brinda a los ingenieros de datos el mejor puesto en la mesa cuando se trata de ser dueños e impulsar el retorno de la inversión en inversiones de IA generativa.

Estoy listo para la IA lista para la empresa. ¿Y tú?

Lior Gavish contribuyó a este artículo.

Conéctate con Barr en LinkedIn para obtener más ideas sobre datos, IA y el futuro de la confianza en los datos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce FlexGen un motor de generación de alto rendimiento para ejecutar grandes modelos de lenguaje (LLM) con memoria limitada de GPU.

Recientemente, los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han mostrado un rendimiento impresion...

Inteligencia Artificial

Inteligencia Artificial Explicativa (IAE)

Hola, tecnófilos y mentes curiosas. Bienvenidos al próximo capítulo del libro de Inteligencia Artificial. Adentrémono...

Inteligencia Artificial

ChatGPT Plus Desata Emocionantes Nuevas Funciones para Entusiastas de los Datos

OpenAI está lanzando una versión beta que promete cambiar por completo la forma en que nos comunicamos con esta IA de...

Inteligencia Artificial

El Gobierno de Canadá llega a un acuerdo con Google sobre la Ley de Noticias en línea.

El acuerdo se produce tres semanas antes de que entren en vigor las reglas de la Ley de Noticias en Línea.

Inteligencia Artificial

Investigadores de Google y del MIT presentan StableRep Revolucionando el entrenamiento de IA con imágenes sintéticas para un aprendizaje automático mejorado

Los investigadores han explorado el potencial de utilizar imágenes sintéticas generadas por modelos de texto a imagen...