¿Está lista su solicitud de LLM para el público?

Is your LLM application ready for the public?

Principales preocupaciones al producir aplicaciones basadas en modelos de lenguaje grandes (LLM)

Los modelos de lenguaje grandes (LLM) se están convirtiendo en el pan de cada día de las aplicaciones modernas de procesamiento del lenguaje natural (NLP) y, en muchos sentidos, han reemplazado una variedad de herramientas más especializadas como modelos de reconocimiento de entidades nombradas, modelos de preguntas y respuestas, y clasificadores de texto. Como tal, es difícil imaginar un producto NLP que no use un LLM de alguna manera. Si bien los LLM traen una serie de beneficios, como una mayor personalización y la generación de diálogos creativos, es importante entender sus fallas y cómo abordarlas al integrar estos modelos en un producto de software que sirva a los usuarios finales. Como resulta, el monitoreo es bien planteado para abordar muchos de estos desafíos y es una herramienta esencial para cualquier empresa que trabaje con LLM.

Datos, privacidad e inyección de impulsos

Imagen de TheDigitalArtist via Pixabay

Datos y privacidad

La privacidad y el uso de datos son preocupaciones principales del consumidor moderno, y a raíz de escándalos conocidos de compartir datos como Cambridge Analytica, los consumidores son cada vez menos propensos a usar servicios y productos que pongan en riesgo su privacidad personal. Si bien los LLM brindan a los usuarios un grado increíble de personalización, es importante entender los riesgos que representan. Como con todos los modelos de aprendizaje automático, los LLM son vulnerables a ataques dirigidos diseñados para revelar datos de entrenamiento y están particularmente en riesgo debido a su naturaleza generativa y pueden incluso filtrar datos accidentalmente mientras realizan generación libre. Por ejemplo, en una publicación de blog de 2020, Nicholas Carlini, un científico investigador en Google Brain, discutió cómo los LLM, como GPT, pueden ser provocados de tal manera que los lleva a revelar información de identificación personal, como el nombre, la dirección y la dirección de correo electrónico que se encuentran en los datos de entrenamiento del modelo. Esto sugiere que las empresas que afinan los LLM en los datos de sus clientes probablemente engendrarán estos mismos tipos de riesgos de privacidad. Similarmente, un artículo de investigadores de Microsoft corrobora estas afirmaciones y sugiere estrategias específicas de mitigación que utilizan técnicas de privacidad diferencial para entrenar LLM mientras se reducen las preocupaciones de fuga de datos. Desafortunadamente, muchas empresas no pueden aprovechar estas técnicas debido al uso de API de LLM que no les brindan control sobre el proceso de afinamiento. La solución para estas empresas radica en insertar un paso de monitoreo que valide y restrinja las salidas de un modelo antes de devolver los resultados a un usuario final. De esta manera, las empresas pueden identificar y marcar posibles instancias de fuga de datos de entrenamiento antes de la ocurrencia real de una violación de privacidad. Por ejemplo, una herramienta de monitoreo puede aplicar técnicas como el reconocimiento de entidades nombradas y el filtrado de Regex para identificar nombres de personas, direcciones, correos electrónicos y otra información sensible generada por un modelo antes de que llegue a manos equivocadas. Esto es particularmente esencial para organizaciones que trabajan en un espacio restringido de privacidad, como la atención médica o las finanzas, donde entran en juego regulaciones estrictas como HIPAA y FTC/FDIC. Incluso las empresas que trabajan internacionalmente corren el riesgo de violar regulaciones complejas específicas de la ubicación, como el GDPR de la UE.

Inyección de impulsos

La inyección de impulsos se refiere al proceso (a menudo malicioso) de diseñar impulsos de LLM que de alguna manera “engañen” o confundan al sistema para proporcionar salidas dañinas. Por ejemplo, un artículo reciente mostró cómo los ataques de inyección de impulsos bien diseñados hacen posible subvertir el modelo GPT-4 de OpenAI y hacer que proporcione información falsa y promueva teorías conspirativas. Uno puede imaginar escenarios aún más nefastos en los que un usuario provoque a un LLM para que proporcione consejos sobre cómo construir una bomba, dar detalles sobre cómo suicidarse mejor o generar código que se pueda usar para infectar otros ordenadores. La vulnerabilidad a los ataques de inyección de impulsos es un efecto secundario desafortunado de cómo se entrenan los LLM, y es difícil hacer algo en el front-end que prevenga todos los posibles ataques de inyección de impulsos. Incluso los LLM más robustos y recientes, como el ChatGPT de OpenAI, que se alineó específicamente para la seguridad, han demostrado ser vulnerables a las inyecciones de impulsos.

Debido a las múltiples formas en que la inyección de impulsos puede manifestarse, es casi imposible protegerse contra todas las posibilidades. Como tal, el monitoreo de las salidas generadas por LLM es crucial ya que proporciona un mecanismo para identificar y marcar información sospechosa, así como generaciones francamente dañinas. El monitoreo puede usar heurísticas simples de NLP o clasificadores de ML adicionales para marcar las respuestas del modelo que contienen contenido dañino e interceptarlos antes de que se devuelvan al usuario. De manera similar, el monitoreo de los impulsos en sí mismos puede capturar algunos de los dañinos antes de que se pasen al modelo.

Alucinaciones

El término alucinación se refiere a la propensión de un LLM a veces a “inventar” salidas que no están realmente fundamentadas en la realidad. La inyección de indicaciones y las alucinaciones pueden manifestarse como dos caras de la misma moneda, aunque con la inyección de indicaciones, la generación de falsedades es una intención deliberada del usuario, mientras que las alucinaciones son un efecto secundario no deseado del objetivo de entrenamiento de un LLM. Debido a que los LLM están entrenados para predecir la siguiente palabra más probable en una secuencia en cada paso de tiempo, pueden generar texto altamente realista. Por lo tanto, las alucinaciones son una simple consecuencia del hecho de que lo que es más probable no siempre es verdadero.

Imagen de Matheus Bertelli vía Pexels

La última generación de LLM, como GPT-3 y GPT-4, están optimizados utilizando un algoritmo llamado Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF, por sus siglas en inglés) con el fin de igualar la opinión subjetiva de un humano sobre lo que hace una buena respuesta a una indicación. Si bien esto ha permitido que los LLM alcancen niveles más altos de fluidez en la conversación, a veces también los lleva a hablar con demasiada confianza al emitir sus respuestas. Por ejemplo, no es raro hacer una pregunta a ChatGPT y que éste dé una respuesta con confianza que parece plausible a primera vista, pero que al examinarla más detenidamente resulta ser objetivamente falsa. Dotar a los LLM de la capacidad de proporcionar cuantificaciones de incertidumbre sigue siendo un problema de investigación muy activo y es poco probable que se resuelva en un futuro cercano. Por lo tanto, los desarrolladores de productos basados en LLM deben considerar la monitorización y el análisis de las salidas para detectar alucinaciones y proporcionar respuestas más matizadas que las que los modelos LLM ofrecen por defecto. Esto es especialmente vital en contextos donde las salidas de un LLM pueden guiar algún proceso descendente. Por ejemplo, si un chatbot LLM está ayudando a un usuario a proporcionar recomendaciones de productos y ayudando a realizar un pedido en el sitio web de un minorista, deben estar vigentes procedimientos de monitorización para asegurarse de que el modelo no sugiera la compra de un producto que en realidad no se vende en ese sitio web del minorista.

Costos descontrolados

Como los LLM se están convirtiendo cada vez más en productos básicos a través de API, es importante que las empresas que integran estos modelos en sus productos tengan un plan para evitar aumentos ilimitados en los costos. Sin salvaguardas, puede ser fácil para los usuarios de un producto generar miles de llamadas de API y emitir indicaciones con miles de tokens (piense en el caso en que un usuario copia y pega un documento extremadamente largo en la entrada y pide al LLM que lo analice). Debido a que las API de LLM suelen ser medidas en función del número de llamadas y del recuento de tokens (tanto en la indicación como en la respuesta del modelo), no es difícil ver cómo los costos pueden salir rápidamente de control. Por lo tanto, las empresas deben ser conscientes de cómo crean sus estructuras de precios para compensar estos costos. Además, las empresas deben tener procedimientos de monitorización en marcha que les permitan entender cómo las oleadas de uso impactan los costos y les permiten mitigar estas oleadas imponiendo límites de uso o tomando otras medidas remediativas.

Conclusión

Cada empresa que utiliza LLM en sus productos debe asegurarse de incorporar la monitorización en sus sistemas para evitar y abordar los muchos problemas de los LLM. Además, las soluciones de monitorización utilizadas deben estar específicamente orientadas a las aplicaciones de LLM y permitir a los usuarios identificar posibles violaciones de privacidad, prevenir y/o remediar la inyección de indicaciones, señalar alucinaciones y diagnosticar el aumento de los costos. Las mejores soluciones de monitorización abordarán todas estas preocupaciones y proporcionarán un marco para que las empresas aseguren que sus aplicaciones basadas en LLM estén listas para ser desplegadas al público. Tenga confianza en que su aplicación LLM está completamente optimizada y funciona como se pretende reservando una demostración para ver las amplias capacidades de monitorización de Mona.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Engañando a los clasificadores forenses El poder de los modelos generativos en la generación adversarial de rostros

Los avances recientes en el Aprendizaje Profundo (DL), específicamente en el campo de las Redes Generativas Adversari...

Inteligencia Artificial

Proyecciones de particiones AWS Mejorando el rendimiento de las consultas de Athena

Este artículo proporciona un análisis de las mejoras de rendimiento en las consultas de AWS Athena utilizando la func...

Inteligencia Artificial

Final DXA-nación

La inteligencia artificial (IA) y el aprendizaje automático (ML) están revolucionando la atención médica, llevándonos...