Destilando lo que sabemos

Destilando conocimiento

.fav_bar { float:left; border:1px solid #a7b1b5; margin-top:10px; margin-bottom:20px; } .fav_bar span.fav_bar-label { text-align:center; padding:8px 0px 0px 0px; float:left; margin-left:-1px; border-right:1px dotted #a7b1b5; border-left:1px solid #a7b1b5; display:block; width:69px; height:24px; color:#6e7476; font-weight:bold; font-size:12px; text-transform:uppercase; font-family:Arial, Helvetica, sans-serif; } .fav_bar a, #plus-one { float:left; border-right:1px dotted #a7b1b5; display:block; width:36px; height:32px; text-indent:-9999px; } .fav_bar a.fav_de { background: url(../images/icons/de.gif) no-repeat 0 0 #fff } .fav_bar a.fav_de:hover { background: url(../images/icons/de.gif) no-repeat 0 0 #e6e9ea } .fav_bar a.fav_acm_digital { background:url(‘../images/icons/acm_digital_library.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_acm_digital:hover { background:url(‘../images/icons/acm_digital_library.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_pdf { background:url(‘../images/icons/pdf.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_pdf:hover { background:url(‘../images/icons/pdf.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_more .at-icon-wrapper{ height: 33px !important ; width: 35px !important; padding: 0 !important; border-right: none !important; } .a2a_kit { line-height: 24px !important; width: unset !important; height: unset !important; padding: 0 !important; border-right: unset !important; border-left: unset !important; } .fav_bar .a2a_kit a .a2a_svg { margin-left: 7px; margin-top: 4px; padding: unset !important; }

La magnitud y complejidad de los modelos generativos preentrenados de hoy en día (GPT) es simplemente asombrosa. Por ejemplo, el GPT-3 de OpenAI posee alrededor de 175 mil millones de parámetros, y se especula que el GPT-4 podría tener hasta 10 billones de parámetros. a

Todo esto introduce una sobrecarga enorme en términos de recursos en la nube necesarios, incluyendo ciclos de cómputo y consumo de energía. En este momento, la potencia informática necesaria para entrenar modelos de inteligencia artificial (IA) de última generación está aumentando a una tasa de 15 veces cada dos años. b El costo de entrenar un modelo GPT grande puede llegar a millones de dólares. c Volver a entrenar un modelo para que se ajuste a un dispositivo como una computadora portátil o un teléfono inteligente puede aumentar considerablemente el costo.

Como resultado, hay un enfoque creciente en reducir el tamaño de los modelos GPT sin perder atributos críticos. En muchos casos, los parámetros originales necesarios para construir el modelo ya no son necesarios una vez que existe un modelo GPT terminado. Por lo tanto, a través de una variedad de técnicas, incluyendo cuantización, esparsidad, poda y otros métodos de destilación, es posible reducir el tamaño del modelo con un impacto negligente en el rendimiento.

En enero de 2023, un par de investigadores del Instituto de Ciencia y Tecnología de Austria (ISTA) llevaron los límites de destilación de conocimiento y compresión de modelos a un nuevo nivel. A través de una combinación de cuantización, poda y destilación por capas, descubrieron una manera de reducir el tamaño de un modelo GPT en un 50% de una vez, sin necesidad de volver a entrenar y con una pérdida mínima de precisión. SparseGPT funciona eficientemente en modelos con 10-100+ mil millones de parámetros.

El método de aprendizaje profundo utilizado para lograr esto, SparseGPT , d podría abrir el camino a formas más prácticas de inteligencia artificial generativa, incluyendo sistemas personalizados y optimizados para usuarios particulares, como un agente de viajes, un médico o un ajustador de seguros, al mismo tiempo que se adapta al comportamiento y las necesidades específicas de una persona. Además, la capacidad de cargar incluso modelos GPT reducidos en dispositivos podría introducir una seguridad y privacidad mucho mayor al mantener los datos sensibles fuera de la nube.

“La capacidad de comprimir y ejecutar estos poderosos modelos de lenguaje en dispositivos finales introduce capacidades poderosas”, dice Dan Alistarh, profesor de ISTA y coautor del artículo académico SparseGPT. “Estamos trabajando para encontrar una forma de garantizar resultados precisos y confiables, en lugar de que un modelo colapse y se vuelva inutilizable. Este es un paso significativo hacia adelante”.

Volver arriba

Rompiendo el modelo

La idea de comprimir modelos de IA no es particularmente nueva. A principios de la década de 1980, los investigadores comenzaron a explorar formas de optimizar los datos. De la misma manera en que el cerebro humano puede reducir sinapsis y reentrenarse, aprendieron que a menudo es posible eliminar parámetros no deseados e innecesarios sin que ello afecte significativamente el razonamiento y los resultados. En el caso de los modelos GPT, el objetivo es reducir el tamaño de un modelo pero obtener resultados prácticamente iguales.

“Cuando se entrena inicialmente un modelo, es importante tener un gran número de parámetros. Empíricamente hemos visto que los modelos más grandes son más fáciles de entrenar y pueden extraer información significativa de los datos cuando se sobredimensionan”, dice Amir Gholami, investigador de modelos de lenguaje grandes e IA en la Universidad de California, Berkeley. Sin embargo, una vez que el proceso de entrenamiento está completo y se ha producido la convergencia, “ya no es necesario mantener todos esos parámetros para obtener resultados precisos”, dice.

De hecho, “los investigadores han descubierto que en algunos casos es posible obtener el mismo rendimiento de un modelo de lenguaje grande como GPT que es 100 veces más pequeño que el original sin degradar sus capacidades”, dice Gholami. La pregunta es qué parámetros eliminar y cómo realizar la tarea de la manera más eficiente y rentable posible. No es un asunto menor, porque construir y volver a entrenar un modelo GPT puede implicar miles de horas de GPU y los costos pueden ascender a millones de dólares.

Los científicos de datos utilizan varias técnicas para comprimir modelos como GPT-4 y Bard de Google. En la cuantización, la precisión utilizada para representar los parámetros se reduce de 16 bits a 4 bits; esto reduce el tamaño del modelo en un factor de 4. A medida que el tamaño del modelo se reduce, estos modelos pueden adaptarse a un menor número de GPU, y la latencia de inferencia y la demanda de energía disminuyen. Este enfoque ayuda a evitar un fenómeno bastante reciente de cargas de trabajo que chocan contra una “barrera de memoria”. “Esto significa que el cuello de botella ya no es cuán rápido se pueden realizar los cálculos, sino cuán rápido se puede alimentar datos al sistema. Por lo tanto, menos bytes es mejor”, dice Gholami.

Otra técnica ampliamente utilizada es la esparsez, que consiste en eliminar valores innecesarios que no afectan los datos. Se podría considerar como cuantización con cero bits. La esparsez estructurada implica eliminar grupos enteros de parámetros, lo que facilita la implementación y a menudo produce ganancias de eficiencia directas. El inconveniente es que se sacrifica precisión por velocidad, porque es difícil eliminar grandes cantidades de grupos sin afectar negativamente el modelo. La esparsez no estructurada elimina parámetros redundantes sin ninguna restricción en el patrón de esparsez. Como resultado, se puede conservar la precisión del modelo incluso en niveles de esparsez ultra altos.

Los científicos de datos utilizan estos enfoques, y otros como la poda, que elimina por completo parámetros individuales, para reducir continuamente la sobrecarga de memoria y cálculo de estos modelos. Los modelos resultantes destilados y comprimidos funcionan más rápido, consumen menos energía y, en algunos casos, incluso producen mejores resultados. Como explica Gholami, “terminas con un marco de IA más pequeño pero más eficiente”.

Volver arriba

Aprendiendo el lenguaje de la IA

El enfoque que utilizan los científicos de datos para destilar y comprimir un modelo GPT requiere una red “maestra” para entrenar una red “estudiante”. “El sistema aprende a aproximar un programa que ya existe. Se mapea a una función que ya puedes calcular”, dice Christopher De Sa, profesor asistente en el Departamento de Ciencias de la Computación de la Universidad de Cornell. “Entonces, en el caso de una red neuronal, estás tratando de construir un modelo que tenga la misma precisión que una red neuronal ya existente, pero que sea más pequeño”.

La esparsez se centra en eliminar valores innecesarios que no afectan los datos. Se podría considerar como cuantización con cero bits.

Un problema es que estos marcos a menudo requieren una gran inversión en ajustes y reentrenamiento. “Producen modelos pequeños buenos que muestran una baja pérdida y una alta precisión. Además, los resultados no necesariamente representan al modelo más grande”, dice De Sa. Para muchas aplicaciones, este cambio en algunas predicciones es aceptable, ya que el nivel de precisión sigue siendo alto. “Sin embargo, si te preocupa algo como la privacidad o la seguridad, puedes descubrir que la red más grande no cumple con los requisitos clave porque no hace las mismas predicciones que el modelo original”, agrega.

Escalar los métodos de cuantización, poda y destilación de conocimiento también es un desafío, dice Elias Frantar, candidato a doctor en ISTA y coautor del artículo SparseGPT. Por ejemplo, muchos de los modelos GPT actuales son mil veces más grandes que hace solo unos años, y continúan creciendo a un ritmo frenético. “Esto afecta las técnicas que se utilizan para destilar un modelo. Comprimir un modelo con cientos de miles de millones de parámetros requiere un pensamiento y técnicas diferentes”, dice.

Por lo tanto, cuando los investigadores de ISTA lanzaron el proyecto SparseGPT, adoptaron lo que Alistarh describe como un enfoque “navaja suiza”, combinando poda, cuantización y destilación. El dúo se enfocó en abordar el desafío de manera modular, incluyendo la compresión de varias capas de la red por separado y luego recombinando todas las piezas para producir un modelo completamente comprimido. Si bien este método generó ganancias significativas, no es necesariamente ideal.

“Si pudieras optimizar todo junto, en última instancia producirías los mejores resultados posibles”, dice Frantar. “Pero como esto no es posible hoy en día, la pregunta es: ‘¿cómo podemos llegar a los mejores resultados posibles con los recursos con los que estamos trabajando?'”

Volver arriba

Reduciendo el ruido, aumentando las señales

SparseGPT puede no ser perfecto, pero la técnica ha llevado la compresión de modelos GPT a un nuevo territorio. Ejecutando los modelos de código abierto más grandes, OPT175B y BLOOM-176B, el algoritmo SparseGPT se abrió paso a través de sus más de 175 mil millones de parámetros, aproximadamente 320 gigabytes de datos, en menos de 4.5 horas, con hasta un 60% de dispersión no estructurada. Hubo un aumento insignificante en la perplejidad y, al final, los investigadores pudieron eliminar más de 100 mil millones de pesos sin ninguna deterioro significativo en el rendimiento o la precisión.

El algoritmo se basa en un enfoque inteligente. Logra su éxito descomponiendo la tarea de comprimir todo el modelo en problemas de compresión separados por capa, cada uno de los cuales es una instancia de regresión dispersa. Luego aborda los subproblemas eliminando pesos de manera iterativa, mientras actualiza los pesos restantes para compensar el error incurrido durante el proceso de eliminación. El algoritmo logra mayor eficiencia al congelar algunos pesos en un patrón que maximiza los recursos de cálculo requeridos a lo largo del algoritmo. La precisión y eficiencia resultantes hacen posible abordar modelos con más de 100 mil millones de parámetros por primera vez.

Es notable que una sola GPU identifica los datos que no son necesarios en el modelo, típicamente en pocas horas, y presenta el modelo comprimido de una sola vez y sin necesidad de volver a entrenar. “Una de las cosas interesantes que descubrimos”, dice Alistarh, “es que estos grandes modelos son extremadamente robustos y resistentes al ruido digital. Esencialmente, todo el ruido se filtra a medida que pasa por el modelo, por lo que obtienes una red optimizada para la compresión”.

Este hallazgo es una buena noticia para los desarrolladores de software y otros que deseen construir aplicaciones comerciales. En este momento, varias comunidades de aficionados y hackers están encontrando formas de cargar modelos GPT más pequeños, no siempre con licencia, en dispositivos como el Raspberry Pi, y el equipo de investigadores de la Universidad de Stanford encontró una forma de construir un chat GPT por menos de US$600. Sin embargo, el equipo de Stanford terminó el llamado chatbot Alpaca en abril de 2023 debido a los “costos de alojamiento y las deficiencias de nuestros filtros de contenido”, al tiempo que afirmaba que ofrecía un “rendimiento muy similar” al de CPT-3.5 de OpenAI.

Sin embargo, para llegar al siguiente nivel de destilación de conocimiento y compresión, los investigadores deben llevar la cuantización, la poda, el ajuste fino y otras técnicas más lejos. Alistarh cree que agregar más potencia de cálculo al problema puede ayudar, pero también es necesario explorar diferentes técnicas, como dividir conjuntos de datos en un mayor número de subgrupos, ajustar algoritmos y explorar ponderaciones de dispersión. Esto podría llevar a tasas de compresión del 90% o incluso mejores, dice.

Volver arriba

Los resultados importan

En este momento, nadie sabe cuánta compresión es posible mientras se mantiene un rendimiento óptimo en un modelo dado, De Sa señala que él y otros continúan explorando opciones y enfoques. Los investigadores también dicen que es vital proceder con precaución. Por ejemplo, los cambios en el modelo pueden significar que los resultados pueden carecer de un significado semántico claro, o pueden llevar a resultados desconcertantes, incluyendo alucinaciones que parecen completamente válidas. “Debemos centrarnos en preservar las propiedades del modelo original más allá de la precisión”, dice De Sa. “Es posible terminar con el mismo nivel o incluso un mejor nivel de precisión, pero tener predicciones y resultados significativamente diferentes al modelo más grande”.

Otro problema es que las personas carguen un modelo de lenguaje de IA sofisticado en un dispositivo y lo utilicen con fines deshonestos, como granjas de bots, spam, phishing, noticias falsas y otras actividades ilícitas. Alistarh reconoce que esta es una preocupación legítima y que la comunidad científica de datos debe examinar cuidadosamente la ética involucrada en el uso de un modelo GPT en un dispositivo. Esto ha motivado a muchos investigadores a no publicar los parámetros de entrenamiento y otra información, dice Gholami. En el futuro, los investigadores y las empresas de software deberán considerar qué capacidades son razonables colocar en un dispositivo y qué tipos de resultados y consecuencias son inaceptables.

No obstante, SparseGPT y otros métodos que destilan y comprimen modelos de lenguaje grandes están aquí para quedarse. Los modelos más eficientes cambiarán significativamente la informática y el uso de la IA de lenguaje natural de formas profundas. “Además de construir modelos más eficientes y ahorrar energía, podemos esperar que las técnicas de destilación y compresión impulsen la democratización de los modelos GPT. Esto puede poner a las personas a cargo de sus datos e introducir nuevas formas de interactuar con las máquinas y entre sí”, dice De Sa.

Lecturas adicionales

Frantar, E. y Alistarh, D. SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot, ArXiv, Vol. abs/2301.00774, Jan. 2, 2023; https://arxiv.org/pdf/2301.00774.pdf

Yao, Z., Dong, Z., Zheng, Z., Gholami, A., Yu, J. Tan, E., Wang, L., Huang, Q., Wang, Y., Mahoney, M.W., y Keutzer, K. HAWQ-V3: Dyadic Neural Network Quantization, Proceedings of the 38 th International Conference on Machine Learning, PMLR 139, 2021; http://proceedings.mlr.press/v139/yao21a/yao21a.pdf

Polino, A. Pascanu, R., y Alistarh, D. Model Compression via Distillation and Quantization, ArXiv, Vol., abs/1802.05668, Feb. 15, 2018; https://arxiv.org/abs/1802.05668

Chee, J., Renz, M., Damle, A., y De Sa, C. Model Preserving Compression for Neural Networks, Advances in Neural Information Processing Systems, Oct. 31, 2022; https://openreview.net/forum?id=gtl9Hu2ndd

Cai, Y., Hua, W., Chen H., Suh, E,, De Sa, C., y Zhang, Z. Structured Pruning is All You Need for Pruning CNNs at Initialization, arXiv:2203.02549, Mar. 4, 2022; https://arxiv.org/abs/2203.02549

Volver arriba

Autor

Samuel Greengard es un autor y periodista con sede en West Linn, OR, EE. UU.

Volver arriba

Notas al pie

a. https://neuroflash.com/blog/gpt-4-parameters-rumors-and-forecasts

b. https://medium.com/riselab/ai-and-memory-wall-2cb4265cb0b8

c. https://www.cnbc.com/2023/03/13/chatgpt-and-generative-ai-are-booming-but-at-a-very-expensive-price.html

d. https://arxiv.org/abs/2301.00774

e. https://stanforddaily.com/2023/04/02/how-stanford-researchers-attempted-to-make-a-new-chatgpt-with-less-than-600/

Se concede permiso para hacer copias digitales o impresas de parte o de la totalidad de este trabajo para uso personal o en el aula sin cargo alguno, siempre y cuando no se hagan o distribuyan copias con fines de lucro o ventaja comercial y siempre que las copias lleven este aviso y la cita completa en la primera página. Se debe respetar el derecho de autor de los componentes de este trabajo que sean propiedad de otras personas que no sean ACM. Se permite la abstracción con crédito. Para copiar de otro modo, republicar, publicar en servidores o redistribuir en listas, se requiere permiso previo específico y/o tarifa. Solicite permiso para publicar a [email protected] o por fax al (212) 869-0481.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

artificial intelligencecommunications / networkingcomputer applicationsdata / storage and retrievalentertainmentinformation systemsperformance and reliabilitypersonal computingSearchsoftware

Was this article helpful?

93 out of 132 found this helpful

Destilando lo que sabemos

Rompiendo el modelo

Aprendiendo el lenguaje de la IA

Reduciendo el ruido, aumentando las señales

Los resultados importan

Autor

Notas al pie

Was this article helpful?

New York Times Considerando Demanda contra OpenAI

Investigadores combinan el aprendizaje profundo y la física para corregir escaneos de resonancia magnética (MRI)’.

Inteligencia Artificial

Conoce a PoisonGPT Un método de IA para introducir un modelo malicioso en una cadena de suministro de LLM de otra manera confiable

Científicos más cerca de encontrar una prueba para el COVID prolongado

Revolucionando el Diseño de Proteínas Cómo esta investigación de IA aumentó las tasas de éxito diez veces con mejoras en el Aprendizaje Profundo

¿Pueden los LLM ejecutarse de forma nativa en tu iPhone? Conoce MLC-LLM un marco abierto que permite llevar los modelos de lenguaje (LLMs) directamente a una amplia clase de plataformas con aceleración de GPU.

¿Qué es MLOps?' El resultado de la traducción es

Tres formas en que la IA generativa puede reforzar la ciberseguridad