¿La IA se comerá a sí misma? Este artículo de IA introduce un fenómeno llamado colapso del modelo que se refiere a un proceso de aprendizaje degenerativo donde los modelos comienzan a olvidar eventos improbables con el tiempo.

The article introduces the phenomenon of 'model collapse' in AI, which refers to a degenerative learning process where models begin to forget improbable events over time.

Usando la difusión estable, se pueden hacer imágenes solo con palabras. GPT-2, GPT-3(.5) y GPT-4 tienen un rendimiento impresionante en muchos desafíos de lenguaje. El público fue expuesto por primera vez a estos tipos de modelos de lenguaje a través de ChatGPT. Los modelos de lenguaje grandes (LLMs) se han establecido como una característica permanente y se espera que alteren drásticamente todo el ecosistema de texto e imágenes en línea. El entrenamiento a partir de datos masivos raspados de la web solo puede mantenerse si se le da la debida consideración. De hecho, el valor de los datos adquiridos con respecto a las verdaderas interacciones humanas con sistemas aumentará con la inclusión de contenido generado por LLM en datos raspados de Internet.

Investigadores de Gran Bretaña y Canadá encuentran que el colapso del modelo ocurre cuando un modelo aprende de datos generados por otro. Este proceso degenerativo hace que los modelos pierdan el seguimiento de la verdadera distribución de datos subyacente con el tiempo, incluso cuando no se produce ningún cambio. Ilustran este fenómeno proporcionando estudios de caso de fallas del modelo en el contexto del Modelo de Mezcla Gaussiana, el Autoencoder Variacional y el Modelo de Lenguaje Grande. Demuestran cómo, a lo largo de generaciones sucesivas, los comportamientos adquiridos convergen hacia una estimación con una varianza extremadamente mínima y cómo esta pérdida de conocimiento sobre la verdadera distribución comienza con la desaparición de las colas. Además, demuestran que este resultado es inevitable incluso en escenarios con condiciones casi óptimas para el aprendizaje a largo plazo, es decir, sin error de estimación de la función.

Los investigadores concluyen hablando sobre los efectos más grandes del colapso del modelo. Señalan lo importante que es tener acceso a los datos en bruto para determinar dónde importan las colas de la distribución subyacente. Por lo tanto, los datos sobre interacciones humanas con LLM se volverán cada vez más útiles si se usan para publicar material en Internet a gran escala, contaminando así la recolección de datos para entrenarlos.

Colapso del Modelo: ¿Qué Es?

Cuando una generación de modelos generativos aprendidos colapsa en la siguiente, la última se corrompe ya que se entrenaron con datos contaminados y, por lo tanto, interpretan mal el mundo. El colapso del modelo se puede clasificar como “temprano” o “tardío”, dependiendo de cuándo ocurre. En la etapa temprana del colapso del modelo, el modelo comienza a perder información sobre las colas de la distribución; en la etapa tardía, el modelo entrelaza diferentes modos de las distribuciones originales y converge hacia una distribución que tiene poco parecido con la original, a menudo con una varianza muy pequeña.

En este enfoque, que considera muchos modelos a lo largo del tiempo, los modelos no olvidan los datos previamente aprendidos, sino que comienzan a interpretar mal lo que perciben como real al reforzar sus ideas, en contraste con el proceso de olvido catastrófico. Esto ocurre debido a dos fuentes distintas de error que, cuando se combinan a lo largo de generaciones, llevan a una desviación del modelo original. Un mecanismo de error particular es crucial para el proceso; sobreviviría más allá de la primera generación.

Colapso del Modelo: Causas

Las causas básicas y secundarias del fallo del modelo son las siguientes:

  • El error más común es el resultado de una aproximación estadística, que ocurre cuando hay un número finito de muestras pero disminuye a medida que el tamaño de la muestra se acerca al infinito.
  • El error secundario causado por aproximadores de función que no son suficientemente expresivos (o a veces demasiado expresivos más allá de la distribución original) se conoce como error de aproximación funcional.

Cada uno de estos factores puede exacerbar o mejorar la probabilidad de colapso del modelo. Una mayor potencia de aproximación puede ser una espada de doble filo ya que una mayor expresividad puede amplificar el ruido estadístico y reducirlo, lo que lleva a una mejor aproximación de la distribución subyacente.

Se dice que el colapso del modelo ocurre en todos los modelos generativos entrenados recursivamente, afectando a todas las generaciones de modelos. Hacen modelos matemáticos básicos que colapsan cuando se aplican a datos reales, pero se pueden usar para derivar ecuaciones analíticas para valores de interés. Su objetivo es poner un número en el impacto de varios tipos de error en las aproximaciones finales de la distribución original.

Los investigadores muestran que el colapso del modelo puede ser desencadenado por el entrenamiento en datos de otro modelo generativo, lo que lleva a un cambio en la distribución. Como resultado, el modelo interpreta incorrectamente el problema de entrenamiento. El aprendizaje a largo plazo requiere mantener el acceso a la fuente de datos original y mantener otros datos no producidos por LLMs disponibles con el tiempo. Todavía se está determinando cómo se puede rastrear el contenido generado por LLM a gran escala, lo que plantea problemas sobre la procedencia del contenido raspado de Internet y la necesidad de distinguirlo de otros datos. La coordinación a nivel de la comunidad es un enfoque para garantizar que todas las partes que participan en el desarrollo y la implementación de LLM estén comunicando y compartiendo los datos necesarios para resolver los problemas de procedencia. Con los datos crawleados de Internet antes de la adopción generalizada de la tecnología o el acceso directo a los datos proporcionados por los humanos a gran escala, puede volverse cada vez más fácil entrenar versiones posteriores de LLM.

Revisa el Artículo y la Referencia. No te olvides de unirte a nuestro SubReddit de ML de más de 24k seguidoresCanal de Discord, y Boletín de correo electrónico, donde compartimos las últimas noticias de investigación en inteligencia artificial, proyectos interesantes de IA y más. Si tienes alguna pregunta sobre el artículo anterior o si omitimos algo, no dudes en enviarnos un correo electrónico a [email protected]

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La inteligencia artificial ayuda a los robots a manipular objetos con todo su cuerpo

Con una nueva técnica, un robot puede razonar eficientemente sobre objetos en movimiento utilizando más que solo sus ...

Aprendizaje Automático

Anunciando mejoras en la extracción de tablas con Amazon Textract

Amazon Textract es un servicio de aprendizaje automático (ML) que extrae automáticamente texto, escritura a mano y da...

Inteligencia Artificial

Investigadores de la NTU de Singapur proponen IT3D un nuevo método de refinamiento de IA Plug-and-Play para la generación de texto a 3D.

Ha habido un notable progreso en el dominio de texto a imagen, lo que ha generado una oleada de entusiasmo dentro de ...

Inteligencia Artificial

Despliega tu aplicación web de Streamlit en 5 minutos.

Se ha convertido en una necesidad para un científico de datos mostrar su trabajo en un panel de control o una aplicac...

Inteligencia Artificial

Explora técnicas avanzadas para la optimización de hiperparámetros con Amazon SageMaker Automatic Model Tuning

Crear soluciones de aprendizaje automático (ML) de alto rendimiento se basa en explorar y optimizar los parámetros de...