¿Necesitan los LLM todas esas capas para lograr el aprendizaje en contexto?

¿Los LLM necesitan todas esas capas para el aprendizaje en contexto?

Un reciente artículo de Amazon Science arroja algo de luz sobre una de las preguntas más importantes relacionadas con los LLM.

Creado utilizando Midjourney

Recientemente, comencé un boletín educativo centrado en la IA, que ya cuenta con más de 160.000 suscriptores. TheSequence es un boletín orientado a la IA sin tonterías (lo que significa sin hype, sin noticias, etc.) que se puede leer en 5 minutos. El objetivo es mantenerte al día con proyectos de aprendizaje automático, documentos de investigación y conceptos. Por favor, pruébalo suscribiéndote a continuación:

TheSequence | Jesus Rodriguez | Substack

La mejor fuente para estar al día con los desarrollos en aprendizaje automático, inteligencia artificial y datos…

thesequence.substack.com

Los grandes modelos de lenguaje (LLMs) han captado mucha atención en los últimos tiempos, especialmente con la aparición de ChatGPT. Estos modelos suelen ser preentrenados en conjuntos de datos extensos, y las variantes más nuevas incorporan el aprendizaje por refuerzo para seguir instrucciones e integrar retroalimentación humana. Una capacidad intrigante que muestran los LLMs es el aprendizaje en contexto, en el cual el modelo puede adquirir una tarea simplemente utilizando unos pocos, o incluso cero, ejemplos relevantes junto con una nueva entrada. Ampliando este paradigma de aprendizaje, se ha observado que los LLMs más grandes superan a sus contrapartes más pequeñas cuando el volumen de datos de preentrenamiento se mantiene constante, demostrando su versatilidad en una variedad de tareas.

Una pregunta intrigante que siempre ha rodeado a los LLMs es si necesitan todos esos bloques de construcción para habilitar el ICL. Un reciente artículo de Amazon Science explora la importancia de la escala del modelo en el contexto del aprendizaje en contexto y la interpretabilidad arquitectónica. La pregunta principal abordada en el estudio es si todos los componentes de los LLMs son realmente indispensables para un aprendizaje en contexto efectivo.

El experimento

Para los experimentos, Amazon Science se basó en el modelo OPT-66B, un LLM de 66 mil millones de parámetros lanzado como una réplica de código abierto de GPT-3 por Meta el año pasado. En el momento del estudio, era el decodificador LLM solo más grande disponible públicamente. Los resultados de la investigación indican que una parte sustancial del modelo…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Revolucionando el Diseño de Proteínas Cómo esta investigación de IA aumentó las tasas de éxito diez veces con mejoras en el Aprendizaje Profundo

Las proteínas son estructuras poliméricas que controlan casi todas las enfermedades. El principal problema es encontr...

Inteligencia Artificial

El Ejército de los Estados Unidos pone a prueba la Inteligencia Artificial Generativa

El Departamento de Defensa de los Estados Unidos está probando cinco modelos de lenguaje grandes como parte de un esf...

Inteligencia Artificial

Herramienta LLM encuentra y remedia vulnerabilidades de software

La empresa de software Vicarius presentó vuln_GPT, una herramienta de inteligencia artificial generativa que identifi...

Inteligencia Artificial

Investigación de AI de SalesForce ha desarrollado ProGen Un gran avance en la ingeniería de proteínas mediante el uso de inteligencia artificial.

El desarrollo de proteínas funcionales ha sido durante mucho tiempo una búsqueda crítica en diversos campos científic...

Inteligencia Artificial

15+ Herramientas de IA para Desarrolladores (Septiembre 2023)

GitHub Copilot GitHub Copilot se presenta como un asistente de codificación con inteligencia artificial líder en el m...