¿Necesitan los LLM todas esas capas para lograr el aprendizaje en contexto?
¿Los LLM necesitan todas esas capas para el aprendizaje en contexto?
Un reciente artículo de Amazon Science arroja algo de luz sobre una de las preguntas más importantes relacionadas con los LLM.
![Creado utilizando Midjourney](https://miro.medium.com/v2/resize:fit:640/format:webp/0*qne2lJr52D6jNPz4.png)
Recientemente, comencé un boletín educativo centrado en la IA, que ya cuenta con más de 160.000 suscriptores. TheSequence es un boletín orientado a la IA sin tonterías (lo que significa sin hype, sin noticias, etc.) que se puede leer en 5 minutos. El objetivo es mantenerte al día con proyectos de aprendizaje automático, documentos de investigación y conceptos. Por favor, pruébalo suscribiéndote a continuación:
TheSequence | Jesus Rodriguez | Substack
La mejor fuente para estar al día con los desarrollos en aprendizaje automático, inteligencia artificial y datos…
thesequence.substack.com
Los grandes modelos de lenguaje (LLMs) han captado mucha atención en los últimos tiempos, especialmente con la aparición de ChatGPT. Estos modelos suelen ser preentrenados en conjuntos de datos extensos, y las variantes más nuevas incorporan el aprendizaje por refuerzo para seguir instrucciones e integrar retroalimentación humana. Una capacidad intrigante que muestran los LLMs es el aprendizaje en contexto, en el cual el modelo puede adquirir una tarea simplemente utilizando unos pocos, o incluso cero, ejemplos relevantes junto con una nueva entrada. Ampliando este paradigma de aprendizaje, se ha observado que los LLMs más grandes superan a sus contrapartes más pequeñas cuando el volumen de datos de preentrenamiento se mantiene constante, demostrando su versatilidad en una variedad de tareas.
Una pregunta intrigante que siempre ha rodeado a los LLMs es si necesitan todos esos bloques de construcción para habilitar el ICL. Un reciente artículo de Amazon Science explora la importancia de la escala del modelo en el contexto del aprendizaje en contexto y la interpretabilidad arquitectónica. La pregunta principal abordada en el estudio es si todos los componentes de los LLMs son realmente indispensables para un aprendizaje en contexto efectivo.
- ¿Realmente se expondrán o perderán 300 millones de empleos debido a la sustitución por IA?
- Los 15 principales softwares de Big Data para conocer en 2023
- Descifrando la Ley de los Grandes Números
El experimento
Para los experimentos, Amazon Science se basó en el modelo OPT-66B, un LLM de 66 mil millones de parámetros lanzado como una réplica de código abierto de GPT-3 por Meta el año pasado. En el momento del estudio, era el decodificador LLM solo más grande disponible públicamente. Los resultados de la investigación indican que una parte sustancial del modelo…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- PoisonGPT Hugging Face LLM difunde noticias falsas
- ¿Cómo realizar la codificación de etiquetas en Python?
- Filtrado de datos en Julia Todo lo que necesitas saber
- Viajando a través del dominio de Google Analytics y Ciencia de Datos
- Google en ACL 2023
- La Prueba de Alex Hormozi para Ideas de Negocio (Puedes usarla en ChatGPT)
- La Prueba de Alex Hormozi para Ideas de Negocio (Que Puedes Usar en ChatGPT)