Textbooks son todo lo que necesitas Un enfoque revolucionario para la formación en IA
Textbooks son todo lo que necesitas. Un enfoque revolucionario para la formación en IA.
Introducción
Los investigadores siempre están buscando nuevas y mejores formas de entrenar modelos de inteligencia artificial. Un reciente artículo de Microsoft propuso un enfoque interesante: utilizar un libro de texto sintético para enseñar al modelo en lugar de los conjuntos de datos masivos que se utilizan normalmente.
- Investigadores de UC San Diego y Meta AI presentan MonoNeRF una arquitectura de autoencoder que desentraña el video en movimiento de la cámara y mapa de profundidad a través del codificador de la cámara y el codificador de la profundidad.
- Investigadores de UC Berkeley proponen una novedosa técnica llamada Cadena de Retrospección (CoH) que puede permitir a los LLM aprender de cualquier forma de retroalimentación para mejorar el rendimiento del modelo.
- Este artículo de IA de Georgia Tech propone un método de inteligencia artificial para ayudar a identificar nuevos candidatos para posibles superconductores de manera más rápida y confiable’.
El artículo presenta un modelo llamado Phi-1 que fue entrenado completamente con un libro de texto hecho a medida. Los investigadores descubrieron que esto era tan efectivo como modelos mucho más grandes entrenados con grandes cantidades de datos para ciertas tareas.
El título “Los libros de texto son todo lo que necesitas” es una referencia ingeniosa al conocido concepto en IA “La atención es todo lo que necesitas”. Pero aquí dan vuelta a la idea: en lugar de centrarse en la arquitectura del modelo en sí, muestran el valor de los datos de entrenamiento de alta calidad y curados, como los que encontrarías en un libro de texto.
La idea clave es que un conjunto de datos cuidadosamente diseñado y bien pensado puede ser tan útil como montones enormes e indiscriminados de datos para enseñar a un modelo de IA. Por lo tanto, los investigadores crearon un libro de texto sintético para alimentar al modelo con los conocimientos que necesitaba.
Este enfoque basado en libros de texto es una nueva dirección intrigante para entrenar de manera eficiente modelos de IA para sobresalir en tareas específicas. Destaca la importancia de la curación y calidad de los datos de entrenamiento en lugar del simple tamaño de los datos.
Puntos clave
- El modelo Phi-1, a pesar de ser significativamente más pequeño que modelos como GPT-3, tiene un rendimiento impresionante en tareas de programación en Python. Esto demuestra que el tamaño no lo es todo cuando se trata de modelos de IA.
- Los investigadores utilizaron un libro de texto sintético para el entrenamiento, enfatizando la importancia de datos de alta calidad y bien curados. Este enfoque podría revolucionar la forma en que pensamos sobre el entrenamiento de modelos de IA.
- El rendimiento del modelo Phi-1 mejoró significativamente cuando se ajustó con ejercicios y soluciones sintéticas, lo que indica que el ajuste fino dirigido puede mejorar las capacidades de un modelo más allá de las tareas para las que fue específicamente entrenado.
Discusión
El modelo Phi-1, con 1.3 mil millones de parámetros, es relativamente pequeño en comparación con modelos como GPT-3, que tiene 175 mil millones de parámetros. A pesar de esta diferencia de tamaño, Phi-1 muestra un rendimiento impresionante en tareas de programación en Python. Este logro subraya la idea de que la calidad de los datos de entrenamiento puede ser tan importante, e incluso más, que el tamaño del modelo.
Los investigadores utilizaron un libro de texto sintético para entrenar el modelo Phi-1. Este libro de texto fue generado utilizando GPT-3.5 y estaba compuesto de texto y ejercicios de Python. El uso de un libro de texto sintético enfatiza la importancia de datos de entrenamiento de alta calidad y bien curados en la formación de modelos de IA. Este enfoque podría potencialmente cambiar el enfoque en el entrenamiento de IA de la creación de modelos más grandes a la curación de mejores datos de entrenamiento.
Curiosamente, el rendimiento del modelo Phi-1 mejoró significativamente cuando se ajustó con ejercicios y soluciones sintéticas. Esta mejora no se limitó a las tareas para las que fue específicamente entrenado. Por ejemplo, la capacidad del modelo para usar bibliotecas externas como pygame mejoró, aunque estas bibliotecas no se incluyeron en los datos de entrenamiento. Esto sugiere que el ajuste fino puede mejorar las capacidades de un modelo más allá de las tareas para las que fue entrenado específicamente.
Preguntas y respuestas de investigación
P: ¿Cómo se compara el modelo Phi-1 con modelos más grandes en términos de versatilidad?
R: El modelo Phi-1 está especializado en programación en Python, lo que limita su versatilidad en comparación con modelos multilenguaje. También carece del conocimiento específico del dominio de modelos más grandes, como la programación con API específicas o el uso de paquetes menos comunes.
P: ¿Cómo maneja el modelo Phi-1 las variaciones estilísticas o los errores en la indicación?
R: Debido a la naturaleza estructurada de los conjuntos de datos y la falta de diversidad en términos de lenguaje y estilo, el modelo Phi-1 es menos resistente a variaciones estilísticas o errores en la indicación. Si hay un error gramatical en la indicación, el rendimiento del modelo disminuye.
P: ¿Podría mejorar el rendimiento del modelo Phi-1 con el uso de GPT-4 para generar datos sintéticos?
R: Sí, los investigadores creen que se podrían lograr avances significativos utilizando GPT-4 para generar datos sintéticos en lugar de GPT-3.5. Sin embargo, GPT-4 es actualmente más lento y más caro de usar.
P: ¿En qué se diferencia el enfoque de entrenamiento del modelo Phi-1 de los métodos tradicionales?
A: Los métodos tradicionales a menudo se centran en aumentar el tamaño del modelo y la cantidad de datos. En cambio, el modelo Phi-1 enfatiza la calidad de los datos y utiliza un libro de texto sintético para el entrenamiento. Este enfoque podría cambiar el enfoque en el entrenamiento de IA de crear modelos más grandes a seleccionar mejor los datos de entrenamiento.
Conclusiones de la investigación
El estudio “Textbooks Are All You Need” de Microsoft Research tiene una idea bastante novedosa para entrenar modelos de IA. En lugar de simplemente proporcionar grandes cantidades de datos al modelo como de costumbre, crearon un libro de texto sintético para enseñar al modelo.
Entrenaron este modelo más pequeño llamado Phi-1 utilizando exclusivamente este libro de texto personalizado, y funcionó sorprendentemente bien en comparación con modelos grandes como GPT-3. Esto demuestra que se puede entrenar una IA realmente efectiva con un conjunto de datos cuidadosamente diseñado y de alta calidad, incluso si es mucho más pequeño.
La clave está en tomarse el tiempo para seleccionar datos de entrenamiento de gran calidad, como los que se encuentran en un libro de texto, en lugar de simplemente proporcionar al modelo terabytes de datos aleatorios y desordenados. Se trata de la calidad, no de la cantidad.
Esto podría cambiar la forma en que las personas piensan en el entrenamiento de IA en el futuro. En lugar de perseguir modelos cada vez más grandes que requieren conjuntos de datos gigantes, tal vez deberíamos enfocarnos más en crear los mejores libros de texto de entrenamiento posibles, incluso si son más pequeños. Es una idea intrigante que la clave está en el libro de texto, no solo en escalar el modelo.
Matthew Mayo (@mattmayo13) es un científico de datos y el editor en jefe de VoAGI, el recurso en línea seminal de Ciencia de Datos y Aprendizaje Automático. Sus intereses se centran en el procesamiento de lenguaje natural, el diseño y la optimización de algoritmos, el aprendizaje no supervisado, las redes neuronales y los enfoques automatizados del aprendizaje automático. Matthew tiene un título de maestría en ciencias de la computación y un diploma de posgrado en minería de datos. Puede contactarse con él en editor1 en VoAGI[dot]com.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- La arquitectura Transformer de los modelos GPT
- Hackeando la función JSON_ARRAYAGG de MySQL para crear dimensiones dinámicas y de múltiples valores
- Genera ideas de imanes de atracción con ChatGPT
- Investigadores de UC Berkeley y Deepmind proponen SuccessVQA una reformulación de la detección de éxito que es compatible con VLM pre-entrenados como Flamingo.
- ¡Sí! OpenTelemetry es una parte crítica para asegurar tus sistemas.
- Investigadores de Stanford presentan la Difusión Localmente Condicionada un método para la generación composicional de texto a imagen utilizando modelos de difusión.
- Raíces cúbicas utilizando cuadráticas genéticas adaptadas