Microsoft Research presenta phi-1 un nuevo modelo de lenguaje grande especializado en la codificación de Python con un tamaño significativamente más pequeño que los modelos competidores.

Microsoft Research presenta phi-1, un modelo de lenguaje especializado en la codificación de Python con un tamaño más pequeño que los modelos competidores.

Desde el descubrimiento del diseño Transformer, el arte de entrenar redes neuronales artificiales masivas ha avanzado enormemente, pero la ciencia subyacente detrás de este logro todavía está en su infancia. En el mismo momento en que se lanzaron los Transformers, surgió un sentido de orden en medio de la abrumadora y desconcertante variedad de resultados, mostrando que el aumento del rendimiento es predecible al aumentar la cantidad de cómputo o el tamaño de la red, un fenómeno ahora conocido como leyes de escala. Estas reglas de escala sirvieron como guía para la posterior investigación de la escala en el aprendizaje profundo, y el descubrimiento de variaciones en estas leyes resultó en un fuerte aumento en el rendimiento. 

En este artículo, investigan cómo se podría mejorar la calidad de los datos a lo largo de un eje diferente. Los datos de mayor calidad producen mejores resultados; por ejemplo, la limpieza de datos es un paso crucial en la creación de conjuntos de datos actuales y puede resultar en conjuntos de datos relativamente más pequeños o la capacidad de ejecutar los datos a través de más iteraciones. La investigación reciente sobre TinyStories, un conjunto de datos de alta calidad creado artificialmente para enseñar inglés a redes neuronales, demostró que los beneficios de los datos de alta calidad van mucho más allá. Al alterar drásticamente las leyes de escala, una mayor calidad de los datos puede hacer posible igualar el rendimiento de los modelos a gran escala con entrenamiento/modelos mucho más simples. 

En este estudio, los autores de Microsoft Research demuestran que los datos de buena calidad pueden mejorar aún más el SOTA de los modelos de lenguaje grandes (LLMs) a la vez que reducen significativamente el tamaño del conjunto de datos y la computación de entrenamiento. El costo ambiental de los LLMs puede reducirse en gran medida mediante modelos más pequeños que requieren menos entrenamiento. Construyen funciones específicas de Python a partir de sus cadenas de documentación, utilizando LLMs entrenados para codificación. HumanEval, el estándar de evaluación sugerido en el último artículo, se ha utilizado con frecuencia para comparar el rendimiento de LLM en código. 

Demuestran el poder de los datos de alta calidad para romper las leyes de escala existentes mediante el entrenamiento de un modelo de 1,3 mil millones de parámetros, al que llaman phi-1, para aproximadamente ocho pasadas sobre 7 mil millones de tokens (poco más de 50 mil millones de tokens en total) seguidas de un ajuste fino en menos de 200 millones de tokens. A grandes rasgos, realizan el preentrenamiento en datos de “calidad de manual”, tanto generados sintéticamente (con GPT-3.5) como filtrados de fuentes web, y ajustan finamente en datos “tipo ejercicio de manual”. A pesar de ser varios órdenes de magnitud más pequeños que los modelos competidores, tanto en términos de tamaño de conjunto de datos como de modelo (ver Tabla 1), logran una precisión de 50,6% de pase@1 en HumanEval y una precisión de 55,5% de pase@1 en MBPP (Programas Python Básicos Mayoritariamente), que son uno de los mejores números autoinformados utilizando solo una generación LLM. 

Al entrenar un modelo de 1,3 mil millones de parámetros al que llaman phi-1 durante alrededor de ocho corridas sobre 7 mil millones de tokens (poco más de 50 mil millones de tokens en total), seguidas de un ajuste fino en menos de 200 millones de tokens, demuestran la capacidad de los datos de alta calidad para desafiar las leyes de escala establecidas. En general, realizan el preentrenamiento en datos de “calidad de manual” que fueron creados tanto de manera artificial (usando GPT-3.5) como filtrados de fuentes en línea, y ajustan finamente en datos “tipo ejercicio de manual”. Logran una precisión de 50,6% de pase@1 en HumanEval y una precisión de 55,5% de pase@1 en MBPP (Programas Python Básicos Mayoritariamente), que es uno de los mejores números autoinformados utilizando solo una generación LLM, a pesar de ser varios órdenes de magnitud más pequeños que los modelos competidores. 

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Aplicación de métodos de aprendizaje automático para buscar defectos en rieles (Parte 2)

Explora la aplicación de métodos de aprendizaje automático para encontrar grietas radiales en agujeros roscados de ri...

Ciencia de Datos

¿Qué hace exactamente un Científico de Datos?

Como muestra este variado conjunto de descripciones de trabajo, puede resultar realmente difícil tener una idea clara...

Inteligencia Artificial

Todo lo que necesitas saber para desarrollar usando modelos de lenguaje grandes

El propósito de este artículo es explicar de manera sencilla las tecnologías clave necesarias para comenzar a desarro...