Microsoft Research presenta phi-1 un nuevo modelo de lenguaje grande especializado en la codificación de Python con un tamaño significativamente más pequeño que los modelos competidores.

Microsoft Research presenta phi-1, un modelo de lenguaje especializado en la codificación de Python con un tamaño más pequeño que los modelos competidores.

Desde el descubrimiento del diseño Transformer, el arte de entrenar redes neuronales artificiales masivas ha avanzado enormemente, pero la ciencia subyacente detrás de este logro todavía está en su infancia. En el mismo momento en que se lanzaron los Transformers, surgió un sentido de orden en medio de la abrumadora y desconcertante variedad de resultados, mostrando que el aumento del rendimiento es predecible al aumentar la cantidad de cómputo o el tamaño de la red, un fenómeno ahora conocido como leyes de escala. Estas reglas de escala sirvieron como guía para la posterior investigación de la escala en el aprendizaje profundo, y el descubrimiento de variaciones en estas leyes resultó en un fuerte aumento en el rendimiento.

En este artículo, investigan cómo se podría mejorar la calidad de los datos a lo largo de un eje diferente. Los datos de mayor calidad producen mejores resultados; por ejemplo, la limpieza de datos es un paso crucial en la creación de conjuntos de datos actuales y puede resultar en conjuntos de datos relativamente más pequeños o la capacidad de ejecutar los datos a través de más iteraciones. La investigación reciente sobre TinyStories, un conjunto de datos de alta calidad creado artificialmente para enseñar inglés a redes neuronales, demostró que los beneficios de los datos de alta calidad van mucho más allá. Al alterar drásticamente las leyes de escala, una mayor calidad de los datos puede hacer posible igualar el rendimiento de los modelos a gran escala con entrenamiento/modelos mucho más simples.

En este estudio, los autores de Microsoft Research demuestran que los datos de buena calidad pueden mejorar aún más el SOTA de los modelos de lenguaje grandes (LLMs) a la vez que reducen significativamente el tamaño del conjunto de datos y la computación de entrenamiento. El costo ambiental de los LLMs puede reducirse en gran medida mediante modelos más pequeños que requieren menos entrenamiento. Construyen funciones específicas de Python a partir de sus cadenas de documentación, utilizando LLMs entrenados para codificación. HumanEval, el estándar de evaluación sugerido en el último artículo, se ha utilizado con frecuencia para comparar el rendimiento de LLM en código.

Demuestran el poder de los datos de alta calidad para romper las leyes de escala existentes mediante el entrenamiento de un modelo de 1,3 mil millones de parámetros, al que llaman phi-1, para aproximadamente ocho pasadas sobre 7 mil millones de tokens (poco más de 50 mil millones de tokens en total) seguidas de un ajuste fino en menos de 200 millones de tokens. A grandes rasgos, realizan el preentrenamiento en datos de “calidad de manual”, tanto generados sintéticamente (con GPT-3.5) como filtrados de fuentes web, y ajustan finamente en datos “tipo ejercicio de manual”. A pesar de ser varios órdenes de magnitud más pequeños que los modelos competidores, tanto en términos de tamaño de conjunto de datos como de modelo (ver Tabla 1), logran una precisión de 50,6% de pase@1 en HumanEval y una precisión de 55,5% de pase@1 en MBPP (Programas Python Básicos Mayoritariamente), que son uno de los mejores números autoinformados utilizando solo una generación LLM.

Al entrenar un modelo de 1,3 mil millones de parámetros al que llaman phi-1 durante alrededor de ocho corridas sobre 7 mil millones de tokens (poco más de 50 mil millones de tokens en total), seguidas de un ajuste fino en menos de 200 millones de tokens, demuestran la capacidad de los datos de alta calidad para desafiar las leyes de escala establecidas. En general, realizan el preentrenamiento en datos de “calidad de manual” que fueron creados tanto de manera artificial (usando GPT-3.5) como filtrados de fuentes en línea, y ajustan finamente en datos “tipo ejercicio de manual”. Logran una precisión de 50,6% de pase@1 en HumanEval y una precisión de 55,5% de pase@1 en MBPP (Programas Python Básicos Mayoritariamente), que es uno de los mejores números autoinformados utilizando solo una generación LLM, a pesar de ser varios órdenes de magnitud más pequeños que los modelos competidores.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelLarge Language ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Microsoft Research presenta phi-1 un nuevo modelo de lenguaje grande especializado en la codificación de Python con un tamaño significativamente más pequeño que los modelos competidores.

Was this article helpful?

Tecnología de IA para Revolucionar la Atención al Paciente

Gestionando los costos de almacenamiento en la nube de aplicaciones de Big Data

Investigación

Aplicación de métodos de aprendizaje automático para buscar defectos en rieles (Parte 2)

Investigadores de Microsoft y la Universidad de Tsinghua proponen SCA (Segment and Caption Anything) para equipar de manera eficiente al modelo SAM con la capacidad de generar subtítulos regionales

¿Qué hace exactamente un Científico de Datos?

Investigadores de CMU y Princeton presentan Mamba una arquitectura SSM revolucionaria que supera la eficiencia del Transformer para aplicaciones de aprendizaje profundo multimodal.

Investigadores de la Universidad de Manchester presentan MentalLLaMA la primera serie LLM de código abierto para el análisis legible de salud mental con capacidad de seguir instrucciones.

Todo lo que necesitas saber para desarrollar usando modelos de lenguaje grandes