Emily Webber de AWS sobre Preentrenamiento de Modelos de Lenguaje Grandes

Emily Webber de AWS on Pretraining Large Language Models

A medida que surgen nuevos campos dentro de la ciencia de datos y la investigación sigue siendo difícil de comprender, a veces es mejor hablar con los expertos y pioneros del campo. Recientemente, hablamos con Emily Webber, Arquitecta Principal de Soluciones Especialista en Aprendizaje Automático en AWS. Ella es la autora de “Pretrain Vision and Large Language Models in Python: Técnicas de extremo a extremo para construir e implementar modelos fundamentales en AWS”. En la entrevista, discutimos sobre la preentrenamiento de modelos de visión y lenguaje grandes (LLMs) en Python. Puedes escuchar la entrevista completa de Lightning aquí y leer la transcripción de dos preguntas interesantes con Emily Webber a continuación.

P: Los LLMs no se volvieron populares hasta finales de 2022. ¿Qué te dio la idea de comenzar a escribir sobre este libro antes del auge de los LLMs?

Emily Webber: Para mí, el momento emocionante fueron las leyes de escala, más que cualquier otra cosa. Obviamente, nos importa interactuar con los LLM y ver lenguaje de alto rendimiento saliendo de los modelos, pero las leyes de escala realmente me impresionaron más que cualquier otra cosa.

En el aprendizaje automático, gran parte de nuestro trabajo es experimental. Probamos una cosa, obtenemos precisión, evaluamos los resultados y luego intentamos de nuevo. Es increíblemente iterativo y experimental, pero también hay un grado de incertidumbre donde no hay una buena manera de saber qué tan bien funcionará tu modelo después de cierto período.

Así que cuando vi las leyes de escala de Jared Kaplan a principios de 2020, para mí, eso fue realmente el cambio, porque básicamente, las leyes de escala nos dan formas de estimar el rendimiento de tu modelo. Es literalmente una ecuación donde puedes decir “Oh, aquí está la cantidad de aceleradores que tengo, aquí está qué tan grande es mi conjunto de datos y aquí está mi modelo, ¿cuál será mi precisión?” Y una vez que tienes esa ecuación, puedes experimentar y cuantificar mucho más fácilmente qué tan bueno será tu modelo.

Básicamente, vi eso y eso me llevó a reevaluar mi trayectoria de aprendizaje automático y la forma en que abordé el ML. Una y otra vez, eso surgió de diversas formas a medida que los modelos se volvieron más grandes y las optimizaciones mejoraron. Y luego pasé muchos años trabajando con clientes. En AWS, estoy trabajando con clientes que estaban haciendo sus propios proyectos de modelado a gran escala mucho antes de que fuera popular, pero porque veían beneficios, también podían ver esta tendencia, y eso me llevó a creer que esto realmente es el futuro.

P: ¿Cuáles son otros avances en IA que vale la pena prestar atención?

Emily Webber: En cierto sentido, si miras algunos de los avances más interesantes y de última generación en IA durante más de la última década, honestamente, mucho tiene que ver con la escala. Gran parte se reduce a construir un sistema distribuido realmente excelente utilizando técnicas para optimizar tus conjuntos de datos a escalas muy grandes y optimizar tus redes neuronales y tus modelos a escalas muy grandes.

Richard Sutton, quien es considerado el padre del aprendizaje por refuerzo, escribió esta famosa publicación de blog en 2019 que llamó “La amarga lección”. Y así, la amarga lección de Richard Sutton, que discuto en detalle en el libro junto con las leyes de escala, básicamente Sutton levanta las manos y dice: “Oh, lo que aprendemos después de los últimos 70 años de investigación en IA es que lo que realmente tiene un impacto es lo que usa más cómputos”.

Para mí, más que cualquier otra cosa, es un juego de eficiencia. Los modelos fundamentales son poderosos porque son más eficientes; en lugar de ir tras cientos y miles de estos pequeños árboles o regresiones logísticas, o refuerzos reales o RNN o CNN, en lugar de N modelos, simplemente creamos un modelo masivo que hace todo, que tiene todos los casos de uso, que tiene toda la alta precisión, y lo cargamos en primer lugar, vamos a lo grande en la creación de este modelo, pero luego podemos usarlo para todo.

Con SageMaker y trabajando con clientes en Amazon, ya es suficientemente difícil llevar un proyecto de aprendizaje automático desde la ideación, la escalabilidad, la operativización y el ciclo de vida y gestión del producto. Los modelos fundamentales son poderosos porque son eficientes y es simplemente un uso más eficiente y más ágil de los recursos. Una vez que vi eso cobrar vida esencialmente a través de mi trabajo en AWS, quedé convencido de que esta era claramente la dirección a seguir.

Cómo aprender más sobre modelos de lenguaje grandes

Si aún no has empezado a trabajar con modelos de lenguaje grandes o quieres mejorar tus conocimientos existentes, entonces ODSC West es la conferencia para ti. Del 30 de octubre al 2 de noviembre, podrás asistir a docenas de sesiones relacionadas con el procesamiento del lenguaje natural, modelos de lenguaje grandes y más. Aquí tienes algunas sesiones confirmadas, ¡y habrá muchas más por venir!:

Personalización de modelos de lenguaje grandes con una tienda de características: Jim Dowling | CEO | Hopsworks
Técnicas de evaluación para modelos de lenguaje grandes: Rajiv Shah, PhD | Ingeniero de Aprendizaje Automático | Hugging Face
Comprender el panorama de los modelos grandes: Lukas Biewald | CEO y cofundador | Weights & Biases

¡No demores en conseguir tu entrada! ¡El descuento del 60% termina pronto! Regístrate aquí.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Emily Webber de AWS sobre Preentrenamiento de Modelos de Lenguaje Grandes

Was this article helpful?

Pensando como un anotador en profundidad Generación de instrucciones para etiquetar conjuntos de datos

¿Cómo conseguir un empleo en Ciencia de Datos? [Decodificado en 8 sencillos pasos]

Inteligencia Artificial

Conoce a DORSal Un modelo de difusión estructurada en 3D para la generación y edición a nivel de objeto de escenas en 3D.

Los médicos se entrenan en realidad virtual.

Real AI gana el proyecto para construir el modelo de lenguaje abierto de Europa de inteligencia artificial

Creando Operaciones de Aprendizaje Automático para Empresas

Miles en fila para obtener el implante de chip cerebral de Neuralink, de Elon Musk

¿Qué tienen en común las neuronas, las luciérnagas y bailar el Nutbush?