Graphcore y Hugging Face lanzan una nueva línea de Transformers listos para IPU

Graphcore y Hugging Face lanzan Transformers listos para IPU.

Graphcore y Hugging Face han ampliado significativamente la gama de modalidades y tareas de Aprendizaje Automático disponibles en Hugging Face Optimum, una biblioteca de código abierto para la optimización del rendimiento de los Transformers. Ahora los desarrolladores tienen acceso conveniente a una amplia gama de modelos de Transformers de Hugging Face listos para usar, optimizados para ofrecer el mejor rendimiento posible en el IPU de Graphcore.

Incluyendo el modelo de transformador BERT que se hizo disponible poco después del lanzamiento de Optimum Graphcore, los desarrolladores ahora pueden acceder a 10 modelos que cubren Procesamiento del Lenguaje Natural (NLP), Habla y Visión por Computadora, los cuales vienen con archivos de configuración del IPU y pesos de modelos pre-entrenados y afinados listos para usar.

Nuevos modelos Optimum

Visión por computadora

ViT (Vision Transformer) es un avance en el reconocimiento de imágenes que utiliza el mecanismo del transformer como su componente principal. Cuando las imágenes se ingresan a ViT, se dividen en pequeños parches similares a la forma en que se procesan las palabras en los sistemas de lenguaje. Cada parche es codificado por el Transformer (Embedding) y luego se puede procesar individualmente.

NLP

GPT-2 (Generative Pre-trained Transformer 2) es un modelo de transformador para generación de texto pre-entrenado en un corpus muy grande de datos en inglés de manera auto-supervisada. Esto significa que fue pre-entrenado solo en los textos sin etiquetar por humanos de ninguna manera (por eso puede usar muchos datos públicamente disponibles) con un proceso automático para generar entradas y etiquetas a partir de esos textos. Más precisamente, está entrenado para generar textos a partir de una indicación adivinando la siguiente palabra en las oraciones.

RoBERTa (Robustly optimized BERT approach) es un modelo de transformador que (al igual que GPT-2) está pre-entrenado en un corpus grande de datos en inglés de manera auto-supervisada. Más precisamente, RoBERTa fue pre-entrenado con el objetivo de modelado de lenguaje enmascarado (MLM). Tomando una oración, el modelo enmascara aleatoriamente el 15% de las palabras de la entrada y luego ejecuta la oración completa enmascarada a través del modelo y tiene que predecir las palabras enmascaradas. Roberta se puede utilizar para el modelado de lenguaje enmascarado, pero está principalmente destinado a ser afinado en una tarea secundaria.

DeBERTa (Decoding-enhanced BERT with disentangled attention) es un modelo de lenguaje neuronal pre-entrenado para tareas de NLP. DeBERTa adapta los modelos BERT de 2018 y RoBERTa de 2019 utilizando dos técnicas novedosas: un mecanismo de atención desentrelazada y un decodificador de máscara mejorado, lo que mejora significativamente la eficiencia del pre-entrenamiento del modelo y el rendimiento de las tareas secundarias.

BART es un modelo codificador-decodificador (seq2seq) de transformador con un codificador bidireccional (similar a BERT) y un decodificador autoregresivo (similar a GPT). BART se pre-entrena (1) corrompiendo el texto con una función de ruido arbitraria y (2) aprendiendo un modelo para reconstruir el texto original. BART es particularmente efectivo cuando se ajusta finamente para la generación de texto (por ejemplo, resumen, traducción), pero también funciona bien para tareas de comprensión (por ejemplo, clasificación de texto, preguntas y respuestas).

LXMERT (Learning Cross-Modality Encoder Representations from Transformers) es un modelo transformador multimodal para aprender representaciones de visión y lenguaje. Tiene tres codificadores: un codificador de relaciones entre objetos, un codificador de lenguaje y un codificador de multimodalidad. Se pre-entrena mediante una combinación de modelado de lenguaje enmascarado, alineación de texto de lenguaje visual, regresión de características ROI, modelado de atributos visuales enmascarados, modelado de objetos visuales enmascarados y objetivos de preguntas y respuestas visuales. Ha logrado resultados de vanguardia en los conjuntos de datos de preguntas y respuestas visuales VQA y GQA.

T5 (Text-to-Text Transfer Transformer) es un modelo revolucionario que puede tomar cualquier texto y convertirlo en un formato de aprendizaje automático para traducción, respuesta a preguntas o clasificación. Introduce un marco unificado que convierte todos los problemas de lenguaje basados en texto en un formato de texto a texto para el aprendizaje por transferencia. Al hacerlo, ha simplificado la forma de usar el mismo modelo, función objetivo, hiperparámetros y procedimiento de decodificación en un conjunto diverso de tareas de NLP.

Habla

HuBERT (Hidden-Unit BERT) es un modelo de reconocimiento de voz auto-supervisado pre-entrenado en audio, aprendiendo un modelo acústico y de lenguaje combinado sobre entradas continuas. El modelo HuBERT coincide o mejora el rendimiento estado del arte de wav2vec 2.0 en los conjuntos de datos de Librispeech (960h) y Libri-light (60,000h) con subconjuntos de afinamiento de 10min, 1h, 10h, 100h y 960h.

Wav2Vec2 es un modelo pre-entrenado auto-supervisado para reconocimiento automático de voz. Utilizando un objetivo de pre-entrenamiento contrastivo novedoso, Wav2Vec2 aprende representaciones de voz potentes a partir de grandes cantidades de datos de voz no etiquetados, seguido de un afinamiento en una pequeña cantidad de datos de voz transcritos, superando a los mejores métodos semi-supervisados mientras es conceptualmente más simple.

Hugging Face Optimum Graphcore: construyendo sobre una sólida asociación

Graphcore se unió al Programa de Socios de Hardware de Hugging Face en 2021 como miembro fundador, con ambas compañías compartiendo el objetivo común de reducir las barreras para los innovadores que buscan aprovechar el poder de la inteligencia artificial.

Desde entonces, Graphcore y Hugging Face han trabajado juntos extensivamente para hacer que el entrenamiento de modelos de transformadores en IPUs sea rápido y fácil, con el primer modelo Optimum Graphcore (BERT) disponible desde el año pasado.

Los transformadores han demostrado ser extremadamente eficientes para una amplia gama de funciones, incluyendo extracción de características, generación de texto, análisis de sentimientos, traducción y muchos más. Modelos como BERT son ampliamente utilizados por los clientes de Graphcore en una gran variedad de aplicaciones, incluyendo ciberseguridad, automatización de llamadas de voz, descubrimiento de medicamentos y traducción.

Optimizar su rendimiento en el mundo real requiere un tiempo, esfuerzo y habilidades considerable que están fuera del alcance de muchas empresas y organizaciones. Al proporcionar una biblioteca de modelos de transformadores de código abierto, Hugging Face ha abordado directamente estos problemas. La integración de IPUs con HuggingFace también permite a los desarrolladores aprovechar no solo los modelos, sino también los conjuntos de datos disponibles en el HuggingFace Hub.

Ahora, los desarrolladores pueden utilizar los sistemas de Graphcore para entrenar 10 tipos diferentes de modelos de transformadores de última generación y acceder a miles de conjuntos de datos con una complejidad de codificación mínima. Con esta asociación, estamos proporcionando a los usuarios las herramientas y el ecosistema para descargar y ajustar fácilmente modelos preentrenados de última generación para diversos dominios y tareas específicas.

Presentando el último hardware y software de Graphcore

Mientras que los miembros de la cada vez más amplia base de usuarios de Hugging Face ya han podido beneficiarse de la velocidad, rendimiento, eficiencia energética y de costes de la tecnología IPU, una combinación de los últimos lanzamientos de hardware y software de Graphcore desbloqueará aún más potencial.

En cuanto al hardware, el IPU Bow, anunciado en marzo y ahora enviado a los clientes, es el primer procesador en el mundo en utilizar la tecnología de apilado tridimensional Wafer-on-Wafer (WoW), llevando los beneficios bien documentados de la IPU al siguiente nivel. Con avances innovadores en arquitectura de computación, implementación de silicio, comunicación y memoria, cada IPU Bow ofrece hasta 350 teraFLOPS de potencia de cálculo de inteligencia artificial, un impresionante aumento del 40% en rendimiento, y hasta un 16% más de eficiencia energética en comparación con la generación anterior de IPU. Es importante destacar que los usuarios de Hugging Face Optimum pueden cambiar fácilmente de las IPUs de generaciones anteriores a los procesadores Bow, ya que no se requieren cambios en el código.

El software también desempeña un papel vital en el desbloqueo de las capacidades de la IPU, por lo que Optimum ofrece una experiencia de plug-and-play con el sencillo y fácil de usar Poplar SDK de Graphcore, que ha recibido una importante actualización 2.5. Poplar facilita el entrenamiento de modelos de última generación en hardware de última generación, gracias a su completa integración con marcos de aprendizaje automático estándar, como PyTorch, PyTorch Lightning y TensorFlow, así como herramientas de orquestación y implementación como Docker y Kubernetes. Al hacer que Poplar sea compatible con estos sistemas de terceros ampliamente utilizados, los desarrolladores pueden trasladar fácilmente sus modelos desde otras plataformas de computación y comenzar a aprovechar las capacidades avanzadas de IA de la IPU.

Comienza con los modelos Optimum Graphcore de Hugging Face

Si estás interesado en combinar los beneficios de la tecnología IPU con las fortalezas de los modelos de transformadores, puedes descargar la última gama de modelos Optimum Graphcore desde la organización Graphcore en el Hub, o acceder al código desde el repositorio de Optimum GitHub. Nuestra publicación de blog de Introducción te guiará en cada paso para comenzar a experimentar con IPUs.

Además, Graphcore ha creado una extensa página de recursos para desarrolladores, donde puedes encontrar el IPU Model Garden, un repositorio de aplicaciones de aprendizaje automático listas para implementar, que incluye visión por computadora, procesamiento del lenguaje natural, redes de gráficos y mucho más, junto con una variedad de documentación, tutoriales, vídeos instructivos, webinars y más. También puedes acceder al repositorio de GitHub de Graphcore para obtener más referencias de código y tutoriales.

¡Para obtener más información sobre cómo utilizar Hugging Face en Graphcore, visita nuestra página de colaboradores!

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Graphcore y Hugging Face lanzan una nueva línea de Transformers listos para IPU

Nuevos modelos Optimum

Visión por computadora

NLP

Habla

Hugging Face Optimum Graphcore: construyendo sobre una sólida asociación

Presentando el último hardware y software de Graphcore

Comienza con los modelos Optimum Graphcore de Hugging Face

Was this article helpful?

El Modelo de Difusión Anotado

Entrenamiento eficiente de tablas sin datos reales Una introducción a TAPEX

Inteligencia Artificial

Conoce FLM-101B Un decodificador de solo lectura de LLM de código abierto con 101 mil millones de parámetros

La sinfonía creativa de la inteligencia artificial generativa en la composición musical

Investigadores de la Universidad de Ciencias de Tokio desarrollaron un modelo de aprendizaje profundo que puede detectar una fase quasicristalina previamente desconocida en la ciencia de los materiales

Este boletín de inteligencia artificial es todo lo que necesitas #75

Med-PaLM 2 de Google será la IA médica más avanzada

AI Equipaje para Personas con Discapacidad Visual Recibe Excelentes Críticas