Recopiladores de datos en HuggingFace

Recolectores de datos en HuggingFace

Qué son y qué hacen

Cuando comencé a aprender HuggingFace, los “data collators” fueron uno de los componentes menos intuitivos para mí. Me costaba entenderlos y no encontraba recursos lo suficientemente buenos que los explicaran de manera intuitiva.

En esta publicación, echamos un vistazo a qué son los “data collators”, cómo difieren y cómo escribir un “data collator” personalizado.

Data Collators: Nivel Superior

Los “data collators” son una parte esencial del procesamiento de datos en HuggingFace. Todos los hemos usado después de tokenizar los datos y antes de pasar los datos al objeto Trainer para entrenar el modelo.

En pocas palabras, agrupan una lista de muestras en un mini lote de entrenamiento. Lo que hacen depende de la tarea para la cual están definidos, pero al menos rellenan o truncen las muestras de entrada para asegurarse de que todas las muestras en un mini lote tengan la misma longitud. Los tamaños típicos de los mini lotes van desde 16 hasta 256 muestras, dependiendo del tamaño del modelo, los datos y las limitaciones del hardware.
Repositorios Trending AI en GitHub semana del 6 de noviembre de 2023
Poniendo a prueba tu modelo de pronóstico una guía para realizar pruebas retrospectivas
Haz que el tiempo de generación de tu llamada vuele con AWS Inferentia2

Los “data collators” son específicos de la tarea. Hay un “data collator” para cada una de las siguientes tareas:

Modelado de lenguaje causal (CLM)
Modelado de lenguaje enmascarado (MLM)
Clasificación de secuencia
Seq2Seq
Clasificación de tokens

Algunos “data collators” son simples. Por ejemplo, para la tarea de “clasificación de secuencia”, el “data collator” solo necesita rellenar todas las secuencias en un mini lote para asegurarse de que tengan la misma longitud. Luego las concatenaría en un tensor.

Algunos “data collators” son bastante complejos, ya que necesitan manejar el procesamiento de datos para esa tarea en particular.

Data Collators Básicos

Dos de los “data collators” más básicos son los siguientes:

1)DefaultDataCollator: Esto no realiza ningún relleno o truncamiento. Supone que todas las muestras de entrada tienen la misma longitud. Si tus muestras de entrada no tienen la misma longitud, esto arrojará errores.

import torchfrom transformers import DefaultDataCollatortexts = ["Hola mundo", "¿Cómo estás?"]# Tokenizarfrom transformers import AutoTokenizertokenizer =...

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Recopiladores de datos en HuggingFace

Qué son y qué hacen

Data Collators: Nivel Superior

Data Collators Básicos

Was this article helpful?

Repositorios Trending AI en GitHub semana del 6 de noviembre de 2023

Descomposición Singular de Valores (SVD), Desmitificada

Inteligencia Artificial

Evaluación de los Modelos de Lenguaje Grandes Conozca a AgentSims, un Marco de Inteligencia Artificial Basado en Tareas para Pruebas Completas y Objetivas

¿Cómo sobrevivir en el mundo de la IA? ¿Está en riesgo tu trabajo?

La historia interna de la colaboración de Microsoft con OpenAI

Esta investigación de IA de la Universidad de Hong Kong y el Grupo Alibaba revela 'LivePhoto' un avance en la animación de video controlada por texto y personalización de la intensidad del movimiento.

Meer Pyrus Base Una nueva plataforma de código abierto basada en Python para la simulación bidimensional (2D) de RoboCup Soccer

Investigadores de UT Austin y UC Berkeley presentan Ambient Diffusion un marco de inteligencia artificial para entrenar/ajustar modelos de difusión dados solo datos corruptos como entrada.