Recopiladores de datos en HuggingFace
Recolectores de datos en HuggingFace
Qué son y qué hacen
Cuando comencé a aprender HuggingFace, los “data collators” fueron uno de los componentes menos intuitivos para mí. Me costaba entenderlos y no encontraba recursos lo suficientemente buenos que los explicaran de manera intuitiva.
En esta publicación, echamos un vistazo a qué son los “data collators”, cómo difieren y cómo escribir un “data collator” personalizado.
Data Collators: Nivel Superior
Los “data collators” son una parte esencial del procesamiento de datos en HuggingFace. Todos los hemos usado después de tokenizar los datos y antes de pasar los datos al objeto Trainer para entrenar el modelo.
En pocas palabras, agrupan una lista de muestras en un mini lote de entrenamiento. Lo que hacen depende de la tarea para la cual están definidos, pero al menos rellenan o truncen las muestras de entrada para asegurarse de que todas las muestras en un mini lote tengan la misma longitud. Los tamaños típicos de los mini lotes van desde 16 hasta 256 muestras, dependiendo del tamaño del modelo, los datos y las limitaciones del hardware.
Los “data collators” son específicos de la tarea. Hay un “data collator” para cada una de las siguientes tareas:
- Modelado de lenguaje causal (CLM)
- Modelado de lenguaje enmascarado (MLM)
- Clasificación de secuencia
- Seq2Seq
- Clasificación de tokens
Algunos “data collators” son simples. Por ejemplo, para la tarea de “clasificación de secuencia”, el “data collator” solo necesita rellenar todas las secuencias en un mini lote para asegurarse de que tengan la misma longitud. Luego las concatenaría en un tensor.
Algunos “data collators” son bastante complejos, ya que necesitan manejar el procesamiento de datos para esa tarea en particular.
Data Collators Básicos
Dos de los “data collators” más básicos son los siguientes:
1)DefaultDataCollator: Esto no realiza ningún relleno o truncamiento. Supone que todas las muestras de entrada tienen la misma longitud. Si tus muestras de entrada no tienen la misma longitud, esto arrojará errores.
import torchfrom transformers import DefaultDataCollatortexts = ["Hola mundo", "¿Cómo estás?"]# Tokenizarfrom transformers import AutoTokenizertokenizer =...
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- La investigación liderada por UMD impulsa el Panel de datos sobre el enjuiciamiento del condado de Montgomery.
- Artista Co-creatividad y colaboración entre computadoras y humanos en las artes
- Visión a través del sonido para los ciegos
- Ariel Katz, CEO y co-fundador de H1 — Apoyando a Israel y Gaza, GenosAI, Innovación en ensayos clínicos, El impacto de la IA en el cuidado de la salud, El papel de los datos en la medicina moderna y Consejos para startups
- Bosques Aleatorios en 2023 Extensiones Modernas de un Método Poderoso
- Desbloquea el potencial de la ciencia de datos con tu portátil
- Introducción a Giskard Gestión de calidad de código abierto para modelos de inteligencia artificial