Presentamos nueva documentación de audio y visión en 🤗 Datasets

Nuevo audio y documentación visual agregada a 🤗 Datasets.

Los conjuntos de datos abiertos y reproducibles son esenciales para avanzar en el aprendizaje automático. Al mismo tiempo, los conjuntos de datos han crecido enormemente en tamaño como combustible para modelos de lenguaje grandes. En 2020, Hugging Face lanzó 🤗 Datasets, una biblioteca dedicada a:

Proporcionar acceso a conjuntos de datos estandarizados con una sola línea de código.
Herramientas para procesar conjuntos de datos a gran escala de manera rápida y eficiente.

¡Gracias a la comunidad, agregamos cientos de conjuntos de datos de procesamiento del lenguaje natural (NLP) en muchos idiomas y dialectos durante el Sprint de Datasets! 🤗 ❤️

Pero los conjuntos de datos de texto son solo el comienzo. Los datos se representan en formatos más ricos como 🎵 audio, 📸 imágenes e incluso una combinación de audio y texto o imagen y texto. Los modelos entrenados en estos conjuntos de datos permiten aplicaciones increíbles como describir qué hay en una imagen o responder preguntas sobre una imagen.

El equipo de 🤗 Datasets ha estado construyendo herramientas y funciones para hacer que trabajar con estos tipos de conjuntos de datos sea lo más simple posible para la mejor experiencia del desarrollador. Agregamos nueva documentación en el camino para ayudarte a aprender más sobre cómo cargar y procesar conjuntos de datos de audio e imagen.

Inicio rápido

El Inicio rápido es uno de los primeros lugares que visitan los nuevos usuarios para obtener una descripción general de las características de una biblioteca. Por eso actualizamos el Inicio rápido para incluir cómo puedes usar 🤗 Datasets para trabajar con conjuntos de datos de audio e imagen. Elige la modalidad de conjunto de datos con la que deseas trabajar y observa un ejemplo de principio a fin de cómo cargar y procesar el conjunto de datos para prepararlo para el entrenamiento con PyTorch o TensorFlow.

También nuevo en el Inicio rápido es la función to_tf_dataset que se encarga de convertir un conjunto de datos en un tf.data.Dataset como una mamá oso que cuida de sus cachorros. Esto significa que no tienes que escribir ningún código para mezclar y cargar lotes desde tu conjunto de datos para que funcione correctamente con TensorFlow. Una vez que hayas convertido tu conjunto de datos en un tf.data.Dataset, puedes entrenar tu modelo con los métodos habituales de TensorFlow o Keras.

¡Echa un vistazo al Inicio rápido hoy mismo para aprender cómo trabajar con diferentes modalidades de conjunto de datos y probar la nueva función to_tf_dataset!

¡Elige tu aventura de conjunto de datos!

Guías dedicadas

Cada modalidad de conjunto de datos tiene matices específicos sobre cómo cargarlos y procesarlos. Por ejemplo, cuando cargas un conjunto de datos de audio, la señal de audio se decodifica automáticamente y se resamplea al vuelo mediante la característica Audio. ¡Esto es bastante diferente de cargar un conjunto de datos de texto!

Para hacer que toda la documentación específica de la modalidad sea más fácil de encontrar, hay nuevas secciones dedicadas con guías enfocadas en mostrarte cómo cargar y procesar cada modalidad. Si buscas información específica sobre cómo trabajar con una modalidad de conjunto de datos, echa un vistazo a estas secciones dedicadas primero. Mientras tanto, las funciones que no son específicas y se pueden usar de manera amplia se documentan en la sección de Uso General. Reorganizar la documentación de esta manera nos permitirá escalar mejor a otros tipos de conjuntos de datos que planeamos admitir en el futuro.

Las guías están organizadas en secciones que cubren los aspectos más esenciales de 🤗 Datasets.

Consulta las guías dedicadas para obtener más información sobre cómo cargar y procesar conjuntos de datos para diferentes modalidades.

ImageFolder

Típicamente, los usuarios de 🤗 Datasets escriben un script de carga de conjunto de datos para descargar y generar un conjunto de datos con las divisiones train y test apropiadas. Con el constructor de conjuntos de datos ImageFolder, no necesitas escribir ningún código para descargar y generar un conjunto de datos de imágenes. Cargar un conjunto de datos de imágenes para clasificación de imágenes es tan simple como asegurarse de que tu conjunto de datos esté organizado en una carpeta como esta:

carpeta/train/perro/golden_retriever.png
carpeta/train/perro/german_shepherd.png
carpeta/train/perro/chihuahua.png

carpeta/train/gato/maine_coon.png
carpeta/train/gato/bengal.png
carpeta/train/gato/birman.png

Tu conjunto de datos de 🐶 debería lucir algo así una vez que lo hayas cargado en el Hub y lo hayas previsualizado.

Las etiquetas de imagen se generan en una columna label basada en el nombre del directorio. ImageFolder te permite comenzar al instante con un conjunto de datos de imágenes, eliminando el tiempo y esfuerzo requeridos para escribir un script de carga de datos.

Pero espera, ¡hay más! Si tienes un archivo que contiene metadatos sobre tu conjunto de datos de imágenes, ImageFolder se puede utilizar para otras tareas de imágenes como subtitulación de imágenes y detección de objetos. Por ejemplo, los conjuntos de datos de detección de objetos comúnmente tienen cajas delimitadoras, coordenadas en una imagen que identifican dónde se encuentra un objeto. ImageFolder puede utilizar este archivo para vincular los metadatos sobre la caja delimitadora y la categoría de cada imagen con las imágenes correspondientes en la carpeta:

{"nombre_archivo": "0001.png", "objetos": {"bbox": [[302.0, 109.0, 73.0, 52.0]], "categorias": [0]}}
{"nombre_archivo": "0002.png", "objetos": {"bbox": [[810.0, 100.0, 57.0, 28.0]], "categorias": [1]}}
{"nombre_archivo": "0003.png", "objetos": {"bbox": [[160.0, 31.0, 248.0, 616.0], [741.0, 68.0, 202.0, 401.0]], "categorias": [2, 2]}}

Puedes utilizar ImageFolder para cargar un conjunto de datos de imágenes para casi cualquier tipo de tarea de imágenes si tienes un archivo de metadatos con la información requerida. Consulta la guía de ImageFolder para obtener más información.

¿Qué sigue?

Similar a cómo la primera iteración de la biblioteca 🤗 Datasets estandarizó los conjuntos de datos de texto y los hizo muy fáciles de descargar y procesar, estamos muy emocionados de llevar este mismo nivel de facilidad de uso a los conjuntos de datos de audio e imágenes. Al hacerlo, esperamos que sea más fácil para los usuarios entrenar, construir y evaluar modelos y aplicaciones en diferentes modalidades.

En los próximos meses, continuaremos agregando nuevas características y herramientas para trabajar con conjuntos de datos de audio e imágenes. Se rumorea en la calle de 🤗 Hugging Face que pronto habrá algo llamado AudioFolder. 🤫 Mientras tanto, siéntete libre de echar un vistazo a la guía de procesamiento de audio y luego poner manos a la obra con un conjunto de datos de audio como GigaSpeech.

Únete al foro para cualquier pregunta y comentario sobre el trabajo con conjuntos de datos de audio e imágenes. Si descubres algún error, por favor abre un problema en GitHub para que podamos solucionarlo.

¿Te sientes un poco más aventurero? ¡Contribuye a la creciente colección de conjuntos de datos de audio e imágenes impulsada por la comunidad en el Hub! Crea un repositorio de conjuntos de datos en el Hub y carga tu conjunto de datos. Si necesitas ayuda, abre una discusión en la pestaña Comunidad de tu repositorio y menciona a uno de los miembros del equipo de 🤗 Datasets para que te ayude a llegar a la meta final!

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Presentamos nueva documentación de audio y visión en 🤗 Datasets

Inicio rápido

Guías dedicadas

ImageFolder

¿Qué sigue?

Was this article helpful?

Nyströmformer Aproximando la autoatención en tiempo lineal y memoria utilizando el método de Nyström.

Ventaja Actor Critic (A2C)

Inteligencia Artificial

Sobrevivencia del más apto Modelos generativos compactos de IA son el futuro para una IA a gran escala rentable

Investigadores de Apple presentan DeepPCR Un novedoso algoritmo de aprendizaje automático que paraleliza operaciones típicamente secuenciales para acelerar la inferencia y el entrenamiento de redes neuronales.

Conoce snnTorch Un paquete de Python de código abierto para realizar aprendizaje basado en gradientes con redes neuronales de disparo.

Casas de cuidado en Japón utilizan Big Data para impulsar a los cuidadores y aligerar las cargas de trabajo.

Por qué Meta está regalando su modelo de IA extremadamente poderoso

Escribir canciones con GPT-4 Parte 3, Melodías