Introducción al Control de Versiones de Datos

Control de Versiones de Datos

PYTHON | DATOS | PROGRAMACIÓN

Una guía paso a paso para implementar tu propio DVC en Python usando Hangar

¿Qué es el Control de Versiones de Datos (DVC)?

Cualquier sistema a nivel de producción requiere algún tipo de versionado.

Una única fuente de verdad actual.

Cualquier recurso que se actualice continuamente, especialmente de forma simultánea por múltiples usuarios, requiere algún tipo de registro de auditoría para hacer un seguimiento de todos los cambios.

En ingeniería de software, la solución a esto es Git.

Si has escrito código en tu vida, probablemente estés familiarizado con la belleza que es Git.

Git nos permite confirmar cambios, crear diferentes ramas a partir de una fuente y fusionar nuestras ramas con la original, por nombrar algunos.

DVC es puramente el mismo paradigma pero para conjuntos de datos. Verás, los sistemas de datos en vivo están continuamente ingiriendo nuevos puntos de datos mientras diferentes usuarios llevan a cabo diferentes experimentos en los mismos conjuntos de datos.

Esto conduce a múltiples versiones del mismo conjunto de datos, lo cual definitivamente no es una única fuente de verdad.

Además, en un entorno de aprendizaje automático, también tendríamos varias versiones del mismo ‘modelo’ entrenado en diferentes versiones del mismo conjunto de datos (por ejemplo, volver a entrenar el modelo para incluir nuevos puntos de datos).

Si no se audita y versiona correctamente, esto crearía una red enredada de conjuntos de datos y experimentos. ¡Definitivamente no queremos eso!

Por lo tanto, DVC es un sistema que implica rastrear nuestros conjuntos de datos mediante el registro de cambios en un conjunto de datos en particular. Hay múltiples soluciones de DVC tanto gratuitas como pagas.

Recientemente descubrí Hangar, un paquete de DVC completamente de código abierto en Python. Echemos un vistazo a lo que puede hacer, ¿te parece?

Trabajando con Hangar

El paquete Hangar es una implementación pura en Python y está disponible a través de pip.

Su funcionalidad principal también se desarrolla de manera cercana a git, lo cual ayuda enormemente en la curva de aprendizaje.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Introducción al Control de Versiones de Datos

PYTHON | DATOS | PROGRAMACIÓN

Una guía paso a paso para implementar tu propio DVC en Python usando Hangar

¿Qué es el Control de Versiones de Datos (DVC)?

Trabajando con Hangar

Was this article helpful?

Rice e IIT Kanpur anuncian los ganadores del Premio de Investigación Colaborativa

Moderación de contenido a clasificación sin entrenamiento

Inteligencia Artificial

Investigadores de Meta AI presentan un modelo de aprendizaje automático que explora la decodificación de la percepción del habla a partir de registros cerebrales no invasivos.

Completado de nubes de puntos con modelos de difusión preentrenados de texto a imagen

Google DeepMind lanza Open X-Embodiment, que incluye un conjunto de datos de robótica con más de 1 millón de trayectorias y un modelo de IA generalista (𝗥𝗧-X) para ayudar a avanzar en cómo los robots pueden aprender nuevas habilidades.

Gestionando los costos de almacenamiento en la nube de aplicaciones de Big Data

¿Cómo deberíamos ver los datos clínicos sesgados en el aprendizaje automático médico? Un llamado a una perspectiva arqueológica

Biosensor ofrece retroalimentación en tiempo real para la diálisis