Introducción al Control de Versiones de Datos

Control de Versiones de Datos

PYTHON | DATOS | PROGRAMACIÓN

Una guía paso a paso para implementar tu propio DVC en Python usando Hangar

Foto de Florian Olivo en Unsplash

¿Qué es el Control de Versiones de Datos (DVC)?

Cualquier sistema a nivel de producción requiere algún tipo de versionado.

Una única fuente de verdad actual.

Cualquier recurso que se actualice continuamente, especialmente de forma simultánea por múltiples usuarios, requiere algún tipo de registro de auditoría para hacer un seguimiento de todos los cambios.

En ingeniería de software, la solución a esto es Git.

Si has escrito código en tu vida, probablemente estés familiarizado con la belleza que es Git.

Git nos permite confirmar cambios, crear diferentes ramas a partir de una fuente y fusionar nuestras ramas con la original, por nombrar algunos.

DVC es puramente el mismo paradigma pero para conjuntos de datos. Verás, los sistemas de datos en vivo están continuamente ingiriendo nuevos puntos de datos mientras diferentes usuarios llevan a cabo diferentes experimentos en los mismos conjuntos de datos.

Esto conduce a múltiples versiones del mismo conjunto de datos, lo cual definitivamente no es una única fuente de verdad.

Además, en un entorno de aprendizaje automático, también tendríamos varias versiones del mismo ‘modelo’ entrenado en diferentes versiones del mismo conjunto de datos (por ejemplo, volver a entrenar el modelo para incluir nuevos puntos de datos).

Si no se audita y versiona correctamente, esto crearía una red enredada de conjuntos de datos y experimentos. ¡Definitivamente no queremos eso!

Por lo tanto, DVC es un sistema que implica rastrear nuestros conjuntos de datos mediante el registro de cambios en un conjunto de datos en particular. Hay múltiples soluciones de DVC tanto gratuitas como pagas.

Recientemente descubrí Hangar, un paquete de DVC completamente de código abierto en Python. Echemos un vistazo a lo que puede hacer, ¿te parece?

Trabajando con Hangar

El paquete Hangar es una implementación pura en Python y está disponible a través de pip.

Su funcionalidad principal también se desarrolla de manera cercana a git, lo cual ayuda enormemente en la curva de aprendizaje.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Completado de nubes de puntos con modelos de difusión preentrenados de texto a imagen

¿Alguna vez has oído el término nube de puntos? Es una representación fundamental de datos en 3D, que consiste en pun...

Ciencia de Datos

Gestionando los costos de almacenamiento en la nube de aplicaciones de Big Data

Con la creciente dependencia de cantidades cada vez mayores de datos, las empresas de hoy en día dependen más que nun...

Inteligencia Artificial

¿Cómo deberíamos ver los datos clínicos sesgados en el aprendizaje automático médico? Un llamado a una perspectiva arqueológica

Investigadores del MIT, la Universidad Johns Hopkins y el Instituto Alan Turing argumentan que lidiar con datos médic...

Inteligencia Artificial

Biosensor ofrece retroalimentación en tiempo real para la diálisis

Investigadores de la Universidad de Tecnología de Shahrood en Irán han desarrollado un nuevo biosensor para acelerar ...