Introducción al Control de Versiones de Datos
Control de Versiones de Datos
PYTHON | DATOS | PROGRAMACIÓN
Una guía paso a paso para implementar tu propio DVC en Python usando Hangar
¿Qué es el Control de Versiones de Datos (DVC)?
Cualquier sistema a nivel de producción requiere algún tipo de versionado.
Una única fuente de verdad actual.
Cualquier recurso que se actualice continuamente, especialmente de forma simultánea por múltiples usuarios, requiere algún tipo de registro de auditoría para hacer un seguimiento de todos los cambios.
En ingeniería de software, la solución a esto es Git.
- Rice e IIT Kanpur anuncian los ganadores del Premio de Investigación Colaborativa
- La importancia de los LLM específicos de dominio
- Usando LangChain y ChatGPT para explicar código de Python
Si has escrito código en tu vida, probablemente estés familiarizado con la belleza que es Git.
Git nos permite confirmar cambios, crear diferentes ramas a partir de una fuente y fusionar nuestras ramas con la original, por nombrar algunos.
DVC es puramente el mismo paradigma pero para conjuntos de datos. Verás, los sistemas de datos en vivo están continuamente ingiriendo nuevos puntos de datos mientras diferentes usuarios llevan a cabo diferentes experimentos en los mismos conjuntos de datos.
Esto conduce a múltiples versiones del mismo conjunto de datos, lo cual definitivamente no es una única fuente de verdad.
Además, en un entorno de aprendizaje automático, también tendríamos varias versiones del mismo ‘modelo’ entrenado en diferentes versiones del mismo conjunto de datos (por ejemplo, volver a entrenar el modelo para incluir nuevos puntos de datos).
Si no se audita y versiona correctamente, esto crearía una red enredada de conjuntos de datos y experimentos. ¡Definitivamente no queremos eso!
Por lo tanto, DVC es un sistema que implica rastrear nuestros conjuntos de datos mediante el registro de cambios en un conjunto de datos en particular. Hay múltiples soluciones de DVC tanto gratuitas como pagas.
Recientemente descubrí Hangar, un paquete de DVC completamente de código abierto en Python. Echemos un vistazo a lo que puede hacer, ¿te parece?
Trabajando con Hangar
El paquete Hangar es una implementación pura en Python y está disponible a través de pip.
Su funcionalidad principal también se desarrolla de manera cercana a git, lo cual ayuda enormemente en la curva de aprendizaje.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Comienza con NLP con nuestro nuevo curso de introducción a NLP
- Simplificando Transformers NLP de última generación utilizando palabras que comprendes – parte 2 – Entrada
- Deja de crear manualmente tu infraestructura en AWS. ¡Usa Terraform!
- Diversidad de Variables en Estadística Una Guía para Profesionales de Datos
- Indicaciones a mitad de camino para el diseño de interiores
- Investigadores de CMU desarrollaron un método simple de IA de aprendizaje a distancia para transferir conocimientos visuales a tareas de robótica mejorando el aprendizaje de políticas en un 20% sobre los resultados básicos
- Google AI presenta STUDY Un sistema recomendador consciente socialmente y causal-temporal para audiolibros en un entorno educativo