Controla los costos de la IA a través de la gestión ágil de proyectos de ciencia de datos

Controla los costos de la IA mediante la gestión ágil de proyectos de ciencia de datos

Un plan para dirigir una organización ágil de ciencia de datos

Introducción

El mundo de la ciencia de datos es complejo, con costos ocultos que van más allá de los límites presupuestarios. Los científicos de datos son una inversión importante para cualquier organización. Desafortunadamente, ineficiencias como la infraestructura inactiva pueden desperdiciar cantidades significativas de inversiones en infraestructura de datos. Las metodologías ágiles ofrecen una solución, mejorando el flujo de trabajo y reduciendo el tiempo perdido. Con la agilidad, el proceso tradicional de ciencia de datos se optimiza y se vuelve adaptable, entregando valor de manera más eficiente. Este artículo explora estos costos ocultos y demuestra cómo las prácticas ágiles pueden hacer que sus iniciativas de ciencia de datos sean más rentables.

Sección 1: Los Costos Ocultos de la Ciencia de Datos

Los científicos de datos, con su conocimiento y experiencia intrincados en el manejo de datos, son un recurso valioso y su productividad es fundamental. Cuanto más tiempo pasen los científicos de datos en tareas tediosas en lugar de innovar, mayor será el gasto sin el beneficio correspondiente. Además, la tendencia de los científicos de datos a trabajar en sus propias máquinas para no verse restringidos por TI centralizada o establecer capacidad paralela de “TI sombría” dificulta el descubrimiento del conocimiento y a menudo lleva a reinventar escenarios ya existentes.

El desperdicio puede adoptar muchas formas. El Boston Consulting Group descubrió que solo el 44% de los modelos se implementan, y una parte significativa del tiempo diario de un científico de datos se puede desperdiciar en tareas menores como la configuración de TI. Además, cuando los científicos de datos están trabajando arduamente, los costos de infraestructura se suman rápidamente. Cuando están ocupados y distraídos de la innovación, las inversiones en infraestructura de datos pueden volverse inactivas, estar siempre activas y estar sobredimensionadas. Por último, mover datos dentro y fuera de la nube también se vuelve costoso a escala de datos de IA. Como resultado, los costos de la nube se vuelven difíciles de manejar en múltiples pilas, silos y entornos.

El aprendizaje automático, en particular la IA generativa, requiere volúmenes enormes de computación en la nube y GPUs costosas. En 2023, modelos prominentes como ChatGPT le cuestan a organizaciones como OpenAI alrededor de $700,000 al día en costos de computación (SemiAnalysis en el Washington Post [1]). Según una estimación, se necesitaron miles de GPUs y meses de entrenamiento antes de que ChatGPT fuera implementado [2].

La lucha persiste. Aproximadamente el 56% de los líderes en ciencia de datos necesitan ayuda para escalar correctamente sus proyectos de ciencia de datos (BCG). Por ejemplo, los datos dispersos en múltiples plataformas en la nube no solo aumentan los costos de almacenamiento, sino que también dificultan el acceso y la compartición de datos entre los equipos. Esta aproximación fragmentada puede tensar aún más los presupuestos y socavar la colaboración y eficiencia que son esenciales en el ciclo de vida de la ciencia de datos. ¿Cómo podemos transformar estos obstáculos en oportunidades? La respuesta puede estar en adoptar metodologías ágiles y un proceso de diseño estructurado.

Sección 2: Diseño de Procesos y Metodología Ágil en Ciencia de Datos

Hoy, cuando la eficiencia y la adaptabilidad son clave, las metodologías ágiles son una parte cada vez más relevante de los proyectos de ciencia de datos. Los procesos ágiles adoptan la adaptabilidad, la colaboración y el desarrollo iterativo, todos los cuales pueden tener un impacto significativo en la eficiencia de costos de un proyecto en todo el ciclo de vida de la ciencia de datos. Un proyecto típico de Ciencia de Datos se adapta bien a las prácticas ágiles, ya que exhibe innatamente rasgos clave del enfoque de gestión ágil:

  • Desarrollo incremental e iterativo – los productos de ciencia de datos se construyen de forma incremental. La mayoría de los marcos comúnmente adoptados utilizados para gestionar proyectos de ciencia de datos tienen fases estrictamente definidas. Por ejemplo, CRISP-DM utiliza Comprensión del Negocio, Comprensión de los Datos, Preparación de los Datos, Modelado y Evaluación.
  • Enfoque en valores – los modelos predictivos, pero también la ciencia de datos en general, se centran intrínsecamente en el valor, ya que las recomendaciones e ideas de los modelos impulsan directamente decisiones comerciales.
  • Equipo autorizado – el equipo de ciencia de datos alcanza su máxima productividad cuando se le permite priorizar y organizar el trabajo dentro del equipo. Esto incluye la selección de modelos específicos, herramientas, marcos, recursos computacionales, lenguajes de programación, etc.
  • Aprendizaje continuo – este es otro principio importante de la agilidad. Cuando comenzamos a trabajar en un modelo, tenemos una visión en particular y comenzamos a construir un producto (modelo, informe, etc.) basado en esta visión. Después de la primera iteración o después de una de las fases del proyecto (por ejemplo, análisis exploratorio de datos), hemos adquirido conocimientos adicionales sobre el problema, lo que nos permite ajustar también la visión en consecuencia.

Los proyectos de ciencia de datos a menudo requieren la interacción entre fases. Por ejemplo, los malos resultados de un modelo pueden llevar a revisar la recopilación de datos para obtener datos con mejor capacidad predictiva. La metodología ágil abraza esta naturaleza cíclica, permitiendo que los equipos se adapten y refinen sus procesos.

Imagen por el autor

Aquí hay una breve descripción de cómo podría verse un proceso ágil para un proyecto típico de ciencia de datos:

  • Caso de Negocio: Definir el problema y el impacto potencial.
  • Recopilación de Datos y Análisis Inicial: Recopilar, analizar y validar datos.
  • Modelado / Análisis Exploratorio de Datos: Desarrollar y probar modelos.
  • Operacionalización: Implementar los modelos en producción.
  • Monitoreo y Análisis: Monitorear, analizar y refinar continuamente los modelos.

Herramientas de gestión de proyectos como Jira permiten que las metodologías ágiles adopten diferentes formas. Si su plataforma de ciencia de datos utiliza proyectos para organizar unidades de trabajo y su flujo de trabajo utiliza epopeyas con subtemas como tareas, historias y errores, vincular la tarea épica a su proyecto puede agilizar tanto el proceso de desarrollo como el seguimiento del progreso y la carga de trabajo.

Para proyectos complejos en los que diferentes equipos se encargan de diferentes etapas, podría ser más eficiente crear proyectos que se vinculen con tickets de tareas. Cada ticket representa una sola etapa o un grupo de etapas, asegurando una mejor alineación con flujos de trabajo complejos.

Sección 3: Costos e Infraestructura y Control

La gestión de infraestructuras es fundamental, pero a menudo se subestima en la ciencia de datos. Las complejidades involucradas en la configuración y gestión de entornos de ciencia de datos pueden generar costos ocultos sustanciales, especialmente cuando los recursos no se utilizan de manera eficiente. Cuando las inversiones están inactivas, siempre encendidas y sobreutilizadas, estos gastos se acumulan rápidamente y reducen las oportunidades de dirigir recursos valiosos hacia actividades más productivas.

Los modelos de aprendizaje automático, especialmente el aprendizaje profundo, requieren una cantidad inmensa de recursos informáticos: GPU de alta gama e instancias de computación en la nube, y el costo puede ser asombroso. Además, las plataformas comerciales pueden tener recargos que aumentan aún más el precio. Un enfoque estratégico para la planificación y la inversión en infraestructuras, equilibrando la necesidad de tecnología de vanguardia con el imperativo del control de costos.

Este problema no solo consume recursos financieros, sino que también conduce a una pérdida de productividad potencial y a un cuello de botella de eficiencia, ya que los recursos se asignan de manera deficiente para su uso por parte de varios equipos. Lamentablemente, esta forma de desperdicio no siempre es evidente y a menudo requiere un seguimiento y una gestión meticulosos para detectarlo y mitigarlo. El aprovechamiento de las estrategias ágiles puede desbloquear un valor más significativo de las inversiones en ciencia de datos, convirtiendo los posibles desperdicios en productividad e innovación. También crea un rastro documental para monitorear los costos, la utilización de los recursos y facilita el cálculo del retorno de la inversión para proyectos individuales de ciencia de datos.

Sección 4: Escalado, Gestión de Datos y Flujo de Trabajo Ágil

<p+escalar 56%="" a="" adopción="" agregar="" almacenamiento="" ante="" asociados="" aumento="" ciencia="" comercial.="" como="" con="" costos="" creciente="" datos="" datos,="" de="" el="" embargo,="" es="" esta="" etapa="" experimental="" factor="" gastos.

Un flujo de trabajo ágil, caracterizado por el desarrollo iterativo y bucles de retroalimentación, permite a los equipos de ciencia de datos identificar ineficiencias de almacenamiento. Por ejemplo, conjuntos de datos redundantes que a menudo se pueden evitar a través de sprints iterativos que se centran en la consolidación de datos. Al construir incrementalmente sobre trabajos anteriores y reutilizar datos y código, un flujo de trabajo ágil minimiza la necesidad de recursos de almacenamiento adicionales.

Además, las prácticas ágiles como el control de versiones y la ramificación de características permiten una gestión eficiente de datos. La versión adecuada facilita la vuelta a estados anteriores del proyecto, evitando la necesidad de múltiples copias redundantes y ahorrando almacenamiento.

La agilidad también significa una mejor asignación de recursos. A través de reuniones Scrum y tableros Kanban, los equipos obtienen una visión transparente de quién está haciendo qué, lo que lleva a una distribución de recursos más informada y una utilización óptima de los recursos humanos y de la máquina, menos tiempo ocioso y, en consecuencia, menos costos ociosos.

La mentalidad ágil también se extiende a la automatización. El desarrollo iterativo de canalizaciones automatizadas para la extracción, transformación y carga de datos (ETL) puede eliminar cuellos de botella manuales, sprint tras sprint, acelerando el proceso de escalado y reduciendo significativamente los costos relacionados con el trabajo manual y la rectificación de errores.

Sin embargo, es crucial tener en cuenta que la agilidad no es una solución única para todos. Los equipos deben ser adaptables, estar dispuestos a incorporar comentarios y realizar pivotes necesarios. Los proyectos de ciencia de datos son multifacéticos y complejos, por lo tanto, la adhesión rígida a una metodología puede introducir puntos ciegos operativos y costos inesperados.

Adoptar métodos ágiles para escalar no se trata solo de hacer las cosas más rápido; se trata de hacer las cosas de manera más inteligente. Al centrarse en mejoras iterativas, transparencia y automatización, se tiene muchas más posibilidades de escalar los proyectos de manera exitosa y al mismo tiempo mantener los costos bajo control.

Sección 5: Eficiencia, Automatización y el Rol de la Tecnología de la Información

La eficiencia es el elemento clave que mantiene unida la compleja maquinaria de la ciencia de datos. Sin ella, no solo los costos se disparan, sino que también aumenta el tiempo para obtener valor, anulando la ventaja competitiva de adoptar la ciencia de datos en primer lugar. Uno de los factores a menudo pasados por alto que desempeña un papel crucial en la mejora de la eficiencia es el rol de la tecnología de la información.

Mientras que los departamentos de tecnología de la información tradicionalmente se centran en mantener la integridad del sistema y la infraestructura, el surgimiento de la ciencia de datos amplía su rol. Ahora desempeñan una función fundamental en el establecimiento de flujos de trabajo automatizados y en impulsar la adopción de prácticas ágiles, lo que tiene un impacto directo en la eficiencia de costos.

Una forma práctica de impulsar la eficiencia es mediante la asignación de Épicos, o grandes bloques de trabajo, a Proyectos más pequeños (o la unidad equivalente de trabajo respaldada por su plataforma de ciencia de datos), y asignar Tareas/Historias a Proyectos, una práctica que a menudo es respaldada por las metodologías ágiles. Esta integración sirve como un faro, guiando a los equipos a través de las complejidades de los proyectos de ciencia de datos. Cada Épico se puede descomponer en múltiples tareas o historias más pequeñas, lo que ayuda en la escala y asignación de roles del proyecto. Esto fomenta no solo la transparencia, sino también la responsabilidad, impulsando así la eficiencia.

Los conductos automatizados y los mecanismos de Integración Continua/Implementación Continua (CI/CD), a menudo supervisados por tecnología de la información, mejoran aún más esta eficiencia. La automatización acelera las tareas rutinarias, liberando horas del tiempo de los científicos de datos para tareas más complejas e innovación. Aquí es donde el rol de la tecnología de la información es indispensable. Puede configurar estos conductos y mantenerlos, asegurando que los equipos de ciencia de datos tengan todo lo que necesitan para trabajar de manera eficiente.

Otra faceta de esto es la gestión de los recursos en la nube y la capacidad de cómputo. Los modelos de aprendizaje automático requieren una intensa capacidad de cómputo, que consume mucho tiempo y es costosa. Aquí, la tecnología de la información puede asignar recursos de manera prudente, según el plan ágil y las tareas actuales del sprint. Esto evita el desperdicio de energía informática, asegurando que solo se utilice la cantidad requerida de recursos y reduciendo así los costos.

En resumen, el rol de la tecnología de la información está evolucionando para convertirse en un facilitador en la implementación de prácticas ágiles en la ciencia de datos, lo que a su vez es crucial para controlar los costos y mejorar la eficiencia. Al habilitar prácticas ágiles y automatización en los equipos de ciencia de datos, la tecnología de la información se coloca como un pilar que respalda el marco ágil en la ciencia de datos.

Sección 6: Las Implicaciones Más Amplias para la Estrategia Empresarial y la Ventaja Competitiva

A medida que la ciencia de datos continúa madurando, se convierte en un componente central más valioso de la estrategia empresarial, ofreciendo vías para una ventaja competitiva significativa. Con metodologías ágiles, los equipos de ciencia de datos pueden amplificar este impacto, promoviendo la ciencia de datos desde una herramienta operativa hasta un activo estratégico.

En el panorama de la estrategia empresarial, la agilidad equivale a la adaptabilidad y capacidad de respuesta a los cambios del mercado. Las organizaciones con procesos ágiles incorporados en sus proyectos de ciencia de datos encuentran más fácil adaptarse o escalar, asegurando que se mantengan por delante de los competidores. Por ejemplo, desglosar proyectos complejos en “Épicos” o “Tareas” manejables ayuda a los tomadores de decisiones a nivel ejecutivo a comprender la trayectoria de los proyectos complejos de ciencia de datos y asignar recursos de manera más prudente.

Además, las prácticas ágiles fomentan una cultura de mejora continua e innovación. Al finalizar cada sprint, los equipos revisan su progreso y adaptan los sprints futuros en consecuencia. Este proceso iterativo fomenta un entorno donde el fracaso no se castiga, sino que se ve como una oportunidad de aprendizaje. En un campo como la ciencia de datos, que a menudo está lleno de incertidumbres y complejidades, esta cultura es una fuerte ventaja competitiva.

Además, los procesos ágiles ayudan a gestionar el riesgo, una prioridad fundamental para las organizaciones que buscan dominar su espacio de mercado utilizando la ciencia de datos. La naturaleza iterativa de los métodos ágiles, junto con su énfasis en la retroalimentación constante, garantiza que cualquier riesgo se identifique temprano en el proceso. Esto permite estrategias de mitigación oportunas, asegurando que los proyectos no solo se completen a tiempo, sino que también cumplan con los estándares de calidad esperados.

Al centrarse en estos principios, las empresas pueden desbloquear nuevas dimensiones de valor, impactando significativamente sus resultados y posicionándose como líderes en sus respectivos campos.

Sección 7: Breve Tutorial sobre la Construcción de un Proceso de Desarrollo de Modelos Utilizando Metodologías Ágiles

Navegar por las complejidades de los proyectos de ciencia de datos puede ser desalentador, especialmente cuando se trata de construir modelos de aprendizaje automático. Siga esta guía paso a paso para construir un proceso de desarrollo de modelos utilizando metodologías ágiles, similar a la integración de Jira discutida anteriormente. El objetivo es desmitificar el proceso, haciéndolo accesible para los equipos de ciencia de datos y permitiéndoles operar de manera más eficiente y efectiva.

Paso 1: Definir el alcance y los objetivos del proyecto

Antes de comenzar cualquier proyecto, responda las siguientes preguntas para establecer la base de su proyecto ágil:

  1. ¿Cuál es el problema que intenta resolver?
  2. ¿Cuáles son las métricas de éxito?

Paso 2: Dividir en ciclos iterativos o sprints

Divida el proyecto en partes más pequeñas y manejables, también conocidas como sprints. Estos pueden durar de dos a cuatro semanas, dependiendo de la complejidad del proyecto y la familiaridad del equipo con las tareas involucradas.

Paso 3: Vincular con objetivos empresariales más amplios (utilizando Epics o Task Tickets)

Asegúrese de que su proyecto de ciencia de datos, dividido en sprints, tenga vínculos claros con los objetivos empresariales más amplios. Utilice Epics o Task Tickets para mantener esta alineación, facilitando que todos los involucrados, especialmente los tomadores de decisiones, vean el panorama general.

Paso 4: Asignar roles y crear equipos multidisciplinarios

En las metodologías ágiles, los equipos multidisciplinarios compuestos por científicos de datos, ingenieros de datos y analistas de negocios son fundamentales. Asigne roles y responsabilidades desde el principio para facilitar una colaboración fluida.

Paso 5: Utilizar herramientas de gestión de proyectos ágiles

Herramientas similares a Jira pueden ser muy beneficiosas para hacer un seguimiento del progreso. Estas plataformas permiten una asignación eficiente de tareas y supervisan el avance de los sprints.

Paso 6: Fomentar la colaboración y el feedback constante

Una cultura de comunicación abierta y feedback constante es clave. Anime a los miembros del equipo a expresar sus opiniones e inquietudes, lo que permitirá que el proyecto se adapte según sea necesario.

Paso 7: Supervisar el progreso y adaptarse según sea necesario

Las herramientas de gestión de proyectos ágiles le ayudan a supervisar fácilmente el progreso de un proyecto. Aprovéchelas y si las cosas no van según lo planeado, la metodología ágil le permite adaptarse rápidamente. Realice los ajustes necesarios en el sprint actual o planifíquelos en el próximo sprint.

Paso 8: Concluir con una retrospectiva y lecciones aprendidas

Después de cada sprint, y al final del proyecto, realice una reunión retrospectiva en la que el equipo discuta qué salió bien, qué no salió bien y cómo mejorar en futuros sprints o proyectos.

Conclusión

En un mundo donde la ciencia de datos y el aprendizaje automático son cada vez más vitales para impulsar la estrategia empresarial y lograr ventajas competitivas, la gestión de costes y el aumento de la eficiencia no pueden ser subestimados. Adoptar metodologías ágiles ofrece un marco sólido para enfrentar estos desafíos de frente.

A medida que busca escalar sus capacidades de ciencia de datos, considere los importantes beneficios en costes que una metodología ágil bien implementada puede brindar a su organización.

Le animamos a profundizar en las metodologías ágiles, e incluso a realizar más lecturas o capacitaciones prácticas, mientras continúa su viaje en la ciencia de datos. Con las prácticas adecuadas, sus proyectos de ciencia de datos no solo serán un centro de costos, sino un valioso activo que contribuye a sus objetivos empresariales más amplios.

Referencias

[1] Will Oremus, Los chatbots de IA pierden dinero cada vez que los usas. Eso es un problema., The Washington Post, junio de 2023, consultado por última vez el 30 de agosto de 2023, https://www.washingtonpost.com/technology/2023/06/05/chatgpt-hidden-cost-gpu-compute/

[2] Andrej Karpathy, Estado de GPT, Microsoft BUILD, 23 de mayo de 2023, https://www.youtube.com/watch?v=bZQun8Y4L2A

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

¿De quién es la responsabilidad de hacer que la IA generativa sea correcta?

Las posibilidades ilimitadas de la tecnología que trasciende fronteras.

Inteligencia Artificial

Por qué Meta está regalando su modelo de IA extremadamente poderoso

El debate sobre la IA que divide al mundo tecnológico, explicado.

Noticias de Inteligencia Artificial

BIOTRONIK presenta implantes de monitores cardíacos con inteligencia artificial.

BIOTRONIK, un líder reconocido en tecnología de dispositivos médicos implantables, ha implementado con éxito su revol...

Investigación

El Avance Computacional Ayudará a los Investigadores a Modelar el Clima con Mayor Fidelidad.

Los investigadores han propuesto una mejora algorítmica que podría mejorar la modelización del clima al equilibrar lo...