IA generativa y el futuro de la ingeniería de datos

Generative AI and the future of data engineering

Tal vez hayas notado que el mundo ha dejado de lado internet, móviles, redes sociales, la nube e incluso la criptografía a favor de una obsesión por la IA generativa.

Pero ¿hay más en la IA generativa que una demostración sofisticada en Twitter? ¿Y cómo afectará a los datos?

Vamos a evaluarlo.

Cómo la IA generativa afectará a los datos

Con el advenimiento de la IA generativa, los modelos de lenguaje grandes se volvieron mucho más útiles para la gran mayoría de los humanos.

¿Necesitas un dibujo de un dinosaurio montando en monociclo para la fiesta de cumpleaños de tu hijo de tres años? Hecho. ¿Y qué tal un borrador de un correo electrónico para los empleados sobre la nueva política de trabajo desde casa de tu empresa? Tan fácil como el pastel.

Es inevitable que la IA generativa también afecte a los datos. Después de hablar con cientos de líderes de datos en empresas que van desde Fortune 500 hasta startups, llegamos a algunas predicciones:

El acceso a los datos será mucho más fácil y más generalizado

Las interfaces tipo chat permitirán a los usuarios hacer preguntas sobre los datos en lenguaje natural. Las personas que no sean expertas en SQL e inteligencia empresarial ya no necesitarán pedirle a un analista o ingeniero de análisis que les cree un panel de control. Al mismo tiempo, aquellos que sean expertos podrán responder sus propias preguntas y construir productos de datos más rápidamente y de manera más eficiente.

Esto no desplazará a SQL e inteligencia empresarial (o a profesionales de datos), pero reducirá la barrera de acceso a los datos y los abrirá a más partes interesadas en más casos de uso. Como resultado, los datos se volverán más generalizados y más útiles para las organizaciones, con la oportunidad de generar un mayor impacto.

Al mismo tiempo, los ingenieros de datos serán más productivos

A largo plazo, los bots pueden comernos (solo bromeo, en su mayoría), pero en el futuro previsible, la IA generativa no podrá reemplazar a los ingenieros de datos; solo les facilitará la vida, y eso es genial. Mira lo que hace GitHub Copilot si necesitas más pruebas.

Si bien la IA generativa aliviará a los profesionales de datos de parte de su trabajo más ad hoc, también les dará a las personas de datos herramientas asistidas por IA para construir, mantener y optimizar de manera más fácil los flujos de datos. Los modelos de IA generativa ya son excelentes para crear código SQL/Python, depurarlo y optimizarlo, y solo mejorarán.

Estas mejoras pueden estar integradas en los elementos básicos actuales de tu conjunto de datos o ser soluciones completamente nuevas desarrolladas por una startup en etapa inicial que se lanzará pronto. De cualquier manera, el resultado será más flujos de datos y más productos de datos que serán consumidos por los usuarios finales.

Aún así, como cualquier cambio, estos avances no estarán exentos de obstáculos. Un mayor acceso a los datos y una mayor productividad aumentan tanto la importancia crítica de los datos como su complejidad, lo que dificulta su gobernanza y confiabilidad.

No predigo que los bots con forma de paneles de control de Looker e informes de Tableau se descontrolen. Sin embargo, veo un mundo en el que los flujos de datos se conviertan en monstruos figurativos de Frankenstein, y los usuarios comerciales confíen en datos sin tener mucha idea de dónde provienen los datos o qué usar. La gobernanza y confiabilidad de los datos serán mucho más importantes en este nuevo mundo.

Los equipos de ingeniería de software han estado practicando DevOps y automatizando sus herramientas para mejorar los flujos de trabajo de los desarrolladores, aumentar la productividad y construir productos más útiles, todo mientras se aseguran de la confiabilidad de sistemas complejos.

De manera similar, tendremos que intensificar nuestro juego en el ámbito de los datos y ser más disciplinados operacionalmente que nunca. La observabilidad de datos jugará un papel similar para los equipos de datos a la hora de gestionar la confiabilidad de los datos, y los productos de datos, a gran escala, y se volverá más crítica y poderosa.

Construcción, ajuste y aprovechamiento de LLMs

El mes pasado, Datadog anunció que se está integrando con ChatGPT para gestionar mejor el rendimiento y la confiabilidad de las APIs de OpenAI mediante el seguimiento de los patrones de uso, costos y rendimiento.

Monitorear la API de OpenAI es enorme, pero ¿qué sucede cuando los equipos de datos comienzan a utilizar LLMs como parte de sus flujos de procesamiento de datos? ¿Qué sucede cuando los equipos utilizan sus propios conjuntos de datos para ajustar finamente LLMs o incluso crearlos desde cero? No hace falta decir que los flujos de datos rotos y los datos defectuosos afectarán gravemente la calidad y confiabilidad del producto final.

En la llamada de ganancias del primer trimestre de 2023 de Snowflake, Frank Slootman, CEO de Snowflake, argumentó que “la IA generativa está impulsada por datos. Así es como los modelos se entrenan y se vuelven progresivamente más interesantes y relevantes… No se puede simplemente dejar sueltos estos [LLMs] en datos que las personas no entienden en términos de su calidad, definición y linaje”.

Ya hemos visto las implicaciones de un entrenamiento de modelos poco confiables antes de la aparición de los LLM. Justo el año pasado, Equifax, el gigante global del crédito, compartió que un modelo de aprendizaje automático entrenado con datos incorrectos les causó enviar puntajes de crédito incorrectos a los prestamistas de millones de consumidores. Y poco antes de eso, Unity Technologies informó una pérdida de ingresos de $110 millones debido a datos de anuncios incorrectos que alimentaban sus algoritmos de segmentación.

Según Slootman (y probablemente también los ejecutivos de Equifax y Unity en la actualidad), simplemente tener IA no es suficiente para tener éxito con ella, también es necesario gestionar su confiabilidad. No solo eso, sino que los equipos necesitan un enfoque automatizado, escalable, integral y de extremo a extremo para gestionar la detección, resolución y, en última instancia, la prevención de modelos incorrectos impulsados por datos erróneos.

La observabilidad de datos desempeñará un papel clave en llevar los LLM a la producción y hacerlos lo suficientemente confiables como para que las empresas y las personas los adopten en casos de uso en producción.

La observabilidad de datos brinda a los equipos información crítica sobre la salud de sus datos en cada etapa del proceso, monitoreando automáticamente los datos y avisándote cuando los sistemas fallan. La observabilidad de datos también muestra un contexto detallado con linaje a nivel de campo, registros, correlaciones y otros conocimientos que permiten la solución rápida de problemas, la resolución de incidentes y la comunicación efectiva con las partes interesadas afectadas por problemas de confiabilidad de datos, lo cual es crucial tanto para análisis confiables como para productos de IA.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AIData (computing)data processingEngineeringPipeline (software)Software Engineering

Was this article helpful?

93 out of 132 found this helpful

IA generativa y el futuro de la ingeniería de datos

Cómo la IA generativa afectará a los datos

El acceso a los datos será mucho más fácil y más generalizado

Al mismo tiempo, los ingenieros de datos serán más productivos

Construcción, ajuste y aprovechamiento de LLMs

Was this article helpful?

La IA también debería aprender a olvidar

Aliasing Tu serie de tiempo te está mintiendo

Inteligencia Artificial

Los modelos de IA son poderosos, pero ¿son biológicamente plausibles?

Estas nuevas herramientas podrían ayudar a proteger nuestras imágenes de la IA

AR y AI El papel de la IA en la Realidad Aumentada

NYU y NVIDIA colaboran en un gran modelo de lenguaje para predecir la readmisión de pacientes.

¿Qué es la Hiperpersonalización de IA? Ventajas, Estudios de Caso y Preocupaciones Éticas

Conoce a Auto-GPT una aplicación experimental de código abierto que muestra el poder de los LLMs como GPT-4 para desarrollar y gestionar autónomamente diferentes tipos de tareas.