¿Cuántos datos necesitamos? Equilibrando el aprendizaje automático con consideraciones de seguridad

¿Cuánta información necesitamos? Equilibrando el machine learning con consideraciones de seguridad

Para un científico de datos, no hay algo como demasiados datos. Pero cuando echamos una mirada más amplia al contexto organizacional, tenemos que equilibrar nuestros objetivos con otras consideraciones.

Foto de Trnava University en Unsplash

Ciencia de datos vs Seguridad/TI: Una batalla de época

Adquirir y mantener datos es el enfoque de una gran cantidad de nuestra energía mental como científicos de datos. Si le preguntas a un científico de datos “¿Podemos resolver este problema?”, la primera pregunta que la mayoría de nosotros hacemos es “¿Tienes datos?”, seguida de “¿Cuántos datos tienes?” Queremos recopilar datos porque es el requisito previo para la mayoría de los tipos de trabajo que queremos hacer, con el fin de producir modelos valiosos y resultados beneficiosos. Nos encanta investigar en esos datos, aprender qué hay realmente y qué significa, descubrir cómo se generó o recopiló, y obtener conclusiones generalizables.

Analizar seriamente la privacidad de los datos pone nuestros hábitos y elecciones en un contexto diferente. Los instintos y deseos de los científicos de datos a menudo entran en conflicto con las necesidades de privacidad y seguridad de los datos. Cualquiera que haya luchado por obtener acceso a una base de datos o almacén de datos para construir un modelo puede entenderlo. Puede sentirse como si se estuvieran levantando barreras excesivamente cautelosas en el camino de hacer nuestro trabajo. Después de todo, ¿no es la razón por la que tenemos los datos para aprender de ellos y modelarlos? Incluso los mejores de nosotros a veces demonizamos las partes de nuestra organización cuyos objetivos principales están en el área de privacidad y seguridad y entran en conflicto con nuestro deseo de bucear en el lago de datos.

En realidad, los científicos de datos no siempre son los héroes y los equipos de TI y seguridad no son los villanos. Ambos trabajamos en metas importantes y ambos podemos tener una visión algo limitada en esa búsqueda. Ayuda a entender la tensión y los intereses contrapuestos al observar las perspectivas de ambos roles.

La perspectiva de la Ciencia de Datos

Desde el punto de vista de la ciencia de datos, a menudo es necesario tener grandes volúmenes de datos para cumplir con los objetivos de nuestro trabajo. Para construir un modelo generalizable, necesitas tener muchos, muchos ejemplos de los tipos de datos a los que tu modelo deberá responder en producción. Cientos de miles o millones de casos no son una cantidad exagerada para buscar, de ninguna manera. Sin embargo, para que esto funcione realmente, los científicos de datos deben pasar mucho tiempo y energía interrogando esos datos. Tener muchos datos es genial, pero si no sabes lo que realmente representan y su procedencia, la batalla para hacer una ciencia de datos efectiva será muy difícil.

La perspectiva de la Seguridad

Si tomamos la perspectiva orientada a la seguridad, por otro lado, tenemos que admitir que a mayor cantidad de datos que tengamos, especialmente si hay múltiples sistemas de almacenamiento o procesos influyendo en los datos, mayor es el riesgo de una violación de datos. Esencialmente, cuanto más datos tenemos, mayor es la posibilidad de que parte de ellos se pierda o sea accedida por alguien de manera inapropiada. Además, cuantas más personas tengan acceso a los datos, más oportunidades existen de violaciones o pérdida de datos, porque los seres humanos son el mayor vector de riesgo en el ámbito tecnológico. Somos el eslabón débil de la cadena.

¿Qué significa todo esto? Yo argumentaría que nos lleva a necesitar un punto medio. Por un lado, cuanto más datos tenemos a la mano, menor es la probabilidad de que realmente hayamos hecho el trabajo de entenderlos a fondo, o que incluso podamos hacerlo con el tiempo y las herramientas disponibles. Si simplemente acumulamos todo sin distinción, nos colocamos en una posición en la que ni siquiera podemos comprender todos los datos y, al mismo tiempo, estamos en un máximo riesgo de violación. Si no almacenamos nada, o no lo suficiente, resulta imposible acceder al increíble valor que la ciencia de datos tiene para ofrecer.

Entonces, tenemos que encontrar dónde se encuentra este punto medio. Existen las mejores prácticas en ingeniería de datos y retención de datos, pero también tenemos que tomar muchas decisiones en el momento. Es importante tener principios sobre cómo pensamos acerca de la retención y el uso de datos para ayudarnos a orientarnos en estas situaciones.

Consideraciones institucionales

Mientras estoy en este tema de gestión de datos, debo mencionar, ¡recientemente comencé un nuevo rol! Soy el primer ingeniero senior de aprendizaje automático en DataGrail, una empresa que ofrece una suite de servicios B2B que ayuda a las empresas a asegurar y gestionar sus datos de clientes. Esto naturalmente ha puesto las preguntas sobre almacenamiento de datos y privacidad en mi mente, y me ha hecho pensar en las experiencias que he tenido a lo largo de mi carrera en empresas de diferentes niveles de madurez y cómo han gestionado los datos.

Es tan fácil para una empresa convertirse en un acumulador de datos. Comienzas con una escasez de datos, y te encuentras volando a ciegas, recopilando datos sobre transacciones, actividades empresariales, etc., a medida que avanzas para ayudar en la toma de decisiones y la estrategia. Es posible que aún no estés haciendo aprendizaje automático, pero puedes ver el potencial futuro, y quieres preparar el terreno. Parece no solo razonable sino vital recopilar tus datos y almacenarlos. Entonces, configuras los sistemas de datos y comienzas a llenar esas tablas o temas.

Esto no es sostenible, sin embargo, al menos no para siempre. Después de unos años, puedes terminar con enormes volúmenes de datos. Tal vez necesites escalar a un proveedor de almacenamiento en la nube como Snowflake o AWS para mantener el ritmo y tener acceso a todos estos datos a la velocidad que necesitas. ¡Estás utilizando los datos, por supuesto! Tal vez hayas iniciado un programa de aprendizaje automático, o incluso solo análisis y inteligencia de negocios avanzados, pero esto está haciendo una gran diferencia en la efectividad de tu negocio si se hace bien. Pero aún así, deberás comenzar a pensar en el costo de la infraestructura, sin mencionar la contratación probablemente de personal de ingeniería de datos para ayudar a gestionar esa bestia.

Desafortunadamente, también has comenzado a adquirir datos sobre los que ya no tienes un buen control. La documentación puede estar desactualizada, si es que alguna vez existió, y el personal que ayudó a desarrollar los sistemas originales hace años puede estar abandonando la empresa. ¿Qué significa esta tabla? ¿Cuál es la procedencia de esa columna? Los datos que no son interpretables generan poco o ningún valor, porque no se puede aprender eficazmente de datos que no se comprenden.

En este punto, tienes decisiones que tomar. ¿Cómo vas a planificar estratégicamente el futuro de tus sistemas de datos? Probablemente necesites ocuparte de la arquitectura de datos para tratar de evitar que los costos se disparen, pero ¿qué hay de la retención de datos? ¿Conservas todos los datos para siempre? Si no, ¿qué cortas y cuándo? Recuerda, sin embargo, que retener un volumen bastante grande de datos es un requisito no negociable si tu negocio tendrá funciones de aprendizaje automático y/o análisis que respalden la toma de decisiones y los productos. La opción de “tirarlo todo y evitar cualquier tontería de esto” no es válida.

Al mismo tiempo, debes pensar en los marcos regulatorios y legales que se aplican a tener todos estos datos. ¿Qué vas a hacer si un cliente te pide que borres todos los datos que tienes sobre él, como permiten algunas jurisdicciones? Muchas organizaciones no se toman esto en serio hasta que ya es demasiado tarde. Si quieres estar al tanto de esto, y no comenzaste desde el día 1, tienes la difícil tarea de adaptar tu arquitectura de datos para cumplir con los requisitos regulatorios a los que está sujeto estos datos.

Un aparte sobre la regulación

El crecimiento en las regulaciones de seguridad de datos en los últimos años ha aumentado los desafíos de la situación que describo para las empresas. En cierto sentido, fue algo de nuestra propia creación: numerosas violaciones de datos, seguridad laxa y políticas de consentimiento opacas de diversas empresas en los últimos años han llevado a una demanda pública de mejores prácticas y el gobierno llenó ese vacío. Parece que la confianza en la marca y la seguridad no fueron suficientes motivaciones por sí solas para que muchas empresas refuercen la protección de datos. Si las leyes eran necesarias para garantizar que nuestros datos personales y registros sensibles se protegieran de manera consciente, entonces yo, al menos, estoy completamente a favor.

Sin embargo, en mi papel de científico de datos, debo reconocer la tensión con la que comencé este artículo. Quiero todos los datos, y quiero poder buscar en ellos sin restricciones, porque así es como hago mi trabajo de manera efectiva. Pero también soy un cliente y un ciudadano, y quiero que MIS datos se protejan cuidadosamente. Sé que la promesa y el poder del aprendizaje automático dependen de que los datos estén disponibles para su uso, pero naturalmente se siente un poco menos claro cuando consideras que son datos sobre ti y tus hábitos los que alimentan el progreso. Encarnar este papel es un poco más fácil para mí que el de la “seguridad” en sí misma, porque no soy un profesional capacitado en seguridad de datos, pero no necesito serlo para tener una fuerte idea de cuáles serían mis preferencias como consumidor.

Mi consejo es que mantengamos tanto nuestros sombreros de consumidor/seguridad como nuestros sombreros de científico de datos cerca. Tenemos que mantener un equilibrio entre acumular datos para el aprendizaje automático y limitar nuestra retención de datos para la privacidad del cliente y la seguridad de los datos. No hay una respuesta definitiva a la pregunta “¿cuánto deberíamos mantener?”, por lo que la única opción es equilibrar ambos intereses en cada decisión que tomemos sobre el almacenamiento de datos.

Tomaré un breve descanso de mi columna durante las vacaciones y regresaré a mediados de enero con mi próximo artículo.

Visita más de mi trabajo en www.stephaniekirmer.com.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Las Nuevas Implicaciones Éticas de la Inteligencia Artificial Generativa

El rápido progreso del IA generativa hace necesario implementar urgentemente salvaguardias éticas contra los riesgos ...

Inteligencia Artificial

Agentes Orientados a Documentos Un Viaje con Bases de Datos Vectoriales, LLMs, Langchain, FastAPI y Docker

Aprovechando ChromaDB, Langchain y ChatGPT Respuestas mejoradas y fuentes citadas de grandes bases de datos de docume...

Aprendizaje Automático

Contextual AI presenta LENS un marco de inteligencia artificial para modelos de lenguaje con visión aumentada que supera a Flamingo en un 9% (56->65%) en VQAv2.

Los Modelos de Lenguaje Grandes (LLMs) han transformado la comprensión del lenguaje natural en los últimos años, demo...

Inteligencia Artificial

Conoce a Vchitect un sistema de creación de video de gran escala y generalista de código abierto para aplicaciones de texto a video (T2V) e imagen a video (I2V).

El aumento exponencial en la popularidad de la Inteligencia Artificial (IA) en los últimos tiempos ha llevado a grand...