Bailey Kacsmar, estudiante de doctorado en la Universidad de Waterloo – Serie de entrevistas

Bailey Kacsmar, estudiante de doctorado en la Universidad de Waterloo - Entrevista.

Bailey Kacsmar es una candidata a doctorado en la Escuela de Ciencias de la Computación de la Universidad de Waterloo y una futura miembro de la facultad en la Universidad de Alberta. Sus intereses de investigación se centran en el desarrollo de tecnologías de privacidad conscientes del usuario, a través del estudio paralelo de enfoques técnicos para el cálculo privado junto con las percepciones, preocupaciones y comprensión correspondientes de los usuarios de estas tecnologías. Su trabajo tiene como objetivo identificar el potencial y las limitaciones de la privacidad en las aplicaciones de aprendizaje automático.

Tus intereses de investigación se centran en el desarrollo de tecnologías de privacidad conscientes del usuario, ¿por qué es tan importante la privacidad en la inteligencia artificial?

La privacidad en la inteligencia artificial es muy importante, en gran parte porque la IA en nuestro mundo no existe sin datos. Los datos, aunque son una abstracción útil, en última instancia describen a las personas y sus comportamientos. Rara vez estamos trabajando con datos sobre poblaciones de árboles y niveles de agua; por lo tanto, cada vez que trabajamos con algo que puede afectar a personas reales, debemos ser conscientes de eso y comprender cómo nuestro sistema puede hacer el bien o causar daño. Esto es especialmente cierto para la IA, donde muchos sistemas se benefician de grandes cantidades de datos o esperan utilizar datos altamente sensibles (como datos de salud) para intentar desarrollar nuevas comprensiones de nuestro mundo.

¿Cuáles son algunas formas en las que has visto que el aprendizaje automático ha traicionado la privacidad de los usuarios?

“Traicionado” es una palabra fuerte. Sin embargo, cada vez que un sistema utiliza información sobre las personas sin su consentimiento, sin informarles y sin considerar los posibles daños, corre el riesgo de traicionar las normas de privacidad individuales o sociales. Básicamente, esto resulta en una traición a través de miles de pequeños daños. Tales prácticas pueden ser entrenar un modelo en los buzones de correo electrónico de los usuarios, entrenar en los mensajes de texto de los usuarios o en datos de salud, todo sin informar a los sujetos de los datos.

¿Podrías definir qué es la privacidad diferencial y cuáles son tus opiniones al respecto?

La privacidad diferencial es una definición o técnica que ha ganado prominencia en términos de uso para lograr la privacidad técnica. Las definiciones técnicas de privacidad, en términos generales, incluyen dos aspectos clave: qué se está protegiendo y de quién. Dentro de la privacidad técnica, las garantías de privacidad son protecciones que se logran dado que se cumplen una serie de suposiciones. Estas suposiciones pueden ser sobre los posibles adversarios, las complejidades del sistema o las estadísticas. Es una técnica increíblemente útil que tiene una amplia gama de aplicaciones. Sin embargo, es importante tener en cuenta que la privacidad diferencial no es equivalente a la privacidad.

La privacidad no se limita a una definición o concepto, y es importante ser consciente de otras nociones. Por ejemplo, la integridad contextual es una noción conceptual de privacidad que tiene en cuenta cosas como cómo diferentes aplicaciones u organizaciones cambian las percepciones de privacidad de un individuo con respecto a una situación. También existen nociones legales de privacidad, como las englobadas por la PIPEDA de Canadá, el GDPR de Europa y la ley de protección al consumidor de California (CCPA). Todo esto es para decir que no podemos tratar los sistemas técnicos como si existieran en un vacío libre de otros factores de privacidad, incluso si se utiliza la privacidad diferencial.

Otro tipo de aprendizaje automático que mejora la privacidad es el aprendizaje federado, ¿cómo definirías esto y cuáles son tus opiniones al respecto?

El aprendizaje federado es una forma de realizar aprendizaje automático cuando el modelo debe entrenarse en una colección de conjuntos de datos distribuidos entre varios propietarios o ubicaciones. No es intrínsecamente un tipo de aprendizaje automático que mejora la privacidad. Un tipo de aprendizaje automático que mejora la privacidad debe definir formalmente qué se está protegiendo, quién está siendo protegido y las condiciones que deben cumplirse para que estas protecciones sean efectivas. Por ejemplo, cuando pensamos en una simple computación con privacidad diferencial, se garantiza que alguien que vea el resultado no podrá determinar si se contribuyó o no cierto punto de datos.

Además, la privacidad diferencial no cumple esta garantía si, por ejemplo, hay correlación entre los puntos de datos. El aprendizaje federado no tiene esta característica; simplemente entrena un modelo en una colección de datos sin requerir que los poseedores de esos datos proporcionen directamente sus conjuntos de datos entre sí o a un tercero. Aunque eso suena como una característica de privacidad, lo que se necesita es una garantía formal de que nadie puede aprender la información protegida dados los intermediarios y las salidas que las partes no confiables observarán. Esta formalidad es especialmente importante en el entorno federado, donde las partes no confiables incluyen a todos los que proporcionan datos para entrenar el modelo colectivo.

¿Cuáles son algunas de las limitaciones actuales de estos enfoques?

Las limitaciones actuales podrían describirse mejor como la naturaleza del equilibrio entre privacidad y utilidad. Incluso si haces todo lo demás, comunicas las implicaciones de privacidad a quienes se ven afectados, evalúas el sistema en función de lo que estás tratando de hacer, etc., aún se reduce a que lograr una privacidad perfecta significa que no creamos el sistema y lograr una utilidad perfecta generalmente no tiene protecciones de privacidad. Entonces, la pregunta es cómo determinamos cuál es el equilibrio “ideal”. ¿Cómo encontramos el punto de inflexión adecuado y avanzamos hacia él de manera que aún logremos la funcionalidad deseada al tiempo que proporcionamos las protecciones de privacidad necesarias?

Actualmente su objetivo es desarrollar tecnología de privacidad consciente del usuario a través del estudio paralelo de soluciones técnicas para la computación privada. ¿Podría entrar en detalles sobre cuáles son algunas de estas soluciones?

Lo que quiero decir con estas soluciones es que podemos, en términos generales, desarrollar cualquier número de sistemas técnicos de privacidad. Sin embargo, al hacerlo, es importante determinar si las garantías de privacidad están llegando a quienes se ven afectados. Esto puede significar desarrollar un sistema después de descubrir qué tipos de protecciones valora la población. Esto puede significar actualizar un sistema después de descubrir cómo las personas realmente utilizan un sistema dadas sus consideraciones de amenazas y riesgos en la vida real. Una solución técnica podría ser un sistema correcto que cumple con la definición que mencioné anteriormente. Una solución consciente del usuario diseñaría su sistema en base a aportes de los usuarios y otros afectados en el dominio de aplicación previsto.

Actualmente está buscando estudiantes de posgrado interesados para comenzar en septiembre de 2024, ¿por qué cree que los estudiantes deberían estar interesados en la privacidad de la IA?

Creo que los estudiantes deberían estar interesados porque es algo que solo crecerá en su omnipresencia dentro de nuestra sociedad. Para tener alguna idea de qué tan rápido se desarrollan estos sistemas, no hay que buscar más allá de la reciente amplificación de Chat-GPT a través de artículos de noticias, redes sociales y debates sobre sus implicaciones. Vivimos en una sociedad donde la recopilación y el uso de datos están tan integrados en nuestra vida cotidiana que casi constantemente proporcionamos información sobre nosotros mismos a varias empresas y organizaciones. Estas empresas quieren utilizar los datos, en algunos casos para mejorar sus servicios, en otros con fines de lucro. En este punto, parece poco realista pensar que estas prácticas corporativas de uso de datos cambiarán. Sin embargo, la existencia de sistemas de preservación de la privacidad que protejan a los usuarios al tiempo que permitan ciertos análisis deseados por las empresas puede ayudar a equilibrar la compensación entre riesgos y recompensas que se ha convertido en una parte implícita de nuestra sociedad.

Gracias por la excelente entrevista, los lectores interesados en obtener más información deben visitar la página de Github de Bailey Kacsmar.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

NVIDIA impulsa el entrenamiento para algunos de los modelos más grandes de la Fundación Amazon Titan.

Todo sobre los grandes modelos de lenguaje es grande: los modelos gigantes se entrenan en conjuntos de datos masivos ...

Inteligencia Artificial

El catálogo de modelos de inteligencia artificial de Azure de Microsoft se expande con modelos innovadores de inteligencia artificial

Microsoft ha lanzado una amplia expansión de su Catálogo de Modelos de IA de Azure, incorporando una variedad de mode...

Ciencias de la Computación

Matthew Kearney Trayendo la inteligencia artificial y la filosofía al diálogo.

La doble especialización en informática y filosofía tiene como objetivo avanzar en el campo de la ética de la intelig...

Inteligencia Artificial

AI Surge El CEO de Stability AI predice pérdidas de empleo para los desarrolladores indios en un plazo de 2 años

A medida que la revolución de la IA se desarrolla, el mundo presencia tanto los posibles beneficios como las preocupa...

Inteligencia Artificial

¿Pueden los LLM reemplazar a los analistas de datos? Construyendo un analista potenciado por LLM

Creo que cada uno de nosotros se ha preguntado al menos una vez durante el año pasado si (o más bien cuándo) ChatGPT ...