Combatir la suplantación de identidad por la IA

Enfrentando la suplantación de identidad por la IA

Si bien los estafadores han utilizado la tecnología para crear sofisticados estafas telefónicas, las voces generadas por computadora también tienen aplicaciones positivas. ¶ Crédito: analyticsvidhya.com

A principios de este año, una nueva canción que afirmaba ser de los cantantes y compositores Drake y The Weeknd se volvió viral en las redes sociales. Sin embargo, pronto se descubrió que estos artistas no estaban involucrados en la música y que la pista era un deepfake: sus voces habían sido sintetizadas utilizando inteligencia artificial generativa (IA), algoritmos que aprenden patrones de los datos en los que se entrenan para producir una salida similar. (Puedes escuchar la canción a continuación.)

De manera similar, los estafadores han utilizado recientemente esta tecnología para crear sofisticadas estafas telefónicas que involucran la voz clonada de un miembro de la familia o amigo que solicita urgentemente dinero para ayudar en una situación de emergencia.

“Los modelos de voz sintética recientes pueden crear voces humanas realistas con solo medio minuto o un minuto de muestra de la voz de alguien”, dice Siwei Lyu, profesor de ciencias de la computación y jefe del Laboratorio de Medios Forenses de la Universidad de Buffalo, State University of New York. “Esta tecnología finalmente está captando la atención de las personas”.

Las voces generadas por computadora también tienen usos positivos. Las personas que han perdido su voz debido a enfermedades como la esclerosis lateral amiotrófica (ELA) ahora pueden recrearla con algunos ejemplos de habla pasada. También podría ayudar a los cantantes a acelerar el proceso de producción de una nueva canción, por ejemplo, permitiéndoles clonar sus voces y generar rápidamente una pista de demostración en lugar de tener que grabarla.

Sin embargo, a medida que las voces sintetizadas por IA mejoran en calidad y se vuelven más omnipresentes en nuestra vida cotidiana, deberán considerarse problemas éticos y técnicas para combatir su mal uso.

Jin Ha Lee, profesora en la Escuela de Información de la Universidad de Washington en Seattle, se interesó por investigar la ética de la tecnología de clonación de voz después de ver su uso de manera innovadora. En 2021, por ejemplo, se recreó al fallecido rockero coreano Shin Hae-shul como un holograma con una voz sintetizada para actuar junto a la banda de chicos surcoreana BTS. “Fue esta interesante colaboración entre artistas vivos y fallecidos que superó la barrera del tiempo”, dice ella.

Sin embargo, Lee se dio cuenta de problemas más profundos que deben abordarse en tales escenarios. Por ejemplo, incluso si la familia de un artista fallecido ha dado permiso para que su voz sea sintetizada y han sido compensados, ¿es realmente ético usarla sin tener el permiso de la persona real? “En el futuro, creo que debemos pensar no solo en formas de proteger a todos los artistas que están vivos en este momento, sino también a los que han fallecido”, dice Lee.

En un trabajo reciente, Lee y sus colegas investigaron cómo el público en general, y los desarrolladores e investigadores de habla sintetizada con IA, perciben las voces de canto generadas por IA. Para recopilar opiniones del público, analizaron más de 3,000 comentarios de usuarios en videos en línea de programas de televisión coreanos que presentaban casos de uso como recrear las voces de artistas vivos y muertos utilizando IA, y usar la tecnología para manipular sus voces o hacerlos cantar en otro idioma. El equipo también entrevistó a seis investigadores que estaban desarrollando tecnología de síntesis de voz sobre los problemas éticos que tienen en cuenta y qué precauciones se deben implementar, por ejemplo.

Lee y sus colegas encontraron que el público a menudo tiene una visión negativa de las voces de canto generadas por IA, y se preguntaron si realmente debería desarrollarse. Ella cree que el rechazo del público hacia la tecnología proviene de representaciones distópicas de la IA en películas y cultura popular. Por otro lado, los desarrolladores parecían ser más optimistas, en parte porque pensaban que la tecnología actual no era tan avanzada como parece y que se estaban desarrollando contramedidas al mismo tiempo. “También se centraron realmente en la idea de que va a apoyar a las personas en lugar de reemplazarlas”, dice Lee.

Otros grupos de investigación se centran más en desarrollar métodos para detectar voces deepfake. Una estrategia es buscar artefactos que se generan cuando se producen voces sintetizadas por IA. Estos se producen en su mayoría en el paso final, cuando se utiliza un tipo especializado de red neuronal llamada vocoder neuronal para reconstruir una voz a partir de una representación tiempo-frecuencia. En el pasado, los artefactos podían ser sonidos sibilantes, pero esos se han vuelto menos perceptibles a medida que los vocoders han mejorado. “Ahora es muy difícil escucharlos solo con nuestros oídos”, dice Lyu. “Por otro lado, cuando los representamos como una representación tiempo-frecuencia bidimensional, se vuelven más obvios.”

En trabajos recientes, Lyu y sus colegas utilizaron un modelo de aprendizaje profundo llamado RawNet2 para distinguir entre voces reales y voces sintéticas basadas en artefactos de vocoders neurales, y para clasificar una voz como real o no a partir de esos resultados. Para entrenar y probar su modelo, crearon un nuevo conjunto de datos utilizando más de 13,000 muestras de audio reales y generaron más de 79,000 muestras de voz falsas a partir de esas originales utilizando seis vocoders de última generación diferentes. Más de 55,000 muestras del conjunto de datos se utilizaron para fines de entrenamiento, mientras que más de 18,000 se reservaron para pruebas.

Lyu y su equipo encontraron que el modelo se desempeñó bien en términos de clasificar una voz como real o falsa. Sin embargo, se necesita un audio claro para que los artefactos no sean enmascarados por el ruido de fondo. El sistema tuvo un rendimiento inferior cuando se probó con audio falso de vocoders que no estaban representados en el conjunto de datos. Lyu también está preocupado de que los atacantes astutos puedan eliminar rastros de artefactos de vocoder procesando el audio para derrotar la técnica. “Somos plenamente conscientes de las limitaciones”, dice. “Hasta cierto punto, podemos [mejorar el rendimiento] ampliando los conjuntos de datos y diseñando arquitecturas de modelos de red para manejar artefactos más sutiles”.

Otro equipo está adoptando un enfoque diferente para la detección de deepfakes, que implica aprovechar sus características ligeramente más predecibles en comparación con las del habla natural. Hafiz Malik, profesor de ingeniería eléctrica e informática en la Universidad de Michigan en Dearborn, planteó la hipótesis de que las voces reales tienen más variabilidad en términos de rapidez al hablar, pausas o cambios de tono, por ejemplo, en comparación con sus contrapartes sintetizadas. Sin embargo, las diferencias serían sutiles y no siempre evidentes para el oído humano.

Malik y sus colegas están probando ahora la hipótesis utilizando algoritmos de aprendizaje profundo. Han estado creando un enorme conjunto de datos para fines de entrenamiento y pruebas utilizando audio de personas conocidas dando discursos, charlas y entrevistas. Utilizando herramientas disponibles comercialmente, también están sintetizando las voces de esas personas para que se puedan comparar las formas de onda bidimensionales resultantes con las originales. “Hasta ahora, [nuestra hipótesis] es bastante sólida”, dice Malik. “Cuando hacemos un análisis, las [diferencias] son distintas”.

Malik reconoce que es una situación de objetivo en movimiento, en la cual las estrategias actuales pueden no funcionar a medida que el audio clonado mejore en calidad. Sin embargo, espera que se implementen medidas más proactivas en el futuro, como incrustar algún tipo de marca de agua o monitorear la procedencia del contenido sintético. Él está comprometido en luchar contra la desinformación y espera que las herramientas que está desarrollando desempeñen un papel.

“Los deepfakes han estado fuera de control durante los últimos 10 años aproximadamente”, dice Malik. “Contribuir a permitir que las personas vean la verdad está muy cerca de mí”.

Sandrine Ceurstemont es una escritora científica independiente con sede en Londres, Reino Unido.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Aprende cómo evaluar el riesgo de los sistemas de IA

La inteligencia artificial (IA) es un campo en rápido desarrollo con el potencial de mejorar y transformar muchos asp...

Inteligencia Artificial

NVIDIA DGX Cloud ahora disponible para impulsar el entrenamiento de IA generativa

NVIDIA DGX Cloud — que ofrece herramientas que pueden convertir casi cualquier empresa en una empresa de IA — ahora e...

Inteligencia Artificial

Utilizando cámaras en los autobuses de transporte público para monitorear el tráfico

Investigadores de la Universidad Estatal de Ohio monitorearon el tráfico utilizando cámaras ya instaladas en los auto...

Inteligencia Artificial

¿Desvelando el poder de Meta's Llama 2 ¿Un salto adelante en la IA generativa?

Este artículo explora los detalles técnicos e implicaciones del recientemente lanzado Llama 2 de Meta, un modelo de l...