Investigadores de MIT CSAIL discuten las fronteras del AI generativo.

MIT CSAIL researchers discuss the boundaries of generative AI.

Expertos se reúnen para examinar el código, lenguaje e imágenes generados por la inteligencia artificial, así como sus capacidades, limitaciones y su impacto futuro.

Left to right: MIT professors Phillip Isola, Daniela Rus, Armando Solar-Lezama, and Jacob Andreas

El surgimiento de la inteligencia artificial generativa ha encendido una profunda exploración filosófica sobre la naturaleza de la conciencia, la creatividad y la autoría. A medida que somos testigos de nuevos avances en el campo, es cada vez más evidente que estos agentes sintéticos poseen una notable capacidad para crear, iterar y desafiar nuestras nociones tradicionales de inteligencia. Pero, ¿qué significa realmente que un sistema de IA sea “generativo”, con nuevos límites borrosos de expresión creativa entre humanos y máquinas?

Para aquellos que sienten que la “inteligencia artificial generativa” — un tipo de IA que puede crear nuevos y originales datos o contenido similar a lo que se le ha entrenado — surgió de la nada como una sensación nocturna, aunque de hecho las nuevas capacidades han sorprendido a muchos, la tecnología subyacente ha estado en desarrollo durante algún tiempo.

Pero comprender la verdadera capacidad puede ser tan indistinto como algunos de los contenidos generativos que estos modelos producen. Con ese fin, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT se reunieron en discusiones sobre las capacidades y limitaciones de la IA generativa, así como sus posibles impactos en la sociedad e industrias, en cuanto a lenguaje, imágenes y código.

Existen varios modelos de IA generativa, cada uno con sus propias enfoques y técnicas únicas. Estos incluyen redes generativas adversarias (GAN), autoencoders variacionales (VAE) y modelos de difusión, que han demostrado un poder excepcional en diversas industrias y campos, desde el arte hasta la música y la medicina. Con esto también ha llegado una serie de dilemas éticos y sociales, como el potencial para generar noticias falsas, deepfakes y desinformación. Los investigadores dicen que hacer estas consideraciones es crucial para continuar estudiando las capacidades y limitaciones de la IA generativa y garantizar su uso ético y responsable.

En sus palabras de apertura, para ilustrar la destreza visual de estos modelos, la profesora del MIT de ingeniería eléctrica e informática (EECS) y directora de CSAIL, Daniela Rus, sacó un regalo especial que sus estudiantes le entregaron recientemente: un collage de retratos de IA llenos de fotos sonrientes de Rus, que abarcaban un espectro de reflejos parecidos a espejos. Sin embargo, no había ningún artista comisionado a la vista.

La máquina era la responsable.

Los modelos generativos aprenden a crear imágenes descargando muchas fotos de internet e intentando hacer que la imagen de salida se parezca a los datos de entrenamiento de muestra. Hay muchas formas de entrenar un generador de redes neuronales, y los modelos de difusión son solo una forma popular. Estos modelos, explicados por el profesor asociado del MIT de EECS y el investigador principal de CSAIL, Phillip Isola, mapean desde ruido aleatorio hasta imágenes. Usando un proceso llamado difusión, el modelo convertirá objetos estructurados como imágenes en ruido aleatorio, y el proceso se invierte entrenando una red neuronal para eliminar el ruido paso a paso hasta que se obtiene la imagen sin ruido. Si alguna vez has intentado usar DALL-E 2, donde se introduce una oración y ruido aleatorio y el ruido se convierte en imágenes, has utilizado un modelo de difusión.

“Para mí, el aspecto más emocionante de los datos generativos no es su capacidad para crear imágenes fotorealistas, sino el nivel sin precedentes de control que nos brinda. Nos ofrece nuevas perillas para girar y diales para ajustar, lo que da lugar a posibilidades emocionantes. El lenguaje ha emergido como una interfaz particularmente poderosa para la generación de imágenes, lo que nos permite ingresar una descripción como ‘estilo Van Gogh’ y hacer que el modelo produzca una imagen que coincida con esa descripción”, dice Isola. “Sin embargo, el lenguaje no lo abarca todo; algunas cosas son difíciles de transmitir solo a través de palabras. Por ejemplo, podría ser difícil comunicar la ubicación precisa de una montaña en el fondo de un retrato. En tales casos, se pueden utilizar técnicas alternativas como el dibujo para proporcionar una entrada más específica al modelo y lograr la salida deseada”.

Luego, Isola usó la imagen de un pájaro para mostrar cómo diferentes factores que controlan los diversos aspectos de una imagen creada por una computadora son como “lanzamientos de dados”. Al cambiar estos factores, como el color o la forma del pájaro, la computadora puede generar muchas variaciones diferentes de la imagen.

Y si no has utilizado un generador de imágenes, es posible que hayas utilizado modelos similares para el texto. Jacob Andreas, profesor asistente del MIT de EECS e investigador principal de CSAIL, llevó a la audiencia de imágenes al mundo de las palabras generadas, reconociendo la naturaleza impresionante de los modelos que pueden escribir poesía, mantener conversaciones y hacer una generación dirigida de documentos específicos, todo en la misma hora.

¿Cómo parecen estos modelos expresar cosas que parecen deseos y creencias? Andreas explica que aprovechan el poder de la incrustación de palabras, donde se asignan valores numéricos (vectores) a las palabras con significados similares y se colocan en un espacio con muchas dimensiones diferentes. Cuando se trazan estos valores, las palabras que tienen significados similares terminan cerca unas de otras en este espacio. La proximidad de esos valores muestra qué tan relacionadas están las palabras en significado. (Por ejemplo, quizás “Romeo” está usualmente cerca de “Julieta”, y así sucesivamente). Los modelos transformadores, en particular, usan algo llamado un “mecanismo de atención” que se enfoca selectivamente en partes específicas de la secuencia de entrada, permitiendo múltiples rondas de interacciones dinámicas entre diferentes elementos. Este proceso iterativo se puede asemejar a una serie de “movimientos” o fluctuaciones entre los diferentes puntos, lo que lleva a la siguiente palabra predicha en la secuencia.

“Imagina estar en tu editor de texto y tener un botón mágico en la esquina superior derecha que puedas presionar para transformar tus frases en inglés hermosas y precisas. Hemos tenido la revisión de gramática y ortografía durante un tiempo, por supuesto, pero ahora podemos explorar muchas otras formas de incorporar estas características mágicas en nuestras aplicaciones”, dice Andreas. “Por ejemplo, podemos acortar un pasaje extenso, al igual que como reducimos una imagen en nuestro editor de imágenes, y hacer que las palabras aparezcan como deseamos. Incluso podemos empujar los límites aún más ayudando a los usuarios a encontrar fuentes y citas mientras desarrollan un argumento. Sin embargo, debemos tener en cuenta que incluso los mejores modelos hoy en día están lejos de poder hacer esto de manera confiable o confiable, y queda mucho trabajo por hacer para hacer que estas fuentes sean confiables e imparciales. No obstante, hay un espacio masivo de posibilidades donde podemos explorar y crear con esta tecnología”.

Otra hazaña de los modelos de lenguaje grandes, que a veces puede sentirse bastante “meta”, también fue explorada: modelos que escriben código, algo así como pequeñas varitas mágicas, excepto que en lugar de hechizos, conjuran líneas de código, dando vida a los sueños de algunos desarrolladores de software. El profesor de EECS del MIT e investigador principal de CSAIL, Armando Solar-Lezama, recuerda un poco de historia de 2014, explicando cómo, en ese momento, hubo un avance significativo en el uso de “memoria a corto y largo plazo (LSTM)”, una tecnología para la traducción de idiomas que se podría usar para corregir asignaciones de programación para texto predecible con una tarea bien definida. Dos años después, la necesidad humana básica favorita de todos apareció en escena: la atención, introducida por el documento de Google de 2017 que presentaba el mecanismo “Attention is All You Need”. Poco después, un ex miembro de CSAIL, Rishabh Singh, formó parte de un equipo que utilizó la atención para construir programas completos para tareas relativamente simples de manera automatizada. Poco después, surgieron los transformadores, lo que llevó a una explosión de investigación sobre el uso de la asignación de texto a texto para generar código.

“El código se puede ejecutar, probar y analizar para detectar vulnerabilidades, lo que lo hace muy poderoso. Sin embargo, el código también es muy frágil y pequeños errores pueden tener un impacto significativo en su funcionalidad o seguridad”, dice Solar-Lezema. “Otro desafío es el tamaño y la complejidad del software comercial, que puede ser difícil de manejar incluso para los modelos más grandes. Además, la diversidad de estilos de codificación y bibliotecas utilizadas por diferentes empresas significa que el nivel de precisión al trabajar con código puede ser muy alto”.

En la discusión basada en preguntas y respuestas que siguió, Rus comenzó con una pregunta sobre el contenido: ¿cómo podemos hacer que la salida de la AI generativa sea más poderosa, incorporando conocimientos y restricciones específicos del dominio en los modelos? “Los modelos para procesar datos visuales complejos como modelos 3D, videos y campos de luz, que se asemejan al holodeck en Star Trek, aún dependen en gran medida del conocimiento del dominio para funcionar de manera eficiente”, dice Isola. “Estos modelos incorporan ecuaciones de proyección y óptica en sus funciones objetivas y rutinas de optimización. Sin embargo, con la creciente disponibilidad de datos, es posible que parte del conocimiento del dominio pueda ser reemplazado por los datos en sí, que proporcionarán restricciones suficientes para el aprendizaje. Si bien no podemos predecir el futuro, es plausible que a medida que avanzamos, podamos necesitar menos datos estructurados. Aun así, por ahora, el conocimiento del dominio sigue siendo un aspecto crucial del trabajo con datos estructurados”.

El panel también discutió la naturaleza crucial de evaluar la validez del contenido generativo. Se han construido muchos puntos de referencia para mostrar que los modelos son capaces de lograr una precisión a nivel humano en ciertas pruebas o tareas que requieren habilidades lingüísticas avanzadas. Sin embargo, al examinar de cerca, simplemente parafrasear los ejemplos puede hacer que los modelos fallen por completo. Identificar los modos de falla se ha vuelto tan crucial, si no más, que entrenar a los modelos mismos.

Reconociendo el escenario de la conversación, la academia, Solar-Lezama habló sobre el progreso en el desarrollo de grandes modelos de lenguaje contra los bolsillos profundos y poderosos de la industria. Los modelos en la academia, dice, “necesitan computadoras realmente grandes” para crear tecnologías deseadas que no dependan demasiado del apoyo de la industria.

Más allá de las capacidades técnicas, las limitaciones y cómo todo está evolucionando, Rus también planteó las apuestas morales en torno a vivir en un mundo generado por IA, en relación con deepfakes, desinformación y sesgo. Isola mencionó soluciones técnicas más nuevas centradas en marcas de agua, que podrían ayudar a los usuarios a decir sutilmente si una imagen o un texto fue generado por una máquina. “Una de las cosas a tener en cuenta aquí es que este es un problema que no se resolverá puramente con soluciones técnicas. Podemos proporcionar el espacio de soluciones y también crear conciencia sobre las capacidades de estos modelos, pero es muy importante que el público en general esté al tanto de lo que estos modelos realmente pueden hacer”, dice Solar-Lezama. “Al final del día, esto debe ser una conversación más amplia. Esto no debe limitarse a los tecnólogos, porque es un problema social bastante grande que va más allá de la tecnología en sí”.

Se discutió otra inclinación en torno a los chatbots, robots y un tropo preferido en muchos escenarios de cultura pop distópica: la seducción de la antropomorfización. ¿Por qué hay una tendencia natural en muchos para proyectar cualidades humanas en entidades no humanas? Andreas explicó las escuelas de pensamiento opuestas en torno a estos grandes modelos de lenguaje y sus capacidades aparentemente sobrehumanas.

“Algunos creen que modelos como ChatGPT ya han logrado la inteligencia a nivel humano e incluso pueden ser conscientes”, dijo Andreas, “pero en realidad estos modelos aún carecen de las verdaderas capacidades humanas para comprender no solo el matiz, sino que a veces se comportan de manera extremadamente llamativa, extraña y no humana. Por otro lado, algunos argumentan que estos modelos son solo herramientas de reconocimiento de patrones superficiales que no pueden aprender el verdadero significado del lenguaje. Pero esta visión también subestima el nivel de comprensión que pueden adquirir del texto. Si bien debemos ser cautelosos al exagerar sus capacidades, tampoco debemos pasar por alto los posibles daños de subestimar su impacto. Al final, debemos abordar estos modelos con humildad y reconocer que todavía hay mucho que aprender sobre lo que pueden y no pueden hacer”.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Algorithmsartificial intelligenceComputer Science and Artificial Intelligence Laboratory (CSAIL)Computer science and technologyEducation, teaching, academicsElectrical Engineering & Computer Science (eecs)Ethicshuman-computer interactionLanguageMachine LearningMIT Schwarzman College of ComputingSchool of EngineeringSpecial events and guest speakersTechnology and society

Was this article helpful?

93 out of 132 found this helpful

Investigadores de MIT CSAIL discuten las fronteras del AI generativo.

Was this article helpful?

El sistema de IA puede generar proteínas novedosas que cumplan con los objetivos de diseño estructural.

Comprendiendo nuestro lugar en el universo

Investigación

China tiene un nuevo plan para juzgar la seguridad de la IA generativa, ¡y está repleto de detalles!

Descubre Davidsonian Scene Graph un marco de IA revolucionario para evaluar la IA de texto a imagen con precisión

Análisis en profundidad de la confiabilidad en los modelos GPT

Incorpore SageMaker Autopilot en sus procesos de MLOps usando un Proyecto personalizado de SageMaker.

MusicGen Reimaginado Los avances desconocidos de Meta en la música AI

El poder de los codificadores y decodificadores avanzados en la IA generativa