Meta presenta Emu Video y Emu Edit Avances pioneros en la generación de videos a partir de texto y en la edición precisa de imágenes.

Meta presenta Emu Video y Emu Edit Avances revolucionarios en la creación de videos a partir de texto y en la edición precisa de imágenes.

“`html

En el campo en constante evolución de la IA generativa, persisten desafíos para lograr modelos eficientes y de alta calidad de generación de video y la necesidad de herramientas precisas y versátiles para la edición de imágenes. Los métodos tradicionales a menudo involucran cascadas complejas de modelos o necesitan ayuda con sobre-modificación, lo que limita su eficacia. Los investigadores de Meta AI abordan estos desafíos de frente al presentar dos avances innovadores: Emu Video y Emu Edit.

Los métodos actuales de generación de texto a video a menudo requieren cascadas profundas de modelos, lo que demanda importantes recursos computacionales. Emu Video, una extensión del modelo Emu fundamental, introduce un enfoque factorizado para agilizar el proceso. Implica generar imágenes condicionadas por una indicación de texto, seguida de la generación de video basada en el texto y la imagen generada. La simplicidad de este método, que solo requiere dos modelos de difusión, establece un nuevo estándar para la generación de video de alta calidad, superando a trabajos anteriores.

Mientras tanto, las herramientas tradicionales de edición de imágenes deben mejorar para brindar a los usuarios un control preciso.

Emu Edit es un modelo de edición de imágenes multitarea que redefine la manipulación de imágenes basada en instrucciones. Aprovechando el aprendizaje de tareas múltiples, Emu Edit maneja diversas tareas de edición de imágenes, incluyendo edición basada en regiones y de forma libre, junto con tareas cruciales de visión por computadora como la detección y la segmentación.

El enfoque factorizado de Emu Video agiliza el entrenamiento y produce resultados impresionantes. La generación de videos de cuatro segundos de 512×512 píxeles a 16 fotogramas por segundo con solo dos modelos de difusión representa un avance significativo. Las evaluaciones humanas favorecen consistentemente a Emu Video sobre trabajos anteriores, destacando su excelencia tanto en calidad de video como en fidelidad a la indicación de texto. Además, la versatilidad del modelo se extiende a la animación de imágenes proporcionadas por el usuario, estableciendo nuevos estándares en este ámbito.

La arquitectura de Emu Edit está diseñada para el aprendizaje de tareas múltiples, demostrando adaptabilidad en varias tareas de edición de imágenes. La incorporación de incrustaciones de tareas aprendidas garantiza un control preciso en la ejecución de instrucciones de edición. Experimentos de adaptación con pocas muestras revelan la rápida adaptabilidad de Emu Edit a nuevas tareas, lo que lo hace ventajoso en escenarios con ejemplos etiquetados limitados o recursos computacionales. El conjunto de datos de referencia lanzado con Emu Edit permite evaluaciones rigurosas, posicionándolo como un modelo destacado en fidelidad a las instrucciones y calidad de imagen.

“`

En conclusión, Emu Video y Emu Edit representan un salto transformador en la inteligencia artificial generativa. Estas innovaciones abordan desafíos en la generación de texto a video y la edición de imágenes basada en instrucciones, ofreciendo procesos simplificados, calidad superior y una adaptabilidad sin precedentes. Las posibles aplicaciones, desde la creación de videos cautivadores hasta la realización de manipulaciones precisas de imágenes, subrayan el profundo impacto que estos avances podrían tener en la expresión creativa. Ya sea animando imágenes proporcionadas por el usuario o ejecutando ediciones de imágenes complicadas, Emu Video y Emu Edit abren emocionantes posibilidades para que los usuarios se expresen con un control y creatividad recién descubiertos.

Documento EMU Video: https://emu-video.metademolab.com/assets/emu_video.pdf

Documento EMU Edit: https://emu-edit.metademolab.com/assets/emu_edit.pdf

La publicación Meta Unveils Emu Video y Emu Edit: Pioneros Avances en la Generación de Texto a Video y Edición Precisa de Imágenes apareció primero en MarkTechPost.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

Meta presenta Emu Video y Emu Edit Avances pioneros en la generación de videos a partir de texto y en la edición precisa de imágenes.

Was this article helpful?

Investigadores de la Universidad de Chosun presentan un marco de aprendizaje automático para la localización precisa de corales blanqueados utilizando la clasificación de características visuales híbridas en bolsas.

Desarrollando tu primera red neuronal en PyTorch

Inteligencia Artificial

Cómo este investigador ganador de la Turing Award se convirtió en un legendario asesor académico

Desde el Internet de las Cosas hasta el Internet de Todo La Convergencia de la IA y el 6G para una Inteligencia Conectada

Conoce GlotLID Un modelo de Identificación de Lenguaje (LID) de código abierto que admite 1665 idiomas.

Conoce FourCastNet un modelo global de pronóstico del tiempo impulsado por datos que revoluciona las predicciones meteorológicas con un enfoque de aprendizaje profundo rápido y preciso

Perro robot establece récord mundial de velocidad

¡Buenas noticias! China y los Estados Unidos están hablando sobre los peligros de la inteligencia artificial (IA).