Learn more about Computer Vision – Section 2

Investigadores de la Universidad de Pekín y Microsoft presentan COLE un marco de generación jerárquica eficaz que puede convertir una simple indicación de intención en un diseño gráfico de alta calidad.

La producción de imágenes naturales ahora está al nivel de la fotografía profesional, gracias a una notable mejora re...

Este documento de investigación de IA de la Universidad Northeastern y el MIT desarrolla controles deslizantes de conceptos interpretativos para un mayor control en la generación de imágenes en modelos de difusión.

El control más preciso sobre las características visuales y las nociones representadas en una imagen producida es típ...

¿Podemos mapear escenas a gran escala en tiempo real sin aceleración de GPU? Este artículo de IA presenta ‘ImMesh’ para la localización y mapeo avanzado basado en LiDAR.

Proporcionando un entorno virtual que coincide con el mundo real, el reciente aumento generalizado de aplicaciones en...

Investigadores de Google y UIUC proponen ZipLoRA un novedoso método de inteligencia artificial para fusionar de manera fluida LoRAs de estilo y de tema entrenadas de forma independiente’.

Investigadores de Google Research y UIUC proponen ZipLoRA, que aborda el problema de control limitado sobre creacione...

DESCUBRA ‘DRESS’ Un modelo de lenguaje de visión amplia (LVLM, por sus siglas en inglés) que se alinea e interactúa con los humanos a través de comentarios en lenguaje natural

Los grandes modelos de lenguaje y visión, o LVLMs, pueden interpretar señales visuales y proporcionar respuestas fáci...

Investigadores de la Universidad Nacional de Seúl presentan LucidDreamer un enfoque revolucionario de IA para la generación de escenas en 3D sin restricciones de dominio en realidad virtual utilizando modelado basado en difusión.

El desarrollo de plataformas comerciales de realidad mixta y el rápido avance de la tecnología de gráficos 3D han con...

Esta investigación de IA presenta MeshGPT Un enfoque novedoso para la generación de formas que produce mallas directamente en forma de triángulos

MeshGPT es propuesto por investigadores de la Universidad Técnica de Munich, Politécnico de Turín, AUDI AG como un mé...

Comprendiendo el concepto de GPT-4V(ision) La nueva tendencia de la inteligencia artificial

OpenAI ha estado a la vanguardia de los últimos avances en IA, con modelos altamente competentes como GPT y DALLE. Cu...

Esta investigación de IA proveniente de China presenta GS-SLAM un enfoque novedoso para mejorar el mapeo y la localización en 3D.

Investigadores del Laboratorio de Inteligencia Artificial de Shanghai, la Universidad de Fudan, la Universidad Polité...

Generar un texto rico en información para una interfaz cruzada sólida en LLMs con de-difusión

El fenómeno global de los productos LLM (Modelos de Lenguaje Grande), ejemplificado por la amplia adopción de ChatGPT...

Investigadores de Google y del MIT presentan StableRep Revolucionando el entrenamiento de IA con imágenes sintéticas para un aprendizaje automático mejorado

Los investigadores han explorado el potencial de utilizar imágenes sintéticas generadas por modelos de texto a imagen...

Este artículo de IA de China presenta ‘Monkey’ Un nuevo enfoque de inteligencia artificial para mejorar la resolución de entrada y la asociación contextual en grandes modelos multimodales.

Los modelos multimodales grandes están ganando popularidad debido a su capacidad para manejar y analizar diversos dat...

Conoce a HyperHuman Un nuevo marco de IA para la generación hiperrealista de humanos con difusión estructural latente.

La generación de imágenes hiperrealistas de humanos a partir de condiciones definidas por el usuario, como texto y po...

Google IA presenta Mirasol3B un modelo autoregresivo multimodal para el aprendizaje a través de modalidades de audio, video y texto

En el amplio campo del aprendizaje automático, decodificar las complejidades incrustadas en diversas modalidades, com...

Explorando la próxima gran tendencia en el Gen de IA con Sandeep Singh

Esta sesión de Liderazgo con Datos muestra las experiencias de primera mano de Sandeep Singh, Jefe de IA Aplicada en ...

Microsoft Research presenta Florence-2 un nuevo modelo de base para la visión con una representación unificada basada en indicaciones para una variedad de tareas de visión por computadora y visión del lenguaje.

Se ha observado una tendencia notable en los sistemas de Inteligencia Artificial General (AGI) hacia el uso de repres...

Meet GO To Any Thing (GOAT) Un Sistema Universal de Navegación que puede Encontrar Cualquier Objeto Especificado de Cualquier Manera, ya sea como una Imagen, en Lenguaje, o en una Categoría, en Entornos Completamente Inéditos

Un equipo de investigadores de la Universidad de Illinois Urbana-Champaign, la Universidad Carnegie Mellon, el Instit...

Meta presenta Emu Video y Emu Edit Avances pioneros en la generación de videos a partir de texto y en la edición precisa de imágenes.

“`html En el campo en constante evolución de la IA generativa, persisten desafíos para lograr modelos eficiente...

Este artículo de IA presenta LLaVA-Plus un asistente multimodal de propósito general que amplía las capacidades de los modelos multimodales grandes

Crear asistentes de propósito general que puedan llevar a cabo eficientemente diversas actividades del mundo real sig...

Esta investigación sobre IA de China presenta 4K4D una representación en la nube de puntos 4D que admite rasterización de hardware y permite una velocidad de renderizado sin precedentes.

La síntesis de vista dinámica es una tarea de visión por computadora y gráfica que intenta reconstruir escenas 3D din...

Investigadores de UCLA presentan ‘Reformular y Responder’ (RaR) un nuevo método de inteligencia artificial que mejora la comprensión de las LLMs de las preguntas humanas

Un equipo de investigadores presentó Rephrase and Respond (RaR), un método diseñado para mejorar el rendimiento de lo...

Desbloquea el avance de la comprensión de video de IA con MM-VID para GPT-4V(isión)

En todo el mundo, las personas crean una gran cantidad de videos todos los días, incluyendo transmisiones en vivo gen...

Esta investigación de IA de China proporciona una evaluación exhaustiva del último modelo de lenguaje visual del Estado del Arte GPT-4V(isión) y su aplicación en escenarios de conducción autónoma

Un equipo de investigadores del Laboratorio de Inteligencia Artificial de Shanghai, GigaAI, la Universidad Normal del...

Esta investigación de IA de Adobe propone un Modelo de Reconstrucción Grande (LRM) que predice el modelo 3D de un objeto a partir de una sola imagen de entrada en 5 segundos’.

Muchos investigadores han imaginado un mundo en el que cualquier imagen 2D se pueda convertir instantáneamente en un ...

Los Modelos 3D del Cuerpo Ahora Tienen Sonido Meta AI Introduce un Modelo de Inteligencia Artificial que Puede Generar Audio Espacial 3D Preciso para Cuerpos Humanos Completos

El constante desarrollo de sistemas inteligentes que replican y comprenden el comportamiento humano ha llevado a avan...

Learn more about Computer Vision - Section 2