Learn more about Computer Vision – Section 4

Uni3D Explorando la representación 3D unificada a gran escala

La ampliación de las representaciones de texto y visuales ha sido un enfoque principal de investigación en los último...

IBM presenta un chip de computadora inspirado en el cerebro que podría impulsar la inteligencia artificial (IA) al trabajar más rápido con mucha menos energía.

En el paisaje en constante evolución de la inteligencia artificial, la necesidad de capacidades de procesamiento más ...

Meet FreeU Una nueva técnica de IA para mejorar la calidad generativa sin entrenamiento adicional ni ajuste fino

Los modelos de difusión probabilística, una categoría de vanguardia de modelos generativos, se han convertido en un p...

Investigadores de Microsoft presentan Table-GPT Elevando modelos de lenguaje para destacar en la comprensión de tablas bidimensionales y tareas relacionadas.

Con los recientes avances en el campo de la inteligencia artificial, los Modelos de Lenguaje Grande, incluyendo GPT y...

Conoce a DiagrammerGPT un nuevo marco de inteligencia artificial de generación de texto a diagrama de dos etapas que aprovecha el conocimiento de LLM para planificar y refinar los planes generales de diagramas

DiagrammerGPT es un revolucionario sistema de dos etapas para generar diagramas a partir de texto, impulsado por LLMs...

Google AI presenta PaLI-3 un modelo de lenguaje de visión (VLM) más pequeño, rápido y potente que se compara favorablemente con modelos similares que son 10 veces más grandes.

El Modelo de Lenguaje de Visión (VLM) es un sistema avanzado de inteligencia artificial que combina la comprensión de...

¿Podemos generar imágenes humanas hiperrealistas? Este artículo de IA presenta HyperHuman un avance en modelos de texto a imagen

La computación cuántica se elogia a menudo por su potencial para revolucionar la resolución de problemas, especialmen...

Este artículo AI propone ‘MotionDirector’ Un enfoque de inteligencia artificial para personalizar el movimiento y apariencia de vídeos.

Los modelos de difusión de texto a video han avanzado significativamente en los últimos tiempos. Ahora, solo con prop...

Conoce Universal Simulator (UniSim) Un simulador interactivo de la interacción del mundo real a través del modelado generativo

Los modelos generativos han transformado la creación de contenido en texto, imágenes y videos. La próxima frontera es...

Investigadores de CMU y Google DeepMind presentan AlignProp un enfoque de IA basado en retropropagación directa para afinar los modelos de difusión de texto a imagen para una función de recompensa deseada.

Los modelos probabilísticos de difusión se han convertido en la norma establecida para la generación de modelos en do...

Esta investigación de IA propone SMPLer-X Un modelo de base generalista para captura de movimiento humano en 3D/4D a partir de entradas monoculares.

Los sectores de animación, videojuegos y moda pueden beneficiarse del campo de vanguardia de la estimación expresiva ...

Un nuevo estudio de IA desvela los secretos de las baterías de ion de litio a través de la visión por computadora

Miles de partículas minúsculas empaquetadas densamente en los electrodos de las baterías de iones de litio recargable...

Investigadores de Microsoft y ETH Zurich presentan HoloAssist un conjunto de datos multimodal para copilotos de IA de próxima generación para el mundo físico.

En el campo de la inteligencia artificial, un desafío persistente ha sido desarrollar asistentes de IA interactivos q...

Esta investigación de IA propone Kosmos-G un modelo de inteligencia artificial que realiza generación de imágenes de alta fidelidad de cero imágenes de visión generalizada con entrada de lenguaje utilizando la propiedad de los Multimodel LLMs.

Recientemente, ha habido avances significativos en la creación de imágenes a partir de descripciones de texto y en la...

Investigadores de UC Berkeley y UCSF revolucionan la generación de video neural presentando LLM-Grounded Video Diffusion (LVD) para mejorar la dinámica espacio-temporal.

En respuesta a los desafíos que se enfrentan al generar videos a partir de descripciones de texto, un equipo de inves...

Rompiendo barreras en la segmentación de instancias en 3D Un enfoque de mundo abierto con mejora de pseudo-etiquetado y escenarios realistas

Al proporcionar clasificación y etiquetado semántico a nivel de instancia de objeto, la segmentación semántica de ins...

Google DeepMind lanza Open X-Embodiment, que incluye un conjunto de datos de robótica con más de 1 millón de trayectorias y un modelo de IA generalista (𝗥𝗧-X) para ayudar a avanzar en cómo los robots pueden aprender nuevas habilidades.

Los últimos avances en los campos de la Inteligencia Artificial y el Aprendizaje Automático han demostrado la capacid...

Investigadores de China revelan ImageReward Un enfoque revolucionario de inteligencia artificial para optimizar los modelos de texto a imagen utilizando la retroalimentación de las preferencias humanas

En los últimos años, se han producido enormes avances en los modelos generativos de texto a imagen, incluyendo método...

Investigadores de Stanford presentan un novedoso método de inteligencia artificial que puede descomponer eficaz y eficientemente el sombreado en una representación estructurada en forma de árbol’.

En visión por computadora, inferir el sombreado detallado de un objeto a partir de una sola imagen siempre ha sido un...

Conoce ConceptGraphs Una representación gráfica estructurada de vocabulario abierto para escenas en 3D

La captura y codificación de información sobre una escena visual, típicamente en el contexto de la visión por computa...

Conoce al Creador Estudiante de Robótica presenta la Silla de Ruedas Autónoma con NVIDIA Jetson

Con la ayuda de la IA, los robots, los tractores y los cochecitos de bebé – incluso los parques de patinaje ...

Revolucionando la segmentación panóptica con FC-CLIP un marco unificado de IA (Inteligencia Artificial) en una sola etapa

La segmentación de imágenes es una tarea fundamental en la visión por computadora, donde una imagen se divide en part...

Segmentación semántica de imágenes utilizando Transformers de predicción densa

Introducción Este artículo analizará una técnica de visión por computadora llamada Segmentación Semántica de Imágenes...

Revelando los secretos de las neuronas multimodales Un viaje desde Molyneux hasta los Transformadores

Los Transformers podrían ser una de las innovaciones más importantes en el dominio de la inteligencia artificial. Est...

Este artículo de IA presenta RMT una fusión de RetNet y Transformer, abriendo una nueva era en eficiencia y precisión de la visión por computadora.

Después de su debut en NLP, el Transformer se transfirió al ámbito de la visión por computadora, donde demostró ser p...

Learn more about Computer Vision - Section 4