Learn more about Computer Vision

Google AI propone PixelLLM un modelo de visión y lenguaje capaz de localización de gran precisión y alineación de visión y lenguaje.

Los Modelos de Lenguaje Grande (LLMs) han utilizado con éxito el poder de los subcampos de Inteligencia Artificial (I...

Este artículo de IA presenta EdgeSAM Avanzando el aprendizaje automático para la segmentación de imágenes de alta velocidad y eficiente en dispositivos periféricos.

El Modelo Segment Anything (SAM) es un modelo alimentado por inteligencia artificial que segmenta imágenes para la de...

Investigadores de Stanford y Salesforce AI presentan UniControl un modelo de difusión unificado para el control avanzado en la generación de imágenes de IA.

Los modelos generativos fundamentales son una clase de modelos de inteligencia artificial diseñados para generar nuev...

Este documento de IA presenta BioCLIP aprovechando el conjunto de datos TreeOfLife-10M para transformar la visión por computadora en biología y conservación

Muchas ramas de la biología, incluyendo ecología, biología evolutiva y biodiversidad, están recurriendo cada vez más ...

Una guía completa sobre la convolución atroz en las redes neuronales convolucionales

Introducción En el ámbito de la visión por computadora, las Redes Neuronales Convolucionales (CNNs) han redefinido el...

Este artículo de IA hace público HyperDreamer un avance en la creación de contenido 3D con texturizado avanzado, modelado de 360 grados y edición interactiva

No es fácil generar modelos en 3D detallados y realistas a partir de una sola imagen RGB. Investigadores del Laborato...

Investigación de Google revela Transformadores Generativos de Vocabulario Infinito (GIVT) Pioneros en secuencias de vectores de valor real en IA

Los Transformers fueron introducidos por primera vez y rápidamente se elevaron a la prominencia como la arquitectura ...

Investigadores de la Universidad de Stanford y FAIR Meta presentan CHOIS un revolucionario método de IA para sintetizar interacciones realistas entre humanos y objetos en 3D guiado por el lenguaje.

El problema de generar movimientos sincronizados de objetos y humanos dentro de una escena en 3D ha sido abordado por...

Esta investigación de IA de la Universidad de Hong Kong y el Grupo Alibaba revela ‘LivePhoto’ un avance en la animación de video controlada por texto y personalización de la intensidad del movimiento.

Los investigadores de la Universidad de Hong Kong, Alibaba Group y Ant Group desarrollaron LivePhoto para resolver el...

(Note ‘Inpainting’ is translated as ‘relleno de imágenes’ which means ‘image filling’)

¿Cómo se pueden completar de manera efectiva las secciones faltantes de una captura 3D? Este artículo de investigació...

Investigadores del MIT y de FAIR Meta revelan RCG (Generación de imágenes condicionadas por la representación) un innovador marco de IA en la generación de imágenes sin condiciones de clase.

¿Cómo se pueden generar imágenes de alta calidad sin depender de las anotaciones humanas? Este paper del MIT CSAIL y ...

Esta investigación de IA presenta un nuevo enfoque para el reconocimiento de pose de objetos como predicción del próximo token’.

¿Cómo podemos abordar de forma efectiva el reconocimiento de objetos? Un equipo de investigadores de Meta AI y la Uni...

Conoce VideoSwap Un marco de inteligencia artificial que personaliza el intercambio de temas de video con una correspondencia puntual semántica interactiva.

Recientemente, ha habido avances significativos en la edición de videos, con la edición utilizando Inteligencia Artif...

Investigadores de Microsoft y la Universidad de Tsinghua proponen SCA (Segment and Caption Anything) para equipar de manera eficiente al modelo SAM con la capacidad de generar subtítulos regionales

La intersección de la visión por computadora y el procesamiento del lenguaje natural ha luchado durante mucho tiempo ...

Este artículo de IA presenta el marco Segment Anything for NeRF in High Quality (SANeRF-HQ) para lograr una segmentación tridimensional de alta calidad de cualquier objeto en una escena determinada.

Investigadores de la Universidad de Ciencia y Tecnología de Hong Kong, la Universidad Carnegie Mellon y el Dartmouth ...

Conoce a GPS-Gaussian Un nuevo enfoque de inteligencia artificial para sintetizar nuevas perspectivas de un personaje de forma en tiempo real.

Una función esencial de los sistemas de cámaras de múltiples vistas es la síntesis de vistas novedosas (NVS), que int...

Investigadores de Adobe proponen DMV3D un nuevo enfoque de generación 3D que utiliza un modelo de reconstrucción 3D basado en Transformador para eliminar el ruido de la difusión de múltiples vistas.

Un desafío común en la creación de activos 3D para Realidad Aumentada (RA), Realidad Virtual (RV), robótica y juegos ...

Conoce a Vchitect un sistema de creación de video de gran escala y generalista de código abierto para aplicaciones de texto a video (T2V) e imagen a video (I2V).

El aumento exponencial en la popularidad de la Inteligencia Artificial (IA) en los últimos tiempos ha llevado a grand...

Esta investigación de IA presenta CoDi-2 un innovador modelo de lenguaje multifuncional multimodal que transforma el panorama de procesamiento de instrucciones entrelazadas y generación de salida multimodal.

Investigadores desarrollaron el Modelo de Lenguaje Multimodal de Gran Tamaño CoDi-2 (MLLM) de la Universidad de Calif...

Tencent AI Lab presenta GPT4Video un modelo de lenguaje grande multimodal unificado para la comprensión de instrucciones y la generación consciente de seguridad.

El problema de comprensión y generación de videos ha sido abordado por investigadores del Laboratorio de IA de Tencen...

Detección de objetos utilizando RetinaNet y KerasCV

Después de terminar un mini-proyecto basado en la segmentación de imágenes (ver aquí), estaba listo para pasar a otra...

Esta investigación de IA presenta Photo-SLAM Elevando el mapeo fotorealista en tiempo real en dispositivos portátiles

En visión por computadora y robótica, la localización y mapeo simultáneos (SLAM, por sus siglas en inglés) con cámara...

Investigadores de CMU presentan Diffusion-TTA Elevando los modelos de IA discriminativos con retroalimentación generativa para una adaptación incomparable en el tiempo de prueba.

Los modelos de difusión se utilizan para generar muestras de alta calidad a partir de distribuciones de datos complej...

Conoce DreamSync un nuevo marco de inteligencia artificial para mejorar la síntesis de texto a imagen (T2I) con comentarios de modelos de comprensión de imagen

Investigadores de la Universidad del Sur de California, la Universidad de Washington, la Universidad Bar-Ilan y Googl...

Investigadores de Google AI y de la Universidad de Tel Aviv presentan un marco de inteligencia artificial que une un modelo de difusión de texto a imagen con geometría de lente especializada para la representación de imágenes.

Recientes avances en la generación de imágenes aprovechan modelos de difusión a gran escala entrenados con datos de t...

Learn more about Computer Vision

Find your business way