Learn more about Computer Vision – Section 3

Investigadores de NTU Singapur proponen OtterHD-8B un innovador modelo de IA multimodal evolucionado a partir de Fuyu-8B

Investigadores de S-Lab, Universidad Tecnológica de Nanyang, Singapur, presentan OtterHD-8B, un innovador modelo mult...

Una nueva investigación de Microsoft AI propone HMD-NeMo un nuevo enfoque que aborda la generación de movimientos de cuerpo completo plausibles y precisos incluso cuando las manos puedan estar parcialmente visibles.

En el ámbito de las experiencias inmersivas en escenarios de realidad mixta, generar un movimiento de avatar corporal...

Investigadores de Cambridge han desarrollado una aplicación de realidad virtual utilizando aprendizaje automático para dar a los usuarios la habilidad superhumana de abrir y controlar herramientas en realidad virtual.

Los atajos de teclado son combinaciones de teclas que se encuentran típicamente en aplicaciones de escritorio tradici...

Investigadores de Meta presentaron VR-NeRF un sistema avanzado de inteligencia artificial de extremo a extremo para la captura y renderización de espacios transitables de alta fidelidad en realidad virtual.

Con la llegada de la tecnología de realidad virtual (VR) asequible, ha habido un crecimiento significativo en los med...

Esta investigación de IA de China presenta Consistent4D Un nuevo enfoque de inteligencia artificial para generar objetos dinámicos en 4D a partir de videos monocu

El campo de la visión por computadora se enfrenta a una tarea fundamental pero ardua: descifrar datos tridimensionale...

Este artículo de IA presenta un análisis exhaustivo de las espinas dorsales de visión por computadora desvelando las fortalezas y debilidades de los modelos preentrenados

En la visión por computadora, las estructuras fundamentales son componentes fundamentales de muchos modelos de aprend...

Investigadores de Stanford presentan RT-Sketch Mejorando el aprendizaje de imitación visual a través de bocetos dibujados a mano como especificaciones de objetivo

Investigadores presentaron bocetos dibujados a mano como una modalidad inexplorada para especificar objetivos en el a...

Google AI presenta un novedoso algoritmo de agrupación que combina de manera efectiva los beneficios de escalabilidad de los modelos de incrustación con la calidad de los modelos de atención cruzada.

La agrupación sirve como un desafío fundamental y extendido en el ámbito de la minería de datos y el aprendizaje auto...

Investigadores de la Universidad de Cambridge presentan un conjunto de datos de 50,000 imágenes sintéticas y fotorealistas de pies, junto con una novedosa biblioteca de IA para pies.

Las industrias de la salud, la moda y el fitness están muy interesadas en el difícil problema de visión por computado...

Esta investigación de IA presenta PERF la transformación Panorámica NeRF que convierte imágenes individuales en escenas 3D explorables.

NeRF significa Neural Radiance Fields, una técnica de aprendizaje profundo para la reconstrucción de escenas en 3D y ...

Esta investigación de IA presenta métodos innovadores para adaptar modelos de lenguaje a la diseño de chips

ChipNeMo explora la utilización de LLMs para el diseño de chips industriales, empleando técnicas de adaptación de dom...

Descubre Davidsonian Scene Graph un marco de IA revolucionario para evaluar la IA de texto a imagen con precisión

Los modelos de texto a imagen (T2I) son difíciles de evaluar y a menudo dependen de métodos de generación y respuesta...

Descifrando la Matemática en Imágenes Cómo el Nuevo Referente MathVista está Empujando los Límites de la Inteligencia Artificial en Razonamiento Visual y Matemático

“`html MATHVISTA se presenta como un punto de referencia para evaluar las habilidades de razonamiento matemátic...

Revolutionizando el Aprendizaje Automático Aprovechando el Procesamiento 3D en Aceleradores Fotónicos para una Paralelización Avanzada y Compatibilidad con la Informática de Borde

“`html Debido a los avances tecnológicos y al aumento del aprendizaje automático, el volumen de datos ha aument...

Investigadores de Stanford proponen ‘EquivAct’ Un avance en el aprendizaje de robots para generalizar tareas en diferentes escalas y orientaciones

Los seres humanos pueden extrapolar y aprender a resolver variaciones de una tarea de manipulación si los objetos inv...

Esta Investigación de IA presenta DreamCraft3D Un enfoque jerárquico para crear material en 3D que genera modelos en 3D cohesivos y de alta fidelidad.

La increíble popularidad de la modelización generativa 2D ha tenido un impacto significativo en cómo se produce mater...

Esta investigación de OpenAI presenta DALL-E 3 Revolucionando los modelos de texto a imagen con capacidades mejoradas de seguimiento de indicaciones.

En inteligencia artificial, la búsqueda de mejorar los modelos de generación de texto a imagen ha ganado una gran inf...

Este artículo sobre IA revela Cómo los modelos de lenguaje grandes se comparan con los motores de búsqueda en eficiencia de verificación de hechos

Investigadores de diferentes universidades comparan la eficacia de los modelos de lenguaje (LLMs) y los motores de bú...

Casos de uso del clasificador de dos cabezas

Hablemos de algunos casos reales de tareas de visión por computadora. A simple vista, el problema de clasificación es...

¿Cómo mantener actualizados los modelos de fundación con los últimos datos? Investigadores de Apple y CMU presentan el primer benchmark web-scale Time-Continual (TiC) con 12.7 mil millones de pares de imágenes y texto con marcas de tiempo para el

Un cambio de paradigma en el aprendizaje multimodal se ha producido gracias a las contribuciones de grandes modelos d...

Investigadores de la Universidad de Columbia y Apple presentan Ferret un revolucionario modelo de lenguaje multimodal para la comprensión y descripción avanzada de imágenes.

Cómo facilitar el conocimiento espacial de los modelos es un problema de investigación importante en el aprendizaje v...

Mejorando la evaluación del diseño de ingeniería a través de métricas integrales para modelos generativos profundos

En el diseño de ingeniería, la dependencia de los modelos generativos profundos (DGMs) ha aumentado en los últimos añ...

Revolucionando la segmentación de objetos en videos Descubriendo a Cutie con técnicas avanzadas de lectura de memoria a nivel de objetos

El seguimiento y segmentación de objetos de un vocabulario abierto definido en una anotación de primer fotograma es n...

Una revisión exhaustiva de los modelos de difusión de video en el Contenido Generado por Inteligencia Artificial (CGIA)

La Inteligencia Artificial está en auge, al igual que su subcampo, es decir, el dominio de la Visión por Computadora....

Conoce FourCastNet un modelo global de pronóstico del tiempo impulsado por datos que revoluciona las predicciones meteorológicas con un enfoque de aprendizaje profundo rápido y preciso

En la década de 1920, surgieron las predicciones numéricas del clima (NWP, por sus siglas en inglés). Estas son omnip...

Learn more about Computer Vision - Section 3