Learn more about Applications – Section 3

Investigadores de Microsoft y la Universidad de Tsinghua proponen SCA (Segment and Caption Anything) para equipar de manera eficiente al modelo SAM con la capacidad de generar subtítulos regionales

La intersección de la visión por computadora y el procesamiento del lenguaje natural ha luchado durante mucho tiempo ...

Este artículo de IA presenta el marco Segment Anything for NeRF in High Quality (SANeRF-HQ) para lograr una segmentación tridimensional de alta calidad de cualquier objeto en una escena determinada.

Investigadores de la Universidad de Ciencia y Tecnología de Hong Kong, la Universidad Carnegie Mellon y el Dartmouth ...

Conoce a GPS-Gaussian Un nuevo enfoque de inteligencia artificial para sintetizar nuevas perspectivas de un personaje de forma en tiempo real.

Una función esencial de los sistemas de cámaras de múltiples vistas es la síntesis de vistas novedosas (NVS), que int...

Investigadores de Adobe proponen DMV3D un nuevo enfoque de generación 3D que utiliza un modelo de reconstrucción 3D basado en Transformador para eliminar el ruido de la difusión de múltiples vistas.

Un desafío común en la creación de activos 3D para Realidad Aumentada (RA), Realidad Virtual (RV), robótica y juegos ...

Conoce a Vchitect un sistema de creación de video de gran escala y generalista de código abierto para aplicaciones de texto a video (T2V) e imagen a video (I2V).

El aumento exponencial en la popularidad de la Inteligencia Artificial (IA) en los últimos tiempos ha llevado a grand...

Conoce a Gemini el innovador modelo multimodal de IA de Google que redefine el futuro de la inteligencia artificial

La última incursión de Google en la inteligencia artificial, Gemini, representa un salto significativo en la tecnolog...

Investigadores de Google revelan la Consistencia Universal de Auto (USC) Un nuevo avance en las capacidades de los modelos de lenguaje para el rendimiento en tareas complejas

El problema de seleccionar la respuesta más consistente entre múltiples candidatos para mejorar el rendimiento de una...

Esta investigación de IA presenta CoDi-2 un innovador modelo de lenguaje multifuncional multimodal que transforma el panorama de procesamiento de instrucciones entrelazadas y generación de salida multimodal.

Investigadores desarrollaron el Modelo de Lenguaje Multimodal de Gran Tamaño CoDi-2 (MLLM) de la Universidad de Calif...

Top 40+ Herramientas Generativas de IA (Diciembre 2023)

ChatGPT – GPT-4 GPT-4 es el último LLM de OpenAI, que es más inventivo, preciso y seguro que sus predecesores. Tambié...

Investigadores de Microsoft Research y Georgia Tech revelan los límites estadísticos de las alucinaciones en los modelos de lenguaje

Un problema clave que ha surgido recientemente en los Modelos de Lenguaje es la alta tasa a la que proporcionan infor...

Conoce a Gemini La respuesta de Google a ChatGPT

En el mundo en constante evolución de la inteligencia artificial, Google ha dado un salto revolucionario con su últim...

Conoce a Ego-Exo4D Un conjunto de datos y una suite de referencia esenciales para apoyar la investigación sobre aprendizaje de video y percepción multimodal.

Hoy en día, la inteligencia artificial encuentra su aplicación en casi todos los campos imaginables. Definitivamente ...

Preocupaciones sobre la privacidad en torno a los LLM como ChatGPT este artículo de IA revela posibles riesgos y medidas de protección

Mientras ChatGPT rompe récords, surgen algunas preguntas sobre la seguridad de la información personal utilizada en e...

Descubriendo a fondo GPT-4 y XGBoost 2.0 Las nuevas fronteras de la inteligencia artificial

Introducción AI está experimentando un cambio significativo con la aparición de LLM como GPT-4, revolucionando la com...

Tencent AI Lab presenta GPT4Video un modelo de lenguaje grande multimodal unificado para la comprensión de instrucciones y la generación consciente de seguridad.

El problema de comprensión y generación de videos ha sido abordado por investigadores del Laboratorio de IA de Tencen...

Presentación de Investigación de Google AI, Translatotron 3 Una arquitectura novedosa de traducción de voz a voz sin supervisión

La traducción de voz a voz (S2ST, por sus siglas en inglés) ha sido una tecnología transformadora para romper las bar...

Investigadores del Laboratorio de Inteligencia Artificial de Shanghai y del MIT presentan la red neuronal recurrente RNN jerárquicamente controlada una nueva frontera en la eficiente modelización de dependencia a largo plazo

La técnica de Redes Neuronales Recurrentes Jerárquicamente Gated (HGRN) desarrollada por investigadores del Laborator...

Esta investigación de IA presenta Photo-SLAM Elevando el mapeo fotorealista en tiempo real en dispositivos portátiles

En visión por computadora y robótica, la localización y mapeo simultáneos (SLAM, por sus siglas en inglés) con cámara...

Stability AI presenta SDXL Turbo un modelo de generación de texto a imagen en tiempo real

Stability AI presenta SDXL Turbo, que representa un avance notable en la síntesis de texto a imagen, impulsado por un...

Investigadores de CMU presentan Diffusion-TTA Elevando los modelos de IA discriminativos con retroalimentación generativa para una adaptación incomparable en el tiempo de prueba.

Los modelos de difusión se utilizan para generar muestras de alta calidad a partir de distribuciones de datos complej...

Conoce DreamSync un nuevo marco de inteligencia artificial para mejorar la síntesis de texto a imagen (T2I) con comentarios de modelos de comprensión de imagen

Investigadores de la Universidad del Sur de California, la Universidad de Washington, la Universidad Bar-Ilan y Googl...

Investigadores de Google AI y de la Universidad de Tel Aviv presentan un marco de inteligencia artificial que une un modelo de difusión de texto a imagen con geometría de lente especializada para la representación de imágenes.

Recientes avances en la generación de imágenes aprovechan modelos de difusión a gran escala entrenados con datos de t...

Investigadores de la Universidad de Pekín y Microsoft presentan COLE un marco de generación jerárquica eficaz que puede convertir una simple indicación de intención en un diseño gráfico de alta calidad.

La producción de imágenes naturales ahora está al nivel de la fotografía profesional, gracias a una notable mejora re...

Investigadores de UC Berkeley presentan Starling-7B un Modelo de Lenguaje Amplio (LLM) Abierto entrenado mediante Aprendizaje por Reforzamiento a partir de Retroalimentación de IA (ARIA).

Los Modelos de Lenguaje Grandes (LLMs) son modelos de inteligencia artificial para tareas de procesamiento de lenguaj...

ChatGPT Essentials La hoja de trucos de Ciencia de Datos que necesitas

Introducción Bienvenido al mundo de la ciencia de datos, donde los algoritmos, las estadísticas y el conocimiento esp...

Learn more about Applications - Section 3