Learn more about Computer Vision – Section 9

Conoce DragonDiffusion un método de edición de imágenes de granulación fina que permite la manipulación estilo arrastrar en modelos de difusión.

Los modelos de difusión de texto a imagen a gran escala (T2I), que tienen como objetivo generar imágenes condicionada...

Pic2Word Mapeo de imágenes a palabras para la recuperación de imágenes compuestas sin entrenamiento previo.

Publicado por Kuniaki Saito, Investigador Estudiantil, Investigación de Google, Equipo de IA en la Nube, y Kihyuk Soh...

Conoce a SAM-PT Un nuevo método de IA que amplía la capacidad del modelo Segment Anything (SAM) para rastrear y segmentar cualquier cosa en videos dinámicos.

Existen numerosas aplicaciones, como la robótica, la conducción autónoma y la edición de video, que se benefician de ...

Jugando ¿Dónde está Wally? en 3D OpenMask3D es un modelo de IA que puede segmentar instancias en 3D con consultas de vocabulario abierto.

La segmentación de imágenes ha avanzado mucho en la última década, gracias al avance de las redes neuronales. Ahora e...

Cuando la visión por computadora funciona más como un cerebro, ve más como lo hacen las personas.

Entrenar redes neuronales artificiales con datos de cerebros reales puede hacer que la visión por computadora sea más...

Conoce Magic123 Un novedoso proceso de conversión de imagen a 3D que utiliza una optimización en dos etapas, de áspero a refinado, para producir geometría y texturas 3D de alta calidad y alta resolución.

A pesar de ver el mundo solo en dos dimensiones, los humanos son hábiles para navegar, pensar e interactuar con su en...

Tienes que ajustar esas dimensiones DreamEditor es un modelo de IA que edita escenas en 3D utilizando indicaciones de texto.

El dominio de visión por computadora 3D se ha inundado de NeRF en los últimos años. Surgieron como una técnica innova...

Esta Herramienta de IA Explica Cómo la IA ‘Ve’ Imágenes y por qué Puede Equivocarse al Confundir un Astronauta con una Pala.

Es ampliamente reconocido que la inteligencia artificial (IA) ha logrado avances significativos en los últimos años, ...

Investigadores de la Universidad de Binghamton presentan un sistema de anonimización que mejora la privacidad (Mi Rostro, Mi Elección) para que todos puedan tener control sobre sus rostros en las redes sociales de intercambio de fotos.

Anonimización es un problema crítico en el contexto de algoritmos de reconocimiento e identificación facial. Con la c...

Contextual AI presenta LENS un marco de inteligencia artificial para modelos de lenguaje con visión aumentada que supera a Flamingo en un 9% (56->65%) en VQAv2.

Los Modelos de Lenguaje Grandes (LLMs) han transformado la comprensión del lenguaje natural en los últimos años, demo...

Conoce a FastSAM La solución revolucionaria en tiempo real que logra una segmentación de alto rendimiento con una carga computacional mínima.

El Modelo Segment Anything (SAM) es una propuesta más reciente en el campo. Es un concepto fundamental en la visión q...

Conoce a DORSal Un modelo de difusión estructurada en 3D para la generación y edición a nivel de objeto de escenas en 3D.

La Inteligencia Artificial está evolucionando con la introducción de la IA Generativa y los Modelos de Lenguaje de Gr...

Enchufes de difusión en el dispositivo para la generación condicionada de texto a imagen

Publicado por Yang Zhao y Tingbo Hou, Ingenieros de Software, Core ML En los últimos años, los modelos de difusión ha...

Difusión estable Intuición básica detrás de la IA generativa

Este artículo proporciona una visión general de Stable Diffusion y se centra en desarrollar una comprensión básica de...

Computer Vision

Las GPUs NVIDIA H100 establecen el estándar para la IA generativa en el primer benchmark MLPerf.

Los usuarios líderes y las pruebas de referencia de la industria están de acuerdo: las GPUs NVIDIA H100 Tensor Core o...

Investigadores de Princeton presentan Infinigen un generador procedural de escenas tridimensionales fotorrealistas del mundo natural.

El equipo de investigación de la Universidad de Princeton ha presentado Infinigen, un innovador generador procedural ...

Una nueva investigación de IA de Stanford, Cornell y Oxford presenta un modelo generativo que descubre intrínsecos de objetos a partir de solo unas pocas instancias en una sola imagen.

La esencia de una rosa está compuesta por su geometría única, textura y composición material. Esto se puede utilizar ...

Conoce Video-ControlNet Un nuevo modelo de difusión de texto a video que cambiará el juego y dará forma al futuro de la generación de video controlable.

En los últimos años, ha habido un rápido desarrollo en la generación de contenido visual basado en texto. Entrenados ...

Abordando la brecha de generalización del AI Investigadores de University College London proponen Spawrious – una suite de referencia de clasificación de imágenes que contiene correlaciones espurias entre clases y fondos.

Con la creciente popularidad de la Inteligencia Artificial, cada día se lanzan nuevos modelos con características y c...

Revolutionizando la síntesis de texto a imagen investigadores de UC Berkeley utilizan modelos de lenguaje grandes en un proceso de generación de dos etapas para mejorar el razonamiento espacial y del sentido común.

Recientemente, se han desarrollado avances en la generación de texto a imagen a través de modelos de difusión que pue...

Investigadores de la Universidad de Surrey lanzan una herramienta revolucionaria de detección de objetos basada en bocetos en el aprendizaje automático.

Desde tiempos prehistóricos, las personas han utilizado bocetos para comunicación y documentación. Durante la última ...

Investigadores de LinkedIn y UC Berkeley proponen un nuevo método para detectar fotos de perfil generadas por IA.

La sofisticación de los perfiles falsos ha aumentado junto con la proliferación de medios generados por inteligencia ...

Conoce BITE Un Nuevo Método Que Reconstruye la Forma y Poses 3D de un Perro a Partir de una Imagen, Incluso con Poses Desafiantes como Sentado y Acostado.

Múltiples campos, incluyendo la biología y la conservación, así como el entretenimiento y el desarrollo de contenido ...

Voxel51 libera el código fuente de VoxelGPT un asistente de AI que aprovecha el poder de GPT-3.5 para generar código Python para el análisis de conjuntos de datos de visión por computadora.

Voxel51, un destacado innovador en software de aprendizaje automático y visión por computadora centrado en datos, ha ...

Conoce Paella Un Nuevo Modelo de IA Similar a Difusión que Puede Generar Imágenes de Alta Calidad Mucho Más Rápido que Usando Difusión Estable.

Durante los últimos 2-3 años, ha habido un aumento fenomenal en la calidad y cantidad de investigación realizada en l...

Learn more about Computer Vision - Section 9