Deblur AI de Google Afilado de tus imágenes

Google's Deblur AI Sharpening your images

Di adiós a las imágenes borrosas. La nueva técnica de Google desbloquea el verdadero potencial de la cámara de tu teléfono.

Introducción

En nuestra era digital en constante evolución, donde capturar y compartir momentos a través de la fotografía se ha convertido en una parte integral de nuestras vidas, la frustración de obtener imágenes borrosas puede ser desalentadora. Ya sea una foto familiar preciada, un paisaje impresionante o una instantánea de una ocasión especial, las imágenes borrosas pueden disminuir el impacto visual y privarnos de la claridad que deseamos.

Pero no te preocupes. La nueva metodología de Google proporciona una forma de capturar imágenes claras directamente desde tu teléfono. La mayoría de los teléfonos hoy en día vienen con múltiples cámaras. Utilizando una sola captura de dos cámaras diferentes, Google utiliza un procesamiento posterior aprendible para enfocar las imágenes borrosas. Al utilizar la misma escena capturada con una cámara de ángulo amplio (W) y una cámara de ángulo ultra amplio (UW) simultáneamente, el método tiene como objetivo combinar ambas para obtener resultados más nítidos.

Arquitectura

El modelo DFNet recibe las tomas de ángulo amplio y ultra amplio de la misma escena como entrada, junto con sus mapas de desenfoque. El mapa de desenfoque de entrada y objetivo representa la falta de nitidez de la imagen original y de salida, donde el valor de cada píxel es proporcional a la borrosidad del píxel correspondiente de la imagen.

Dado que las imágenes de ángulo ultra amplio y ultra amplio son extremadamente diferentes, con diferentes profundidades de campo, simetría, enfoque y colores, combinar estas imágenes no es una tarea trivial. Por lo tanto, Google introduce una metodología basada en el aprendizaje para unir estas imágenes.

El modelo toma la imagen de ángulo amplio como imagen base, donde la imagen de ángulo ultra amplio se utiliza como referencia para los detalles de alta frecuencia. El modelo tiene como objetivo mezclar ambas imágenes, siguiendo los mapas de desenfoque proporcionados, de manera que la salida sea una imagen desenfocada.

En el momento de la prueba, uno puede cambiar fácilmente el mapa de desenfoque objetivo para desenfocar diferentes partes de la imagen según sea necesario.

Como se muestra, para generar imágenes totalmente claras, podemos establecer el mapa de desenfoque en ceros. Esto motiva al modelo a desenfocar todas las partes de la imagen. En otros casos, se pueden desenfocar partes específicas de la imagen de acuerdo con el mapa de desenfoque proporcionado en el momento de la prueba.

Resultados

Al lograr una puntuación de PSNR y SSIM de 29.78 y 0.898 respectivamente, el método de post-procesamiento supera a los métodos anteriores tanto en análisis cualitativo como cuantitativo.

Los resultados muestran los resultados de vanguardia de los métodos anteriores y el DFNet de Google, que obtiene una mayor nitidez y detalles que sus predecesores.

El modelo tiene usos potenciales en los ámbitos de enfoque de imagen, control de la profundidad de campo (DoF) y re-renderización, y desenfoque.

Limitaciones

Necesidad de Múltiples Cámaras

El modelo utiliza cámaras de ángulo amplio y ultra amplio que proporcionan referencias para detalles de alta frecuencia. Ambas imágenes deben tener diferentes profundidades de campo, enfocando diferentes partes de la escena. Las imágenes capturadas desde cámaras idénticas no podrán replicar tales resultados. Además, hay una dependencia importante en los teléfonos con doble cámara y no es posible restaurar imágenes con una sola imagen de entrada.

Generación de conjuntos de datos

Es difícil tener un conjunto de datos de imágenes capturadas utilizando ángulos amplios y ultra-amplios que estén ampliamente disponibles. También es imposible generar de forma sintética dichos conjuntos de datos añadiendo un desenfoque gaussiano a las imágenes que pueda replicar el ruido en escenarios del mundo real. Para reducir la brecha de dominio, los autores capturaron 100 pilas de imágenes para este método.

Dependencia de métodos preexistentes

La parte de preprocesamiento de datos es una necesidad para generar mapas de desenfoque, junto con máscaras de profundidad y oclusión. El preprocesamiento utiliza algoritmos preexistentes de flujo óptico y profundidad estéreo que se sabe que generan artefactos graves, lo que resulta en la degradación de las imágenes de salida.

Conclusión

Desenfoque fuera. Pon fin a las imágenes borrosas con el reciente avance de Google en la restauración de imágenes. Si se incorpora a la inteligencia artificial detrás de las cámaras de los teléfonos, podemos ver un mundo perfecto todos los días, directamente a través de nuestros teléfonos.

Considera leer el artículo para una comprensión más detallada.

Artículo: https://defocus-control.github.io/static/dc2_paper.pdf

Sígueme si te gustó este artículo y quieres aprender más sobre el aprendizaje automático y los avances recientes en la comunidad de investigación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

artificial intelligenceComputer VisiongoogleImage ProcessingMachine Learning

Was this article helpful?

93 out of 132 found this helpful

Deblur AI de Google Afilado de tus imágenes

Di adiós a las imágenes borrosas. La nueva técnica de Google desbloquea el verdadero potencial de la cámara de tu teléfono.

Introducción

Arquitectura

Resultados

Limitaciones

Necesidad de Múltiples Cámaras

Generación de conjuntos de datos

Dependencia de métodos preexistentes

Conclusión

Was this article helpful?

GPT-4 Perdió esta Batalla 449 a 28

Gradient Boosting de la Teoría a la Práctica (Parte 1)

Inteligencia Artificial

¿Puede un Modelo de Lenguaje Revolucionar la Radiología? Conozca Radiology-Llama2 Un Gran Modelo de Lenguaje Especializado en Radiología a través de un Proceso Conocido como Ajuste de Instrucciones.

Segmentación de Imágenes Una Guía Detallada

¿Podemos superar la fragilidad inmediata en los modelos de lenguaje grandes? La IA de Google presenta la calibración por lotes para un rendimiento mejorado.

Un nuevo estudio de investigación en IA presenta AttrPrompt un generador de datos de entrenamiento LLM para un nuevo paradigma en el aprendizaje de cero disparos.

¡Otro modelo de lenguaje grande! Conoce a IGEL Una familia de modelos de lenguaje alemanes afinados para instrucciones

Este informe de AI de Microsoft presenta un nuevo enfoque para entrenar modelos de lenguaje imitar la comprensión de lectura humana para un rendimiento mejorado en biomedicina, finanzas y derecho.