Deblur AI de Google Afilado de tus imágenes
Google's Deblur AI Sharpening your images
Di adiós a las imágenes borrosas. La nueva técnica de Google desbloquea el verdadero potencial de la cámara de tu teléfono.
Introducción
En nuestra era digital en constante evolución, donde capturar y compartir momentos a través de la fotografía se ha convertido en una parte integral de nuestras vidas, la frustración de obtener imágenes borrosas puede ser desalentadora. Ya sea una foto familiar preciada, un paisaje impresionante o una instantánea de una ocasión especial, las imágenes borrosas pueden disminuir el impacto visual y privarnos de la claridad que deseamos.
Pero no te preocupes. La nueva metodología de Google proporciona una forma de capturar imágenes claras directamente desde tu teléfono. La mayoría de los teléfonos hoy en día vienen con múltiples cámaras. Utilizando una sola captura de dos cámaras diferentes, Google utiliza un procesamiento posterior aprendible para enfocar las imágenes borrosas. Al utilizar la misma escena capturada con una cámara de ángulo amplio (W) y una cámara de ángulo ultra amplio (UW) simultáneamente, el método tiene como objetivo combinar ambas para obtener resultados más nítidos.
Arquitectura
El modelo DFNet recibe las tomas de ángulo amplio y ultra amplio de la misma escena como entrada, junto con sus mapas de desenfoque. El mapa de desenfoque de entrada y objetivo representa la falta de nitidez de la imagen original y de salida, donde el valor de cada píxel es proporcional a la borrosidad del píxel correspondiente de la imagen.
Dado que las imágenes de ángulo ultra amplio y ultra amplio son extremadamente diferentes, con diferentes profundidades de campo, simetría, enfoque y colores, combinar estas imágenes no es una tarea trivial. Por lo tanto, Google introduce una metodología basada en el aprendizaje para unir estas imágenes.
- GPT-4 Perdió esta Batalla 449 a 28
- Todas tus publicaciones en línea ahora pertenecen a la IA, afirma Google
- Navegando la revolución de la escritura de IA Una reflexión sobre el impacto de ChatGPT
El modelo toma la imagen de ángulo amplio como imagen base, donde la imagen de ángulo ultra amplio se utiliza como referencia para los detalles de alta frecuencia. El modelo tiene como objetivo mezclar ambas imágenes, siguiendo los mapas de desenfoque proporcionados, de manera que la salida sea una imagen desenfocada.
En el momento de la prueba, uno puede cambiar fácilmente el mapa de desenfoque objetivo para desenfocar diferentes partes de la imagen según sea necesario.
Como se muestra, para generar imágenes totalmente claras, podemos establecer el mapa de desenfoque en ceros. Esto motiva al modelo a desenfocar todas las partes de la imagen. En otros casos, se pueden desenfocar partes específicas de la imagen de acuerdo con el mapa de desenfoque proporcionado en el momento de la prueba.
Resultados
Al lograr una puntuación de PSNR y SSIM de 29.78 y 0.898 respectivamente, el método de post-procesamiento supera a los métodos anteriores tanto en análisis cualitativo como cuantitativo.
Los resultados muestran los resultados de vanguardia de los métodos anteriores y el DFNet de Google, que obtiene una mayor nitidez y detalles que sus predecesores.
El modelo tiene usos potenciales en los ámbitos de enfoque de imagen, control de la profundidad de campo (DoF) y re-renderización, y desenfoque.
Limitaciones
Necesidad de Múltiples Cámaras
El modelo utiliza cámaras de ángulo amplio y ultra amplio que proporcionan referencias para detalles de alta frecuencia. Ambas imágenes deben tener diferentes profundidades de campo, enfocando diferentes partes de la escena. Las imágenes capturadas desde cámaras idénticas no podrán replicar tales resultados. Además, hay una dependencia importante en los teléfonos con doble cámara y no es posible restaurar imágenes con una sola imagen de entrada.
Generación de conjuntos de datos
Es difícil tener un conjunto de datos de imágenes capturadas utilizando ángulos amplios y ultra-amplios que estén ampliamente disponibles. También es imposible generar de forma sintética dichos conjuntos de datos añadiendo un desenfoque gaussiano a las imágenes que pueda replicar el ruido en escenarios del mundo real. Para reducir la brecha de dominio, los autores capturaron 100 pilas de imágenes para este método.
Dependencia de métodos preexistentes
La parte de preprocesamiento de datos es una necesidad para generar mapas de desenfoque, junto con máscaras de profundidad y oclusión. El preprocesamiento utiliza algoritmos preexistentes de flujo óptico y profundidad estéreo que se sabe que generan artefactos graves, lo que resulta en la degradación de las imágenes de salida.
Conclusión
Desenfoque fuera. Pon fin a las imágenes borrosas con el reciente avance de Google en la restauración de imágenes. Si se incorpora a la inteligencia artificial detrás de las cámaras de los teléfonos, podemos ver un mundo perfecto todos los días, directamente a través de nuestros teléfonos.
Considera leer el artículo para una comprensión más detallada.
Artículo: https://defocus-control.github.io/static/dc2_paper.pdf
Sígueme si te gustó este artículo y quieres aprender más sobre el aprendizaje automático y los avances recientes en la comunidad de investigación.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Explorando instituciones para la gobernanza global de la IA
- Med-PaLM 2 de Google será la IA médica más avanzada
- ¿Por qué DuckDB se está volviendo popular?
- Talmo Pereira sobre el poder de la herramienta de IA SLEAP para estudios biológicos y neurológicos
- Aprende IA Generativa con Google
- Intérprete de código de ChatGPT Todo lo que necesitas saber
- Después de los comentaristas, la IA podría reemplazar a los jueces de línea en Wimbledon