Utilizando datos de física para enfocar la visión por computadora

Usando datos de física para enfoque de visión por computadora

.fav_bar { float:left; border:1px solid #a7b1b5; margin-top:10px; margin-bottom:20px; } .fav_bar span.fav_bar-label { text-align:center; padding:8px 0px 0px 0px; float:left; margin-left:-1px; border-right:1px dotted #a7b1b5; border-left:1px solid #a7b1b5; display:block; width:69px; height:24px; color:#6e7476; font-weight:bold; font-size:12px; text-transform:uppercase; font-family:Arial, Helvetica, sans-serif; } .fav_bar a, #plus-one { float:left; border-right:1px dotted #a7b1b5; display:block; width:36px; height:32px; text-indent:-9999px; } .fav_bar a.fav_print { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_print:hover { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.mobile-apps { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #FFF; background-size: 10px; } .fav_bar a.mobile-apps:hover { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #e6e9ea; background-size: 10px} .fav_bar a.fav_de { background: url(/images/icons/de.gif) no-repeat 0 0 #fff } .fav_bar a.fav_de:hover { background: url(/images/icons/de.gif) no-repeat 0 0 #e6e9ea } .fav_bar a.fav_acm_digital { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_acm_digital:hover { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_pdf { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_pdf:hover { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_more .at-icon-wrapper{ height: 33px !important ; width: 35px !important; padding: 0 !important; border-right: none !important; } .a2a_kit { line-height: 24px !important; width: unset !important; height: unset !important; padding: 0 !important; border-right: unset !important; border-left: unset !important; } .fav_bar .a2a_kit a .a2a_svg { margin-left: 7px; margin-top: 4px; padding: unset !important; }

Laleh Jalilian de la Escuela de Medicina David Geffen de UCLA dice: "Incorporar propiedades físicas en la visión por computadora podría mejorar la precisión de muchos dispositivos e introducir tecnologías completamente nuevas." ¶ Crédito: Vijay Patel/Getty Images

La visión por computadora ha transformado numerosas tareas, desde inspeccionar componentes en líneas de producción hasta verificar la identidad de los pasajeros al abordar vuelos. Puede proporcionar resultados de alta calidad en una amplia variedad de situaciones y escenarios. Sin embargo, a medida que las condiciones se vuelven más complejas y exigentes, tanto la precisión como la utilidad de la tecnología disminuyen.

El problema radica en la naturaleza de la visión por computadora y la inteligencia artificial (IA). Los científicos de datos entrenan los sistemas actuales en redes convolucionales utilizando enormes volúmenes de datos, en muchos casos, decenas de miles de imágenes. Sin embargo, es probable que un sistema de visión por computadora encuentre desafíos y cometa errores graves cuando se vea obligado a identificar objetos utilizando variables incompletas o desconocidas.

“Los sistemas de visión por computadora de hoy son excelentes para identificar cosas en un entorno fijo que involucra entrenamiento”, dice Achuta Kadambi, profesor asistente de ingeniería eléctrica y ciencias de la computación en la Universidad de California, Los Ángeles (UCLA). Sin embargo, los cambios en la iluminación, la visibilidad o la presión pueden hacer que estos sistemas juzguen mal una situación, explica. “No podemos construir un conjunto de entrenamiento exhaustivo que aborde todas las variables del mundo real”, explica.

Como resultado, los investigadores están explorando formas de complementar los datos convencionales de visión por computadora con metadatos recopilados de sensores y sistemas basados en la física. En junio de 2023, un equipo de UCLA y el Laboratorio de Investigación del Ejército de los Estados Unidos presentó un enfoque novedoso en un artículo académico que apareció en Nature Machine Intelligence. “El objetivo es ayudar a estos sistemas a ‘ver’ mejor invocando ideas derivadas de las leyes físicas”, dice Kadambi.

Laleh Jalilian, profesora asociada y anestesióloga en la Escuela de Medicina David Geffen de UCLA, colaboradora frecuente de Kadambi, agrega: “Incorporar propiedades físicas en la visión por computadora podría mejorar la precisión de muchos dispositivos e introducir tecnologías completamente nuevas”.

Mejorando las líneas de visión

Es tentador maravillarse con el poder de la tecnología de visión por computadora actual, pero los ingenieros y diseñadores de productos se han visto obligados a enfrentar una verdad incómoda: los modelos de aprendizaje profundo operan sin entender intrínsecamente los objetos y entornos que “ven”. Los resultados se basan enteramente en la capacidad del modelo para predecir con precisión lo que sucederá a continuación.

Incluso los métodos de visión por computadora más avanzados ofrecen capacidades predictivas limitadas. Kadambi señala, por ejemplo, que cuando un modelo de aprendizaje profundo intenta mapear la trayectoria de una pelota de béisbol o un avión en movimiento, las cosas pueden salir terriblemente mal. Debido a que un sistema de aprendizaje profundo no está diseñado para modelar explícitamente factores ambientales como la presión del aire, la resistencia y el clima, “la trayectoria puede variar desde ligeramente incorrecta hasta absurdamente imprecisa”, dice Kadambi.

Tales anomalías no son particularmente importantes para un escaneo facial o cuando un sistema encuentra múltiples instancias del mismo elemento en una línea de ensamblaje. Sin embargo, para objetos en movimiento y aquellos que requieren capacidades predictivas tridimensionales (3D) avanzadas basadas en geometría plana, como vehículos autónomos y algunos instrumentos médicos, pueden surgir problemas. “El entorno físico real no se incorpora explícitamente en el marco de visión por computadora”, señala Kadambi.

Estos casos límite, que no son del todo infrecuentes, pueden hacer que un sistema reaccione de manera impredecible, a veces fatal. Por ejemplo, en 2018, una mujer fue asesinada por un vehículo autónomo de Uber porque no reconoció que estaba cruzando la calle en bicicleta. El sistema de visión por computadora había sido entrenado para detectar peatones y bicicletas, pero no ambos juntos al mismo tiempo.

El enfoque híbrido que Kadambi y sus colegas investigadores desarrollaron apunta directamente a este desafío. Al incorporar atributos basados en la física, metadatos derivados de dispositivos conectados de Internet de las cosas (IoT), sensores cuánticos y conocimientos generales sobre propiedades físicas, es posible alcanzar un nivel de inteligencia que se asemeje más al de un humano. De repente, un modelo puede aplicar propiedades conocidas de la gravedad, la resistencia, el peso, el movimiento y la presión del aire para generar predicciones mucho más precisas.

Este marco se centra en tres áreas principales: etiquetar objetos con información adicional que define su comportamiento; inyectar física en arquitecturas de redes a través de la codificación que las cámaras y los sistemas de inteligencia artificial pueden leer; y conectar datos físicos a conjuntos de entrenamiento para construir modelos de IA más robustos. El resultado es un vehículo autónomo, un robot o un dron que probablemente se desplazará mejor en condiciones adversas y en otras condiciones difíciles.

Poniendo la vista en la realidad

En el futuro, los metadatos físicos podrían dar dividendos más allá de la robótica y los sistemas automatizados. En el Centro Médico de UCLA, por ejemplo, Jalilian, que tiene experiencia en ingeniería, está explorando formas de mejorar la precisión y la exactitud de los dispositivos médicos a través del etiquetado de datos. Esto incluye oxímetros de pulso, que a veces generan errores basados en el color de la piel.

Jalilian también está considerando el uso de imágenes generadas por la cámara y sensores multimodales para medir signos vitales de los pacientes y obtener otros datos de forma remota. “La tecnología podría respaldar una telemedicina mucho más avanzada. Los dispositivos médicos remotos con algoritmos de inteligencia artificial ambiental que se ejecutan en un flujo de video podrían proporcionar información sobre el estado de una persona”, dice. Por ejemplo, un sistema podría detectar a un paciente con bajo nivel de oxígeno en la sangre y alertar a un médico. “Esto cambia la ecuación de la medicina reactiva a la medicina proactiva”.

Otros investigadores también están examinando formas de complementar la visión por computadora con datos. Por ejemplo, un grupo de investigadores del Instituto de Tecnología de Massachusetts (MIT) y IBM ha desarrollado un marco que se basa en métodos de reconocimiento de objetos modelados según el cerebro humano. Estos datos neurales adicionales dan como resultado un procesamiento más “similar al humano”, dice el profesor James DiCarlo del MIT. De hecho, agregar datos biológicos a los flujos de visión condujo a un nivel de precisión más alto para categorizar objetos, aunque el sistema también tendía a fallar donde los humanos fallan.

Aunque la idea de mejorar los datos de la máquina con etiquetas y otras formas de metadatos que provienen del mundo físico apenas comienza a tomar forma, Kadambi y otros son optimistas de que la técnica conducirá a una visión por computadora más sólida y precisa, junto con la capacidad de evitar falsos positivos que pueden afectar a los sistemas de visión. Las máquinas que ven mejor podrían cambiar fundamentalmente la forma en que operan la robótica, las tecnologías de automatización y otros sistemas de detección, así como dónde y cómo se utilizan.

“Las imágenes son fundamentalmente diferentes a los datos que provienen de sistemas basados en lenguaje, porque las imágenes se generan en base a las leyes de la física óptica”, concluye Kadambi. Insertar metadatos basados en física en los sistemas de visión por computadora “puede producir modelos mucho mejores y mejorar en gran medida sus capacidades”.

Samuel Greengard es autor y periodista con sede en West Linn, OR, Estados Unidos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

Cuidado con los datos poco confiables en la evaluación de modelos un estudio de caso de selección de LLM Prompt con Flan-T5.

La evaluación confiable del modelo es fundamental en MLops y LLMops, guiando decisiones cruciales como cuál modelo o ...

Inteligencia Artificial

Los agentes de IA personalizados ya están aquí. ¿Está el mundo listo para ellos?

La era de los asistentes de inteligencia artificial autónoma podría tener enormes implicaciones.

Ciencias de la Computación

Wimbledon utilizará inteligencia artificial para comentarios en video de aspectos destacados.

El anuncio es parte de una tendencia más amplia en el tenis, a medida que el deporte adopta la tecnología.

Inteligencia Artificial

Navegando la Curva de Aprendizaje La Lucha de la IA con la Retención de Memoria

A medida que los límites de la inteligencia artificial (IA) se expanden continuamente, los investigadores luchan con ...

Inteligencia Artificial

Google AI presenta SimPer un marco contrastivo auto-supervisado para aprender información periódica en los datos

En los últimos años, el reconocimiento y la comprensión de los datos periódicos se han vuelto vitales para una amplia...

Inteligencia Artificial

Bloqueo de Apple de Beeper Mini en iMessage solo es parte de la gran saga de la burbuja azul/verde

Apple toma medidas preventivas para proteger a sus clientes. Beeper afirma que el último movimiento de Apple hace exa...