Ayudando a la Visión por Computadora y a los Modelos de Lenguaje a Comprender lo que Ven

Ayudando a la Visión por Computadora y a los Modelos de Lenguaje

.fav_bar { float:left; border:1px solid #a7b1b5; margin-top:10px; margin-bottom:20px; } .fav_bar span.fav_bar-label { text-align:center; padding:8px 0px 0px 0px; float:left; margin-left:-1px; border-right:1px dotted #a7b1b5; border-left:1px solid #a7b1b5; display:block; width:69px; height:24px; color:#6e7476; font-weight:bold; font-size:12px; text-transform:uppercase; font-family:Arial, Helvetica, sans-serif; } .fav_bar a, #plus-one { float:left; border-right:1px dotted #a7b1b5; display:block; width:36px; height:32px; text-indent:-9999px; } .fav_bar a.fav_print { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_print:hover { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.mobile-apps { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #FFF; background-size: 10px; } .fav_bar a.mobile-apps:hover { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #e6e9ea; background-size: 10px} .fav_bar a.fav_de { background: url(/images/icons/de.gif) no-repeat 0 0 #fff } .fav_bar a.fav_de:hover { background: url(/images/icons/de.gif) no-repeat 0 0 #e6e9ea } .fav_bar a.fav_acm_digital { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_acm_digital:hover { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_pdf { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_pdf:hover { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_more .at-icon-wrapper{ height: 33px !important ; width: 35px !important; padding: 0 !important; border-right: none !important; } .a2a_kit { line-height: 24px !important; width: unset !important; height: unset !important; padding: 0 !important; border-right: unset !important; border-left: unset !important; } .fav_bar .a2a_kit a .a2a_svg { margin-left: 7px; margin-top: 4px; padding: unset !important; }

Investigadores del MIT crearon un nuevo conjunto de datos sintéticos anotados de imágenes que representan una amplia gama de escenarios, que pueden ser utilizados para ayudar a los modelos de aprendizaje automático a comprender los conceptos en una escena. ¶ Crédito: Khaled Shehada et al.

Investigadores del Instituto de Tecnología de Massachusetts formaron parte de un equipo que desarrolló una técnica que utiliza datos generados por computadora para ayudar a los modelos de visión y lenguaje a comprender mejor los conceptos.

Los investigadores utilizaron un conjunto de datos sintéticos anotados para ajustar los modelos populares de visión y lenguaje, aumentando su precisión en la comprensión de conceptos hasta en un 10%.

Producieron cerca de 800,000 imágenes fotorrealistas utilizando videos sintéticos generados por computadora de diversos entornos tridimensionales y objetos, a los que se agregaron avatares humanos para interactuar con ellos.

A cada imagen se agregó una descripción detallada, que cubre atributos de objetos, relaciones posicionales e interacciones entre humanos y objetos.

Los datos sintéticos permitieron a los investigadores crear imágenes más diversas a un costo menor que generar datos reales, al tiempo que preservaban la privacidad mediante el uso de avatares. Desde MIT News Ver artículo completo

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

artificial intelligencecomputer applicationshuman-computer interactioninformation systemsperformance and reliability

Was this article helpful?

93 out of 132 found this helpful

Ayudando a la Visión por Computadora y a los Modelos de Lenguaje a Comprender lo que Ven

Was this article helpful?

Rubik y Markov

Optimizando tu LLM en producción

Inteligencia Artificial

¡Construye y juega! ¡Tu propio modelo V&L equipado con LLM!

¿Cómo podemos comprimir eficientemente grandes modelos de lenguaje con pesos de un solo bit? Esta investigación de inteligencia artificial propone PB-LLM Explorando el potencial de LLMs parcialmente binarizados

OpenAI presenta Super Alignment Abriendo el camino para una IA segura y alineada

Microsoft redefine los 7 TB de 'Project Silica' como solución de almacenamiento en la nube usando vidrio como medio

¿Cómo pueden las representaciones visuales pre-entrenadas ayudar a resolver la manipulación a largo plazo? Conoce Universal Visual Decomposer (UVD) Un método listo para usar para identificar submetas a partir de videos.

Robot inspirado en tortugas bebé puede nadar bajo la arena