Ayudando a la Visión por Computadora y a los Modelos de Lenguaje a Comprender lo que Ven
Ayudando a la Visión por Computadora y a los Modelos de Lenguaje
.fav_bar { float:left; border:1px solid #a7b1b5; margin-top:10px; margin-bottom:20px; } .fav_bar span.fav_bar-label { text-align:center; padding:8px 0px 0px 0px; float:left; margin-left:-1px; border-right:1px dotted #a7b1b5; border-left:1px solid #a7b1b5; display:block; width:69px; height:24px; color:#6e7476; font-weight:bold; font-size:12px; text-transform:uppercase; font-family:Arial, Helvetica, sans-serif; } .fav_bar a, #plus-one { float:left; border-right:1px dotted #a7b1b5; display:block; width:36px; height:32px; text-indent:-9999px; } .fav_bar a.fav_print { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_print:hover { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.mobile-apps { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #FFF; background-size: 10px; } .fav_bar a.mobile-apps:hover { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #e6e9ea; background-size: 10px} .fav_bar a.fav_de { background: url(/images/icons/de.gif) no-repeat 0 0 #fff } .fav_bar a.fav_de:hover { background: url(/images/icons/de.gif) no-repeat 0 0 #e6e9ea } .fav_bar a.fav_acm_digital { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_acm_digital:hover { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_pdf { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_pdf:hover { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_more .at-icon-wrapper{ height: 33px !important ; width: 35px !important; padding: 0 !important; border-right: none !important; } .a2a_kit { line-height: 24px !important; width: unset !important; height: unset !important; padding: 0 !important; border-right: unset !important; border-left: unset !important; } .fav_bar .a2a_kit a .a2a_svg { margin-left: 7px; margin-top: 4px; padding: unset !important; }
Investigadores del Instituto de Tecnología de Massachusetts formaron parte de un equipo que desarrolló una técnica que utiliza datos generados por computadora para ayudar a los modelos de visión y lenguaje a comprender mejor los conceptos.
Los investigadores utilizaron un conjunto de datos sintéticos anotados para ajustar los modelos populares de visión y lenguaje, aumentando su precisión en la comprensión de conceptos hasta en un 10%.
Producieron cerca de 800,000 imágenes fotorrealistas utilizando videos sintéticos generados por computadora de diversos entornos tridimensionales y objetos, a los que se agregaron avatares humanos para interactuar con ellos.
- Rubik y Markov
- De papel a píxel Evaluando las mejores técnicas para digitalizar textos escritos a mano
- Cómo guiar a ChatGPT para que escriba textos técnicos de calidad para tu sitio web
A cada imagen se agregó una descripción detallada, que cubre atributos de objetos, relaciones posicionales e interacciones entre humanos y objetos.
Los datos sintéticos permitieron a los investigadores crear imágenes más diversas a un costo menor que generar datos reales, al tiempo que preservaban la privacidad mediante el uso de avatares. Desde MIT News Ver artículo completo
Derechos de autor de los resúmenes © 2023 SmithBucklin, Washington, D.C., EE. UU.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- GraphReduce Utilizando Grafos para Abstracciones de Ingeniería de Características
- Simplifica el acceso a la información interna utilizando la Generación Mejorada de Recuperación y los Agentes de LangChain
- Una revisión exhaustiva de la Blockchain en la Inteligencia Artificial
- Cómo construir un sistema Multi-GPU para Deep Learning en 2023
- Nuevo estudio sugiere la ecología como modelo para la innovación en IA
- Investigadores de China presentan ImageBind-LLM un método de ajuste de instrucciones de múltiples modalidades de modelos de lenguaje grandes (LLMs) a través de ImageBind.
- Comprendiendo el Aprendizaje Supervisado Teoría y Visión General