Investigadores de la Universidad de Michigan exploran nuevos territorios en la teoría de la mente de la IA presentan una taxonomía y protocolos rigurosos para evaluarla.
Explorando nuevos horizontes en la teoría de la mente de la IA Investigadores de la Universidad de Michigan presentan una taxonomía y protocolos rigurosos para su evaluación.
Un equipo de investigadores de la Universidad de Michigan aboga por desarrollar nuevos puntos de referencia y protocolos de evaluación para evaluar la capacidad de Teoría de la Mente (ToM) de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés). Sugiere un enfoque de evaluación holístico y situado que categoriza la ToM de las máquinas en siete categorías de estados mentales. El estudio enfatiza la necesidad de una evaluación integral de los estados mentales en los LLMs, tratándolos como agentes en contextos físicos y sociales.
El estudio aborda la falta de una ToM robusta en los LLMs y la necesidad de mejorar los puntos de referencia y los métodos de evaluación. Identifica deficiencias en los puntos de referencia existentes, proponiendo un enfoque de evaluación holístico en el que se traten a los LLMs como agentes en diversos contextos. Destaca los debates en curso sobre la ToM de las máquinas, enfatizando las limitaciones y la necesidad de métodos de evaluación más sólidos. Su objetivo es guiar la investigación futura en la integración de la ToM con los LLMs y mejorar el panorama de evaluación.
La ToM es esencial para la cognición humana y el razonamiento social, y su relevancia en la inteligencia artificial para permitir las interacciones sociales. Cuestiona si los LLMs como Chat-GPT y GPT-4 poseen una ToM de máquina, destacando sus limitaciones en tareas complejas de razonamiento social y de creencias. Los protocolos de evaluación existentes deben ser revisados, lo que exige una investigación integral. Aboga por una taxonomía de ToM de máquina y un enfoque de evaluación situada, tratando a los LLMs como agentes en contextos del mundo real.
- Una Nueva Era de Generación de Texto RAG, LangChain y Bases de Datos Vectoriales
- DB-GPT Transformando cómo nos conectamos con bases de datos con tecnología propietaria LLM
- Cómo la tecnología de toque acústico ofrece visión a través del sonido
La investigación introduce una taxonomía para la ToM de máquina y aboga por un enfoque de evaluación situada para los LLMs. Se revisan los puntos de referencia existentes y se realiza una encuesta de literatura sobre la toma de perspectiva perceptual. Se presenta un estudio piloto en un mundo de cuadrícula como prueba de concepto. Los investigadores destacan la importancia de un diseño cuidadoso de los puntos de referencia para evitar atajos y filtración de datos, resaltando las limitaciones de los puntos de referencia actuales debido al acceso limitado al conjunto de datos.
El enfoque propone una taxonomía para la ToM de máquina con siete categorías de estados mentales. Aboga por un enfoque de evaluación holístico y situado para los LLMs para evaluar los estados mentales de manera integral y prevenir atajos y filtración de datos. Se presenta un estudio piloto en un mundo de cuadrícula como prueba de concepto. Se resaltan las limitaciones de los puntos de referencia actuales de ToM, enfatizando la necesidad de nuevos estándares escalables con anotaciones de alta calidad y conjuntos de evaluación privados. Se recomiendan prácticas de evaluaciones justas y se planea un criterio más extenso.
En conclusión, la investigación destaca la necesidad de nuevos puntos de referencia para evaluar la ToM de máquina en los LLMs. Se aboga por un enfoque integral y situado de evaluación que considere a los LLMs como agentes en contextos del mundo real, junto con la importancia de una curación cuidadosa de los puntos de referencia para evitar atajos y filtración de datos. La investigación enfatiza el desarrollo de puntos de referencia a mayor escala con anotaciones de alta calidad y conjuntos de evaluación privados, y esboza planes para el desarrollo sistemático de puntos de referencia en el futuro.
Como trabajo futuro, es necesario desarrollar nuevos puntos de referencia de ToM de máquina que aborden aspectos no explorados, desalienten los atajos y aseguren una escalabilidad con anotaciones de calidad. El enfoque debe centrarse en evaluaciones justas que documenten las indicaciones y propongan una evaluación de ToM situada en la que los modelos sean tratados como agentes en diversos contextos. Se recomienda implementar protocolos de evaluación complejos en una configuración situada. A pesar de reconocer las limitaciones de un estudio piloto, el plan es llevar a cabo un punto de referencia sistemático a mayor escala en el futuro.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ¡Deja de ser malo en la creación de redes! Destácate en un mercado laboral de ciencia de datos abarrotado con estos 6 pasos imprescindibles (De un científico de datos de Spotify).
- Elon Musk y el equipo de XAi lanzan Grok la nueva frontera de la Inteligencia Artificial (IA) con datos en vivo y el competidor más fuerte de ChatGPT
- Implementa fácilmente SVM multicategoría desde cero en Python
- RAG Avanzado 01 Recuperación de Pequeño a Grande
- Regresión lineal, truco de Kernel y núcleo lineal.
- 50+ principales bibliotecas de Python geoespaciales
- Sistemas de recomendación a partir de retroalimentación implícita utilizando TensorFlow Recommenders