¿Qué tan efectivas son las autoexplicaciones de modelos de lenguaje grandes como ChatGPT en el análisis de sentimientos? Un análisis exhaustivo de rendimiento, costo e interpretabilidad.
¿Cuán efectivas son las autoexplicaciones de modelos de lenguaje grandes como ChatGPT en el análisis de sentimientos? Un análisis completo del rendimiento, costo e interpretabilidad.
Los modelos de lenguaje como GPT-3 están diseñados para ser neutrales y generar texto basado en los patrones que han aprendido en los datos. No tienen sentimientos o emociones inherentes. Si los datos utilizados para el entrenamiento contienen sesgos, estos sesgos pueden reflejarse en las salidas del modelo. Sin embargo, su salida puede interpretarse como positiva, negativa o neutral según el contexto y la entrada que reciben. El contexto del texto es crucial para determinar el sentimiento. Una oración puede ser negativa cuando se considera de forma aislada pero positiva cuando se interpreta en el contexto más amplio del texto. Los grandes modelos de lenguaje consideran el texto que los rodea, pero entender el contexto puede ser desafiante.
El análisis de sentimiento puede ser difícil para textos con ambigüedad, sarcasmo o sentimientos mixtos. Los grandes modelos de lenguaje pueden no interpretar correctamente tales matices. Una clasificación errónea o un uso incorrecto del análisis de sentimiento pueden tener consecuencias en el mundo real. Es importante considerar estas implicancias y utilizar la inteligencia artificial de manera responsable. Investigadores de UC Santa Cruz analizaron el comportamiento sentimental de varios modelos como ChatGPT y GPT-4. Evaluaron la capacidad del LLM para generar atribuciones de características por sí mismo.
En la evaluación, estudiaron dos formas de generación. Compararon la generación de la explicación antes de la predicción y la generación de la predicción y luego explicarla. En ambos métodos, le pidieron al modelo que desarrolle una lista completa de explicaciones de atribución de características que contengan la puntuación de importancia de cada palabra, y le pidieron al modelo que devuelva las palabras más importantes según el valor de k. Las compararon con métodos de interpretabilidad, como la oclusión y las explicaciones interpretables del modelo agnóstico. Estas dos técnicas se utilizan en el aprendizaje automático y profundo para interpretar y explicar las predicciones de modelos complejos.
- Desbloqueando la Composicionalidad Sistemática en Redes Neuronales Un Avance con el Enfoque de Meta-Aprendizaje para la Composicionalidad (MLC)
- Casos de uso del clasificador de dos cabezas
- Investigadores de CMU y NYU proponen LLMTime un método de inteligencia artificial para la predicción de series temporales de cero disparo con modelos de lenguaje grandes (LLMs)
También es necesario evaluar estos modelos en función de las características de entrada. Uno debe evaluar la respuesta del modelo a la perturbación infinitesimal del valor de la característica de entrada con métodos representativos como el gradiente de saliencia, el gradiente suave y el gradiente integrado. Los investigadores utilizaron un nuevo método llamado saliencia de oclusión, donde evaluaron la respuesta del modelo a diversas entradas con diversas características eliminadas. Para capturar las interacciones no lineales, eliminaron múltiples características simultáneamente, definieron la importancia de las características como coeficientes de regresión lineal y las evaluaron.
Según las evaluaciones de fidelidad, sus resultados muestran que ninguna de las explicaciones auto-generadas tiene una ventaja distintiva sobre las demás. Son muy diferentes según las evaluaciones de acuerdo. Como resultado, algunas explicaciones podrían ser mucho mejores que las actuales, y se pueden necesitar nuevas técnicas para revelarlas.
Esta generación de cadena de pensamiento se puede considerar como la explicación del modelo. A menudo es útil para la precisión de la respuesta final, especialmente en tareas de razonamiento complejas como resolver problemas matemáticos. Por lo tanto, el trabajo futuro del equipo implica evaluar LLMs como GPT-4, Bard y Claude. Realizarían un estudio comparativo para comprender cómo estos modelos se entienden a sí mismos. También les gustaría realizar estudios sobre explicaciones contrarreales y explicaciones basadas en conceptos.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Jugabilidad Reinventada La Revolución de la Inteligencia Artificial
- ¿Cómo mantener actualizados los modelos de fundación con los últimos datos? Investigadores de Apple y CMU presentan el primer benchmark web-scale Time-Continual (TiC) con 12.7 mil millones de pares de imágenes y texto con marcas de tiempo para el
- Utilice AWS PrivateLink para configurar acceso privado a Amazon Bedrock
- Silicon Volley Los diseñadores utilizan la IA generativa para obtener un asistente de Chip
- “Cómo la IA está cambiando los gemelos digitales en 2024”
- ‘De Aprendizaje Biológico a Red Neuronal Artificial ¿Qué Sigue?’
- Biden emite orden ejecutiva de inteligencia artificial, requiriendo evaluaciones de seguridad, orientación de derechos civiles, investigación sobre el impacto en el mercado laboral