Cómo los LLM basados en Transformer extraen conocimiento de sus parámetros
Extracción de conocimiento de los parámetros de los LLM basados en Transformer
En los últimos años, los modelos de lenguaje basados en transformadores (LLMs, por sus siglas en inglés) se han vuelto muy populares debido a su capacidad para capturar y almacenar conocimiento factual. Sin embargo, cómo estos modelos extraen asociaciones factuales durante la inferencia sigue siendo relativamente poco explorado. Un estudio reciente realizado por investigadores de Google DeepMind, la Universidad de Tel Aviv y Google Research tuvo como objetivo examinar los mecanismos internos mediante los cuales los LLMs basados en transformadores almacenan y extraen asociaciones factuales.
El estudio propuso un enfoque de flujo de información para investigar cómo el modelo predice el atributo correcto y cómo las representaciones internas evolucionan a través de las capas para generar resultados. Específicamente, los investigadores se centraron en los LLMs solo decodificadores e identificaron puntos críticos de computación relacionados con las posiciones de relación y sujeto. Lograron esto utilizando una estrategia de “knock out” para bloquear la última posición de que asista a otras posiciones en capas específicas, y luego observando los impactos durante la inferencia.
Para localizar aún más las ubicaciones donde ocurre la extracción de atributos, los investigadores analizaron la información que se propaga en estos puntos críticos y el proceso de construcción de representaciones previas. Lograron esto a través de intervenciones adicionales en el vocabulario y en las subcapas y proyecciones de autoatención multihead (MHSA) y perceptrón multicapa (MLP) del modelo.
- AWS reafirma su compromiso con la IA generativa responsable
- ¿Son útiles las leyendas sintéticas para el entrenamiento multimodal? Este artículo de IA demuestra la efectividad de las leyendas sintéticas en mejorar la calidad de las leyendas para el entrenamiento multimodal.
- Cómo hacer un Chatbot personalizado GPT-4
Los investigadores identificaron un mecanismo interno para la extracción de atributos basado en un proceso de enriquecimiento del sujeto y una operación de extracción de atributos. Específicamente, la información sobre el sujeto se enriquece en el último token de sujeto a través de las capas iniciales del modelo, mientras que la relación se transmite al último token. Finalmente, el último token utiliza la relación para extraer los atributos correspondientes de la representación del sujeto a través de los parámetros de la cabeza de atención.
Los hallazgos ofrecen ideas sobre cómo se almacenan y extraen asociaciones factuales internamente en los LLMs. Los investigadores creen que estos hallazgos podrían abrir nuevas direcciones de investigación para la localización de conocimiento y la edición de modelos. Por ejemplo, el enfoque del estudio podría utilizarse para identificar los mecanismos internos mediante los cuales los LLMs adquieren y almacenan información sesgada, y desarrollar métodos para mitigar tales sesgos.
En general, este estudio destaca la importancia de examinar los mecanismos internos mediante los cuales los LLMs basados en transformadores almacenan y extraen asociaciones factuales. Al comprender estos mecanismos, los investigadores pueden desarrollar métodos más efectivos para mejorar el rendimiento del modelo y reducir los sesgos. Además, el enfoque del estudio podría aplicarse a otras áreas del procesamiento del lenguaje natural, como el análisis de sentimientos y la traducción de idiomas, para comprender mejor cómo operan internamente estos modelos.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Dominando las GPUs Una guía para principiantes sobre DataFrames acelerados por GPU en Python
- La ESRB quiere comenzar a utilizar la tecnología de escaneo facial para verificar la edad de las personas
- Explicabilidad de los Modelos de Aprendizaje Automático Aumentando la Confianza y Comprensión en los Sistemas de IA
- 5 Formas de Crear una Cultura Responsable y Efectiva Impulsada por la IA en tu Organización
- ¡Prepárate para ODSC West 2023 con lo más destacado del año pasado!
- Investigadores de Samsung AI presentan Neural Haircut un nuevo método de IA para reconstruir la geometría basada en hebras del cabello humano a partir de videos o imágenes.
- Datos Rústicos Visualización de Datos con Plotters – Parte 1