La Iniciativa ‘Encontrando Neuronas en un Pajar’ en el MIT, Harvard y la Universidad Northeastern Emplea la Exploración Escasa.

La Iniciativa 'Encontrando Neuronas en un Pajar' emplea la Exploración Escasa en el MIT, Harvard y la Universidad Northeastern.

Es común pensar en las redes neuronales como “extractores de características” adaptables que aprenden refinando progresivamente representaciones adecuadas a partir de entradas iniciales en bruto. Entonces, surge la pregunta: ¿qué características se están representando y de qué manera? Para comprender mejor cómo se describen las características de alto nivel e interpretables por humanos en las activaciones neuronales de los LLMs, un equipo de investigación del Instituto Tecnológico de Massachusetts (MIT), la Universidad de Harvard (HU) y la Universidad Northeastern (NEU) propone una técnica llamada prueba dispersa.

Por lo general, los investigadores entrenan un clasificador básico (una sonda) en las activaciones internas de un modelo para predecir una propiedad de la entrada y luego examinan la red para ver si representa y dónde representa la característica en cuestión. El método de prueba dispersa sugerido busca más de 100 variables para localizar las neuronas relevantes. Este método supera las limitaciones de los métodos de prueba anteriores y arroja luz sobre la estructura compleja de los LLMs. Limita al clasificador de prueba a utilizar no más de k neuronas en su predicción, donde k puede variar entre 1 y 256.

El equipo utiliza técnicas de predicción dispersa óptima de última generación para demostrar la optimalidad pequeña-k del subproblema de selección de características k-esparsas y abordar la confusión entre la clasificación y la precisión de clasificación. Utilizan la dispersión como un sesgo inductivo para asegurar que sus sondas puedan mantener una fuerte simplicidad previa y localizar las neuronas clave para un examen detallado. Además, la técnica puede generar una señal más confiable de si una característica específica se representa explícitamente y se utiliza aguas abajo porque una escasez de capacidad impide que sus sondas memoricen patrones de correlación conectados con características de interés.

El grupo de investigación utilizó LLMs transformadores autoregresivos en su experimento, informando sobre los resultados de clasificación después de entrenar sondas con diferentes valores de k. Concluyen lo siguiente a partir del estudio:

Las neuronas de los LLMs contienen una gran cantidad de estructura interpretable, y la prueba dispersa es una forma eficiente de localizarlas (incluso en superposición). Sin embargo, debe usarse con precaución y seguirse con un análisis si se van a obtener conclusiones rigurosas.
Cuando muchas neuronas en la primera capa se activan para n-gramos y patrones locales no relacionados, las características se codifican como combinaciones lineales dispersas de neuronas polisémicas. Las estadísticas de peso y las ideas de modelos de juguete también nos llevan a concluir que el 25% inicial de las capas completamente conectadas utilizan extensivamente la superposición.
Aunque las conclusiones definitivas sobre la monosemanticidad siguen estando fuera del alcance metodológico, las neuronas mono-semánticas, especialmente en las capas intermedias, codifican propiedades contextuales y lingüísticas de nivel superior (como es_python_code).
Aunque la dispersión de representación tiende a aumentar a medida que los modelos se vuelven más grandes, esta tendencia no se cumple en todos los casos; algunas características emergen con neuronas dedicadas a medida que el modelo crece, mientras que otras se dividen en características más detalladas a medida que el modelo crece, y muchas otras no cambian o llegan de manera bastante aleatoria.

Algunos beneficios de la prueba dispersa

El riesgo potencial de confundir la calidad de clasificación con la calidad de clasificación al investigar neuronas individuales con sondas se aborda aún más con la disponibilidad de sondas con garantías de optimalidad.
Además, las sondas dispersas están diseñadas para tener una capacidad de almacenamiento baja, por lo que hay menos motivo de preocupación acerca de que la sonda pueda aprender la tarea por sí misma.
Para realizar la prueba, necesitarás un conjunto de datos supervisado. Sin embargo, una vez que hayas construido uno, puedes usarlo para interpretar cualquier modelo, lo que abre la puerta a investigaciones sobre la universalidad de los circuitos aprendidos y la hipótesis de abstracciones naturales.
En lugar de depender de evaluaciones subjetivas, se puede utilizar para examinar automáticamente cómo diferentes elecciones arquitectónicas afectan la aparición de polisemántica y superposición.

La prueba dispersa tiene sus limitaciones

Solo se pueden hacer inferencias sólidas a partir de los datos del experimento de prueba con una investigación secundaria adicional de las neuronas identificadas.
Debido a su sensibilidad a los detalles de implementación, anomalías, malas especificaciones y correlaciones engañosas en el conjunto de datos de prueba, la prueba proporciona una visión limitada de la causalidad.
Especialmente en términos de interpretabilidad, las sondas dispersas no pueden reconocer características construidas en varias capas o diferenciar entre características en superposición y características representadas como la unión de numerosas características distintas y más detalladas.
Puede ser necesario un podado iterativo para identificar todas las neuronas significativas si la prueba dispersa no las encuentra debido a la redundancia en el conjunto de datos de prueba. El uso de características multi-token requiere un procesamiento especializado, comúnmente implementado utilizando agregaciones que podrían diluir aún más la especificidad del resultado.

Utilizando una revolucionaria técnica de sondeo disperso, nuestro trabajo revela una gran cantidad de estructuras ricas y comprensibles para los seres humanos en LLMs. Los científicos planean construir un extenso repositorio de conjuntos de datos de sondeo, posiblemente con la ayuda de la inteligencia artificial, que registren detalles especialmente pertinentes para el sesgo, la justicia, la seguridad y la toma de decisiones de alto riesgo. Animan a otros investigadores a unirse en la exploración de esta “interpretabilidad ambiciosa” y argumentan que un enfoque empírico evocador de las ciencias naturales puede ser más productivo que los típicos bucles experimentales de aprendizaje automático. Contar con conjuntos de datos supervisados vastos y diversos permitirá mejorar las evaluaciones de la próxima generación de técnicas de interpretabilidad no supervisadas que serán necesarias para mantenerse al día con el avance de la inteligencia artificial, además de automatizar la evaluación de nuevos modelos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

La Iniciativa ‘Encontrando Neuronas en un Pajar’ en el MIT, Harvard y la Universidad Northeastern Emplea la Exploración Escasa.

Was this article helpful?

Conozca Prompt Diffusion Un marco de inteligencia artificial para permitir el aprendizaje en contexto en modelos generativos basados en difusión

Llama-2, GPT-4 o Claude-2; ¿Cuál es el mejor modelo de lenguaje de inteligencia artificial?

Inteligencia Artificial

¡Abrocha tu cinturón ¡El Falcon 180B está aquí!

Conoce DeepOnto Un paquete de Python para la ingeniería de ontologías con Aprendizaje Profundo

Desvelando GPTBot La audaz movida de OpenAI para rastrear la web

El Hackathon ofrece un vistazo del potencial cuántico

Procesamiento del Lenguaje Natural Más allá de BERT y GPT

Conoce GlotLID Un modelo de Identificación de Lenguaje (LID) de código abierto que admite 1665 idiomas.