Investigadores de NYU y Google AI exploran los límites del aprendizaje automático en el razonamiento deductivo avanzado.

Investigadores de NYU y Google AI se adentran en los límites del aprendizaje automático en el razonamiento deductivo sofisticado.

La utilización de numerosas reglas de deducción y la construcción de subpruebas permite que la complejidad de las pruebas se desarrolle infinitamente en muchas tareas de razonamiento deductivo, como el diagnóstico médico o la demostración de teoremas. No es práctico encontrar datos que cubran garantías de todos los tamaños debido al enorme espacio de pruebas. Por lo tanto, a partir de pruebas básicas, un modelo de razonamiento general debería ser capaz de extrapolar a pruebas más complicadas.

Un equipo de investigadores de NYU y Google AI ha demostrado que los LLM (Modelos de Lenguaje de Aprendizaje) pueden participar en el razonamiento deductivo cuando se entrenan con aprendizaje en contexto (ICL) y prompts de cadena de pensamiento (CoT). Algunas reglas de deducción, como el modus ponens, fueron el enfoque principal de investigaciones anteriores. La evaluación también está en demostración, lo que significa que el caso de prueba se extrae de la misma distribución que las demostraciones en contexto.

La capacidad de los LLM para generalizar a pruebas más sofisticadas que sus demostraciones es el tema de un nuevo estudio realizado por investigadores de la Universidad de Nueva York, Google y la Universidad de Boston. Los académicos clasifican las pruebas según tres dimensiones:

  • El número de premisas utilizadas en cada etapa de la demostración.
  • La longitud de la cadena secuencial de pasos que conforman la prueba.
  • Las reglas de deducción empleadas.

La tamaño total es una función de las tres dimensiones.

El grupo se basa en investigaciones anteriores en dos aspectos importantes para evaluar la capacidad general de razonamiento deductivo de los LLM. Además del modus ponens, prueban si los LLM han dominado todas las reglas de deducción. Sus habilidades de razonamiento se prueban de dos maneras:

  1. La generalización de profundidad y amplitud involucra razonar sobre pruebas más extensas que las proporcionadas en ejemplos en contexto.
  2. La generalización compositiva implica utilizar numerosas reglas de deducción en una sola prueba.

Según su investigación, las tareas de razonamiento se benefician más del aprendizaje en contexto cuando se presentan ejemplos básicos que ilustran una variedad de reglas de deducción. Para evitar que el modelo se sobreajuste, los ejemplos en contexto deben incluir principios de deducción con los que no esté familiarizado, como la demostración por casos y la demostración por contradicción. Además, estos ejemplos deben ir acompañados de distractores.

Según sus hallazgos, CoT puede inducir razonamiento OOD (fuera de la distribución) en los LLM que se generalizan a pruebas compositivas. Estos LLM incluyen GPT-3.5 175B, PaLM 540B, LLaMA 65B y FLAN-T511B, que varían en escala y objetivos de entrenamiento. Este hallazgo es sorprendente, considerando la cantidad de literatura que argumenta que los LLM carecen de generalización compositiva. ICL generaliza de manera distinta al aprendizaje supervisado, específicamente a través del descenso de gradiente en muestras en contexto. Dar ejemplos en contexto de la misma distribución que el caso de prueba es claramente peor, ya que se descubrieron en múltiples instancias. Por ejemplo, cuando los ejemplos en contexto incorporan reglas de deducción específicas, los investigadores a veces observaron una mayor generalización a pruebas compositivas.

Parece que el preentrenamiento no educa al modelo para crear subpruebas hipotéticas. Sin ejemplos explícitos, los LLM no pueden generalizar ciertas reglas de deducción (por ejemplo, demostración por casos y contradicción). La relación entre el tamaño del modelo y el rendimiento es débil. Con una personalización de instrucciones y un preentrenamiento más extenso, los modelos más pequeños (no los más pequeños, pero comparables) pueden competir con los más grandes.

Para comprender mejor el proceso de activación de ICL y CoT, los investigadores llaman la atención sobre un área crucial para futuras investigaciones. Descubrieron que los mejores ejemplos en contexto a menudo provenían de una distribución diferente que el propio caso de prueba, incluso para un caso de prueba específico. La inferencia bayesiana y el descenso de gradiente no tienen en cuenta esto. Les interesa descubrir si ejemplos más simples funcionan mejor, aunque el caso de prueba sea algo sofisticado. Se necesita investigación adicional para comprender cómo caracterizar aún más la extrapolación de instancias específicas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Las Pruebas Asistidas por Computadora Abordan el Flujo de Fluidos

Los investigadores utilizan computadoras para demostrar que las ecuaciones pueden explotar.

Inteligencia Artificial

Esta revisión de investigación de IA explora la integración de imágenes satelitales y aprendizaje profundo para medir la pobreza basada en activos.

Investigadores de la Universidad de Lund y la Universidad de Halmstad llevaron a cabo una revisión sobre la inteligen...

Inteligencia Artificial

Las prácticas de contraseña obsoletas están extendidas

Los investigadores dicen que la mayoría de los sitios web más populares del mundo ponen en riesgo a los usuarios y su...

Inteligencia Artificial

Generar un texto rico en información para una interfaz cruzada sólida en LLMs con de-difusión

El fenómeno global de los productos LLM (Modelos de Lenguaje Grande), ejemplificado por la amplia adopción de ChatGPT...