8 cosas potencialmente sorprendentes que debes saber sobre los Modelos de Lenguaje Grandes (LLMs)

8 sorprendentes datos sobre los LLMs que debes saber

En los últimos meses, ha habido un aumento de interés y actividad por parte de defensores, políticos y académicos de diversas disciplinas debido a la amplia implementación pública de grandes modelos de lenguaje (LLM por sus siglas en inglés). Si bien este enfoque es justificado en vista de las preocupaciones apremiantes que trae la nueva tecnología, también puede pasar por alto algunos factores cruciales.

Recientemente, ha habido mucho interés por parte de periodistas, responsables políticos y académicos de diversas disciplinas en grandes modelos de lenguaje y en productos construidos sobre ellos, como ChatGPT. Sin embargo, debido a que esta tecnología sorprende de muchas maneras, es fácil que las explicaciones concisas pasen por alto detalles clave.

Hay ocho aspectos inesperados en esto:

  1. Las capacidades de los LLM aumentarán predeciblemente con más inversión, incluso en ausencia de innovación deliberada.

El reciente aumento de investigación e inversión en LLMs puede atribuirse en gran medida a los resultados de las leyes de escala. Cuando los investigadores aumentan la cantidad de datos que se alimentarán a los modelos futuros, el tamaño de esos modelos (en términos de parámetros) y la cantidad de cómputo utilizada para entrenarlos, las leyes de escala les permiten anticipar con precisión algunas métricas groseras pero relevantes de qué tan capaces serán esos modelos (medidos en FLOPs). Como resultado, pueden tomar decisiones de diseño cruciales, como el mejor tamaño para un modelo dentro de un presupuesto específico, sin tener que hacer muchos experimentos costosos.

El nivel de precisión en la realización de predicciones es sin precedentes, incluso en el contexto de los estudios contemporáneos de inteligencia artificial. Como permite que los equipos de I+D ofrezcan iniciativas de entrenamiento de modelos multimillonarios con cierta garantía de que los proyectos tendrán éxito en el desarrollo de sistemas económicamente beneficiosos, también es un instrumento potente para impulsar la inversión.

Aunque los métodos de entrenamiento para los LLM de vanguardia aún no se han hecho públicos, informes recientes detallados implican que la arquitectura subyacente de estos sistemas ha cambiado poco, si es que ha cambiado algo.

  1. A medida que se vierten recursos en LLM, a menudo surgen comportamientos inesperadamente cruciales.

En la mayoría de los casos, la capacidad de un modelo para anticipar correctamente la continuación de un texto sin terminar, medida por su pérdida de prueba de preentrenamiento, solo se puede predecir mediante una regla de escalado.

Aunque esta métrica se correlaciona con la utilidad de un modelo en muchas actividades prácticas en promedio, no es fácil predecir cuándo un modelo comenzará a demostrar talentos particulares o se volverá capaz de realizar tareas específicas.

Más específicamente, la capacidad de GPT-3 para realizar el aprendizaje con pocos ejemplos, es decir, aprender una nueva tarea a partir de un pequeño número de ejemplos en una sola interacción, y el razonamiento de cadena de pensamiento, es decir, escribir su razonamiento sobre tareas difíciles cuando se solicita, como lo haría un estudiante en un examen de matemáticas, y demostrar un rendimiento mejorado, lo distinguen como el primer LLM moderno.

Los futuros LLMs pueden desarrollar cualquier característica necesaria, y hay pocas fronteras generalmente aceptadas.

Sin embargo, el progreso realizado con los LLMs a veces ha sido menos anticipado por los expertos de lo que ha ocurrido en realidad.

  1. Los LLMs adquieren y emplean con frecuencia representaciones del mundo externo.

Cada vez hay más pruebas que sugieren que los LLM construyen representaciones internas del mundo, lo que les permite razonar a un nivel abstracto insensible a la forma lingüística específica del texto. La evidencia de este fenómeno es más fuerte en los modelos más grandes y más recientes, por lo que se debe anticipar que se volverá más robusto cuando los sistemas se amplíen más. Sin embargo, los LLM actuales necesitan hacer esto de manera más efectiva y eficiente.

Los siguientes hallazgos, basados en una amplia variedad de técnicas experimentales y modelos teóricos, respaldan esta afirmación.

  • Las representaciones internas del color de los modelos son altamente consistentes con los hallazgos empíricos sobre cómo los humanos perciben el color.
  • Los modelos pueden concluir el conocimiento y las creencias del autor para prever el curso futuro del documento.
  • Las historias se utilizan para informar a los modelos, que luego cambian sus representaciones internas de las características y ubicaciones de los objetos representados en las historias.
  • A veces, los modelos pueden proporcionar información sobre cómo representar cosas extrañas en papel.
  • Los modelos pasan muchas pruebas de razonamiento del sentido común, incluso las como el Desafío de Esquema de Winograd, que se hacen para no tener indicaciones textuales sobre la respuesta.

Estos hallazgos contradicen la sabiduría convencional de que los LLM son solo predictores estadísticos de la siguiente palabra y no pueden generalizar su aprendizaje o razonamiento más allá del texto.

  1. No existen métodos efectivos para influir en las acciones de LLMs.

La construcción de un LLM basado en lenguaje es costosa debido al tiempo y esfuerzo requeridos para entrenar una red neuronal para predecir el futuro de muestras aleatorias de texto escrito por humanos. Sin embargo, por lo general, dicho sistema necesita ser modificado o guiado para ser utilizado para fines distintos a la predicción de continuación por sus creadores. Esta modificación es necesaria incluso al crear un modelo genérico para seguir instrucciones sin intentar la especialización de tareas.

El modelo de lenguaje simple de sugerencia implica la construcción de una frase que queda sin terminar.

Los investigadores están entrenando un modelo para imitar demostraciones humanas de nivel experto de la habilidad mientras están supervisados. Con el aprendizaje por refuerzo, se puede alterar gradualmente la fuerza de las acciones de un modelo basándose en las opiniones de los evaluadores y usuarios humanos.

  1. Aún se necesita comprender completamente el funcionamiento interno de los LLMs por parte de los expertos.

Para funcionar, los LLMs de última generación se basan en redes neuronales artificiales, que imitan de manera flexible a las neuronas humanas y cuyos componentes internos se activan con números.

En este sentido, los métodos neurocientíficos actuales para estudiar tales sistemas siguen siendo inadecuados: aunque los investigadores tienen algunas técnicas rudimentarias para determinar si los modelos representan con precisión ciertos tipos de datos (como los resultados de color discutidos en la Sección 3), a principios de 2023, carecen de un método que permita describir adecuadamente la información, el razonamiento y los objetivos que intervienen en la salida de un modelo.

Tanto las explicaciones generadas por el modelo como las que estimulan el razonamiento en lenguaje natural pueden ser consistentemente imprecisas, a pesar de su aparente promesa.

  1. El rendimiento de los LLMs no está limitado por el rendimiento humano en una tarea determinada.

Incluso si se enseña a los LLMs a imitar la actividad de escritura humana, eventualmente pueden superar a los humanos en muchas áreas. Dos factores explican esto: primero, tienen considerablemente más información que aprender, memorizar y potencialmente sintetizar porque se entrenan con muchos más datos de los que cualquier persona ve. Además, antes de ser desplegados, a menudo se les entrena con aprendizaje por refuerzo, que les enseña a generar respuestas que los humanos encuentran beneficiosas sin necesidad de que los humanos muestren tal comportamiento. Esto es comparable a los métodos utilizados para lograr niveles de habilidad sobrehumanos en juegos como Go.

Por ejemplo, parece que los LLMs son significativamente más precisos que los humanos en su tarea de pre-entrenamiento de predecir qué palabra es más probable que ocurra después de alguna pieza de texto inicial. Además, los humanos pueden enseñar a los LLMs a hacer tareas con mayor precisión que ellos mismos.

  1. Los LLMs no están obligados a reflejar los valores de sus autores o los transmitidos en el contenido en línea.

La salida de un LLM pre-entrenado simple será muy similar al texto de entrada. Esto implica una congruencia en los valores del texto: los comentarios explícitos de un modelo sobre temas relacionados con valores y los sesgos implícitos detrás de su escritura reflejan sus datos de entrenamiento. Sin embargo, estas configuraciones están en manos de los desarrolladores, especialmente una vez que se ha aplicado la sugerencia y el entrenamiento adicional al LLM pre-entrenado simple para hacerlo listo para el mercado. Los valores de un LLM desplegado no tienen que ser un promedio ponderado de los valores utilizados en sus datos de entrenamiento. Como resultado, los valores transmitidos en estos modelos no necesitan coincidir con la importancia de las personas y organizaciones específicas que los construyen, y pueden estar sujetos a la entrada y el escrutinio externos.

  1. Los encuentros breves con los LLMs son frecuentemente engañosos.

Muchos LLMs en uso actualmente pueden ser instruidos, aunque esta habilidad debe ser integrada en el modelo en lugar de ser agregada con herramientas deficientes. La creciente habilidad de la ingeniería de sugerencias se basa en la observación de que muchos modelos inicialmente no logran cumplir una tarea cuando se les pide, pero posteriormente tienen éxito una vez que se reformula o cambia ligeramente la solicitud. Esto se debe en parte a que los modelos pueden responder de manera única a los detalles de su documentación.

Estas fallas accidentales muestran que mandar a los modelos de lenguaje para llevar a cabo comandos no es infalible. Cuando se le da al modelo la sugerencia adecuada para realizar una tarea, a menudo se desempeña bien en varias situaciones de prueba. Sin embargo, esto no es evidencia concluyente de que un individuo carezca del conocimiento o habilidades para realizar un trabajo debido a una única instancia de falla.

Incluso si se sabe que un LLM no puede completar una tarea determinada, eso solo no prueba que ningún otro LLM pueda hacer lo mismo.

Sin embargo, más que ver a un LLM completar una tarea con éxito una vez, es suficiente prueba de que puede hacerlo de manera consistente, especialmente si la instancia se seleccionó al azar para la demostración.

Los LLMs pueden memorizar ciertos ejemplos o estrategias para resolver tareas de sus datos de entrenamiento sin interiorizar el proceso de razonamiento que les permitiría realizar dichas tareas de manera sólida.

Limitaciones

  • La principal falla en los sistemas actuales es la alucinación, es decir, el problema de que los LLM produzcan declaraciones falsas plausible. Esto restringe severamente cómo se pueden utilizar de manera responsable.
  • Como resultado de nuevas estrategias que aprovechan el hecho de que los modelos a menudo pueden reconocer estos comportamientos pobres cuando se les cuestiona, el sesgo explícito y la toxicidad en la salida del modelo se han reducido drásticamente. Aunque estas medidas de seguridad no son infalibles, deberían reducir la frecuencia y significado de estos hábitos indeseables con el tiempo.
  • A medida que los LLM mejoran sus modelos internos del mundo y su capacidad para aplicar esos modelos a problemas prácticos, estarán mejor posicionados para asumir actividades cada vez más variadas, como desarrollar e implementar estrategias creativas para maximizar resultados en el mundo real.
  • Las predicciones sobre las capacidades futuras de los LLM basadas en las motivaciones económicas, valores o personalidades de sus desarrolladores probablemente fracasarán debido a la naturaleza emergente e impredecible de muchas capacidades importantes de los LLM.
  • Se han realizado numerosos estudios científicos creíbles que han demostrado que los LLM recientes no pueden completar pruebas de pensamiento de lenguaje y sentido común, incluso cuando se les presentan pruebas comparativamente fáciles.

Características clave:

  • Más potente sin costo adicional
  • No hay medios confiables para
  • Aprendizaje de modelos globales
  • Sobresale en más cosas que los humanos
  • No hay un método confiable para influir en las acciones de las personas.
  • El comportamiento impredecible puede surgir.
  • Las conversaciones cortas pueden ser engañosas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Ajuste fino rápido y rentable de LLaMA 2 con AWS Trainium

Los grandes modelos de lenguaje (LLMs) han capturado la imaginación y la atención de desarrolladores, científicos, te...

Inteligencia Artificial

Mejorando la Sumarización de GPT-4 a través de una Cadena de Indicaciones de Densidad

Los Modelos de Lenguaje Grandes han ganado mucha atención en los últimos tiempos debido a sus excelentes capacidades....

Inteligencia Artificial

Revolucionando la protección del arte digital una nueva herramienta para combatir el raspado no autorizado por IA de la web

Ha surgido un problema apremiante en el arte y la expresión creativa, ya que los artistas luchan contra la apropiació...

Inteligencia Artificial

Este artículo de IA de GSAi China presenta un estudio exhaustivo de agentes autónomos basados en LLM

Los agentes autónomos representan sistemas autooperativos que exhiben diferentes grados de independencia. Investigaci...

Noticias de Inteligencia Artificial

¡No más trampas! ¡Sapia.ai detecta respuestas generadas por inteligencia artificial en tiempo real!

En un emocionante avance, Sapia.ai ha presentado una nueva función que puede identificar y marcar respuestas creadas ...