Conoce FLM-101B Un decodificador de solo lectura de LLM de código abierto con 101 mil millones de parámetros

FLM-101B un decodificador de solo lectura de LLM de código abierto con 101 mil millones de parámetros

Últimamente, los modelos de lenguaje grandes (LLMs) están destacando en tareas de NLP y multimodalidad, pero se enfrentan a dos desafíos significativos: altos costos computacionales y dificultades para realizar evaluaciones justas. Estos costos limitan el desarrollo de LLM a unos pocos actores importantes, restringiendo la investigación y las aplicaciones. Para abordar esto, el documento presenta una estrategia de crecimiento para reducir significativamente los gastos de entrenamiento de LLM, enfatizando la necesidad de métodos de entrenamiento rentables en el campo.

Para abordar el desafío del costo de entrenamiento, los investigadores entrenan un LLM de 100B mediante la estrategia de crecimiento. El crecimiento implica que el número de parámetros no está fijo en el proceso de entrenamiento, sino que se expande desde un tamaño más pequeño a uno más grande. Con el fin de evaluar la inteligencia de los modelos de lenguaje grandes (LLMs), los investigadores han desarrollado una evaluación integral de coeficiente intelectual. Esta evaluación considera cuatro aspectos cruciales de la inteligencia:

  • Mapeo simbólico: Se prueba a los LLMs por su capacidad para generalizar a nuevos contextos utilizando un enfoque de mapeo simbólico, similar a los estudios que utilizan símbolos en lugar de etiquetas de categoría.
  • Comprensión de reglas: La evaluación determina si los LLMs pueden comprender reglas establecidas y realizar acciones en consecuencia, un aspecto clave de la inteligencia humana.
  • Extracción de patrones: Se evalúa la capacidad de los LLMs para reconocer patrones a través de la deducción y la inducción, reflejando la importancia de la extracción de patrones en diversos dominios.
  • Capacidad de anti-interferencia: Esta métrica mide la capacidad de los LLMs para mantener el rendimiento en presencia de ruido externo, resaltando el aspecto central de la inteligencia relacionado con la resistencia a la interferencia.

Las principales contribuciones de este estudio se pueden resumir esencialmente en:

  • Un logro pionero es el entrenamiento exitoso de un modelo de lenguaje grande (LLM) con más de 100 mil millones de parámetros utilizando una estrategia de crecimiento desde cero. Notablemente, esto representa el enfoque más rentable para crear un modelo de más de 100B de parámetros con un presupuesto de solo $100,000.
  • La investigación aborda varios problemas de inestabilidad en el entrenamiento de LLM a través de mejoras en los objetivos de entrenamiento de FreeLM, métodos prometedores para la optimización de hiperparámetros y la introducción de crecimiento que preserva la función. Estas mejoras metodológicas prometen a la comunidad de investigación en general.
  • Se han realizado experimentos exhaustivos, que abarcan benchmarks bien establecidos orientados al conocimiento, así como un nuevo benchmark de evaluación de coeficiente intelectual sistemático. Estos experimentos permiten comparar el modelo con modelos de referencia sólidos, demostrando el rendimiento competitivo y resiliente de FLM-101B.
  • El equipo de investigación ha realizado contribuciones significativas a la comunidad de investigación al liberar checkpoints de modelos, código, herramientas relacionadas y otros recursos. Estos activos tienen como objetivo fomentar una mayor investigación en el ámbito de los LLMs bilingües chino-inglés a escala de más de 100 mil millones de parámetros.

En general, este trabajo no solo demuestra la viabilidad del entrenamiento rentable de LLM, sino que también contribuye a un marco más robusto para evaluar la inteligencia de estos modelos, impulsando así al campo más cerca de la realización de AGI.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Noticias de Inteligencia Artificial

Multimodal AI Inteligencia Artificial que puede ver y escuchar

La inteligencia artificial (IA) ha recorrido un largo camino desde su inicio, pero hasta hace poco, sus capacidades s...

Inteligencia Artificial

Evaluando el Potencial de Conciencia en la IA Una Exploración Científica de las Propiedades Indicadoras Basadas en Teorías Neurocientíficas

La posibilidad de sistemas de IA conscientes es un tema candente en este momento. Los principales investigadores se e...

Investigación

La Administración de Biden selecciona al presidente de Google para el esfuerzo de investigación de chips.

La Casa Blanca eligió al presidente de Alphabet, John Hennessy, y a otros cuatro expertos de la industria tecnológica...

Inteligencia Artificial

Conoce GlotLID Un modelo de Identificación de Lenguaje (LID) de código abierto que admite 1665 idiomas.

En tiempos recientes, cuando la comunicación a través de las fronteras nacionales está en constante crecimiento, la i...

Inteligencia Artificial

4 gigantes tecnológicos - OpenAI, Google, Microsoft y Anthropic se unen para la IA segura

En un movimiento histórico, cuatro de los nombres más importantes en el mundo de la inteligencia artificial se unen p...