Conoce a ChatGLM2-6B la versión de segunda generación del modelo de chat de código abierto bilingüe (chino-inglés) ChatGLM-6B.

Meet ChatGLM2-6B, the second-generation version of the open-source bilingual (Chinese-English) chat model, ChatGLM-6B.

Desde la introducción del revolucionario ChatGPT de OpenAI, que rompió récords al obtener los 100 millones de usuarios más rápidamente para un producto, se han realizado avances considerable en el campo de los agentes de conversación de lenguaje natural. Los investigadores están explorando activamente varias técnicas y estrategias para mejorar las capacidades de los modelos de chatbot, permitiéndoles crear interacciones más naturales y cautivadoras con sus usuarios. Como resultado, se han lanzado al mercado varias alternativas de código abierto y ligeras a ChatGPT, siendo una de ellas la serie de modelos ChatGLM desarrollada por investigadores de la Universidad de Tsinghua, China. Esta serie, basada en el marco de trabajo General Language Model (GLM), difiere del grupo de LLM (modelos de lenguaje generativo pre-entrenados) GPT, que son más comúnmente vistos. La serie incluye varios modelos bilingües entrenados en chino e inglés, de los cuales el más conocido es ChatGLM-6B, que tiene 6.2 mil millones de parámetros. El modelo ha sido pre-entrenado en más de 1 billón de tokens en inglés y chino y ha sido afinado aún más para tareas de pregunta-respuesta, resumen y conversación en chino utilizando técnicas como el aprendizaje por refuerzo con retroalimentación humana.

Otra característica destacada de ChatGLM-6B es que se puede implementar localmente y requiere muy pocos recursos debido a sus técnicas de cuantización. Incluso se puede implementar localmente en tarjetas gráficas de consumo. Se ha vuelto excepcionalmente popular, especialmente en China, con más de 2 millones de descargas en todo el mundo, convirtiéndose en uno de los modelos de código abierto a gran escala más influyentes. Como resultado de su amplia adopción, los investigadores de la Universidad de Tsinghua lanzaron ChatGLM2-6B, la versión de segunda generación del modelo de chat bilingüe. ChatGLM2-6B incluye todas las fortalezas del modelo de primera generación, así como varias nuevas características agregadas, como mejoras de rendimiento, soporte para contextos más largos y una inferencia más eficiente. Además, el equipo de investigación ha extendido el uso de los pesos del modelo más allá de los propósitos académicos (como se hizo anteriormente), poniéndolos a disposición para uso comercial.

Como punto de partida, los investigadores han mejorado el modelo base de ChatGLM2-6B en comparación con la versión de primera generación. ChatGLM2-6B utiliza la función objetivo híbrida de GLM y ha sido pre-entrenado con más de 1.4 billones de tokens en inglés y chino. Los investigadores evaluaron el rendimiento de su modelo frente a otros modelos competitivos de aproximadamente el mismo tamaño en el mercado. Se reveló que ChatGLM2-6B logra mejoras de rendimiento notables en varios conjuntos de datos como MMLU, CEval, BBH, etc. Otra mejora impresionante demostrada por ChatGLM2-6B es el soporte para contextos más largos, de 2K en la versión anterior a 32K. El algoritmo FlashAttention ha sido fundamental en esto al acelerar la atención y reducir el consumo de memoria incluso para secuencias más largas en la capa de atención. Además, el modelo ha sido entrenado con una longitud de contexto de 8K durante la alineación del diálogo para ofrecer a los usuarios una mayor profundidad de conversación. ChatGLM2-6B también utiliza la técnica de Atención Multi-Consulta, logrando así un menor uso de memoria de GPU del caché KV y una velocidad de inferencia incrementada, aproximadamente del 42%, en comparación con la primera generación.

Los investigadores de la Universidad de Tsinghua han liberado ChatGLM2-6B en código abierto con la esperanza de fomentar el crecimiento y la innovación de los LLMs y desarrollar varias aplicaciones útiles basadas en el modelo. Sin embargo, los investigadores también destacan el hecho de que, debido a la escala más pequeña del modelo, sus decisiones a menudo pueden verse influenciadas por la aleatoriedad, por lo que sus resultados deben ser cuidadosamente verificados en cuanto a precisión. En cuanto al trabajo futuro, el equipo ya está trabajando en la tercera versión del modelo, ChatGLM3.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Aprendizaje automático en la prueba de software

El aprendizaje automático en pruebas de software se trata de utilizar algoritmos avanzados y enfoques basados en dato...

Inteligencia Artificial

¿Reemplazará la IA a la humanidad?

Descubramos si la inteligencia artificial es realmente inteligente y tiene el potencial de superar a los humanos.

Inteligencia Artificial

Los 6 principales casos de uso de GPT-4

Explora las aplicaciones revolucionarias de GPT-4 en diversas industrias, desde la creación de contenido hasta la ate...

Inteligencia Artificial

Proyecto de ley bipartidista propone un panel de expertos para abordar los riesgos y regulaciones de la inteligencia artificial.

El Representante Ted Lieu (D-CA) está liderando el esfuerzo para brindar al Congreso la experiencia necesaria para co...

Inteligencia Artificial

Empleado de Shopify revela despidos impulsados por IA y crisis en el servicio al cliente

En una revelación impactante en Twitter, un valiente empleado de Shopify ha roto su acuerdo de confidencialidad (NDA)...