Conoce a Baichuan 2 Una serie de modelos de lenguaje multilingües a gran escala que contienen 7B y 13B de parámetros, entrenados desde cero, con 2.6T tokens.

Baichuan 2 es una serie de modelos de lenguaje multilingües a gran escala con 7B y 13B de parámetros, entrenados desde cero con 2.6T tokens.

Los modelos de lenguaje grandes han experimentado avances significativos y alentadores en los últimos años. Los modelos de lenguaje ahora tienen miles de millones e incluso billones de parámetros, como GPT3, PaLM y Switch Transformers, en comparación con millones en modelos anteriores como ELMo y GPT-1. Con una fluidez similar a la humana y la capacidad de llevar a cabo una amplia variedad de actividades de lenguaje natural, las capacidades de los modelos de lenguaje han mejorado considerablemente debido a este crecimiento en tamaño. La capacidad de estos modelos para producir texto que suena como el habla humana ha ganado considerable atención pública con el lanzamiento de ChatGPT de OpenAI. ChatGPT tiene grandes habilidades lingüísticas en diversos contextos, desde conversaciones informales hasta la clarificación de ideas difíciles. 

Esta innovación muestra cómo se pueden utilizar modelos de lenguaje enormes para automatizar procesos que requieren la creación y comprensión de lenguaje natural. Aunque ha habido desarrollos innovadores y usos para los LLM, la mayoría de los principales LLM, como GPT-4, PaLM-2 y Claude, siguen siendo de código cerrado. Debido a que los desarrolladores e investigadores solo tienen acceso parcial a los parámetros del modelo, es difícil para la comunidad analizar u optimizar estos sistemas de manera exhaustiva. La investigación y el progreso responsable en este campo en rápido desarrollo podrían acelerarse con mayor apertura y transparencia en torno a los LLM. LLaMA, una colección de grandes modelos de lenguaje creados por Meta y con hasta 65 mil millones de parámetros, ha ayudado en gran medida a la comunidad de investigación de LLM al ser completamente de código abierto. 

Junto con otros LLM de código abierto como OPT, Bloom, MPT y Falcon, el diseño abierto de LLaMA permite a los académicos acceder libremente a los modelos para su análisis, prueba y desarrollo futuro. Esta accesibilidad y apertura distinguen a LLaMA de otros LLM privados. Alpaca, Vicuña y otros modelos novedosos han sido posibles gracias a la investigación y desarrollo más rápidos de los LLM de código abierto en el campo. Sin embargo, el inglés ha sido el enfoque principal de la mayoría de los grandes modelos de lenguaje de código abierto. Por ejemplo, Common Crawl1 es la principal fuente de datos para LLaMA y contiene el 67% de los datos de preentrenamiento, pero solo se permite contenido en inglés. Otros LLM de código libre con capacidades limitadas en diferentes idiomas, como MPT y Falcon, se centran principalmente en el inglés.

Esto dificulta el desarrollo y uso de LLM en ciertos idiomas, como el chino. En este estudio técnico, los investigadores de Baichuan Inc. presentan Baichuan 2, un grupo de modelos de lenguaje multilingües extensos. Baichuan 2 cuenta con dos modelos distintos: Baichuan 2-13B y Baichuan 2-7B, cada uno con 13 mil millones de parámetros. Ambos modelos se probaron utilizando 2,6 billones de tokens, que es más del doble que Baichuan 1 y es el tamaño de muestra más grande conocido por ellos. Baichuan 2 supera significativamente a Baichuan 1 con una gran cantidad de datos de entrenamiento. Baichuan 2-7B tiene un rendimiento aproximadamente un 30% mejor que Baichuan 1-7B en pruebas comunes, como MMLU, CMMLU y C-Eval. Baichuan 2 está específicamente optimizado para mejorar el rendimiento en problemas de matemáticas y codificación. 

Baichuan 2 duplica aproximadamente los resultados de Baichuan 1 en las pruebas de GSM8K y HumanEval. Además, Baichuan 2 se desempeña bien en tareas en los campos médico y legal. Baichuan 2 supera a otros modelos de código abierto en pruebas como MedQA y JEC-QA, lo que lo convierte en un buen modelo de base para la optimización específica del dominio. También crearon dos modelos de chat para cumplir con instrucciones humanas: Baichuan 2-7B-Chat y Baichuan 2-13B-Chat. Estos modelos son excelentes para comprender el discurso y el contexto. Se detallarán más sus estrategias para mejorar la seguridad de Baichuan 2. Al hacer que estos modelos sean de código abierto, la comunidad podría aumentar aún más la seguridad de los grandes modelos de lenguaje mientras fomenta un mayor estudio sobre la creación responsable de LLM. 

Además, están lanzando los puntos de control de Baichuan 2 en varios niveles de entrenamiento, desde 200 mil millones de tokens hasta los 2,6 billones de tokens completos, en aras de la colaboración en la investigación y el progreso continuo. Descubrieron que el rendimiento seguía mejorando incluso con el modelo de 7 mil millones de parámetros después de entrenar con más de 2,6 billones de tokens. Pretenden brindar a la comunidad una mayor comprensión de la dinámica de entrenamiento de Baichuan 2 al difundir estos hallazgos provisionales. El descubrimiento de los mecanismos subyacentes de los grandes modelos de lenguaje requiere comprender estas dinámicas. La publicación de estos puntos de control abrirá nuevas oportunidades de desarrollo en esta área en rápida evolución. Los modelos de chat y de base de Baichuan 2 están disponibles en GitHub para fines de estudio y comerciales. 

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

15+ Herramientas de IA para Desarrolladores (Diciembre 2023)

GitHub Copilot GitHub Copilot se destaca como un asistente de codificación impulsado por IA líder en el mercado. Dise...

Inteligencia Artificial

Generar un texto rico en información para una interfaz cruzada sólida en LLMs con de-difusión

El fenómeno global de los productos LLM (Modelos de Lenguaje Grande), ejemplificado por la amplia adopción de ChatGPT...

Inteligencia Artificial

Spotify adopta la IA desde listas de reproducción personalizadas hasta anuncios de audio

La popular plataforma de música en streaming, Spotify, ha estado a la vanguardia de la tecnología, explorando continu...

Inteligencia Artificial

Investigadores de Microsoft proponen PIT (Transformación Permutación Invariante) un compilador de aprendizaje profundo para la escasez dinámica.

Recientemente, el aprendizaje profundo se ha caracterizado por un aumento en la investigación orientada a optimizar m...