Conoce a Baichuan-13B el modelo de lenguaje de código abierto de China para competir con OpenAI
Baichuan-13B es el modelo de lenguaje de código abierto de China para competir con OpenAI.
Wang Xiaochuan, el fundador del motor de búsqueda chino Sogou, ha lanzado un nuevo modelo de lenguaje enorme llamado Baichuan-13B a través de su empresa, Baichuan Intelligence. Actualmente, su uso comercial está restringido a programadores e investigadores. El fundador de Sogou, Wang Xiaochuan, publicó recientemente en Weibo que “China necesita su propio OpenAI”. El empresario chino está un paso más cerca de hacer realidad su visión después de que su incipiente empresa, Baichuan Intelligence, lanzara Baichuan-13B, su modelo de lenguaje grande de próxima generación. Baichuan se lanzó hace tres meses y rápidamente atrajo a un grupo de inversores dispuestos a aportar $50 millones. Como resultado de las habilidades excepcionales del fundador en ciencias de la computación, su organización es ahora considerada uno de los creadores más prometedores de modelos de lenguaje enormes de China.
Baichuan-13B sigue el mismo diseño Transformer que GPT y la mayoría de las variantes chinas autóctonas. Además de entrenarse con datos en chino e inglés, sus 13 mil millones de parámetros (variables utilizadas en la producción y análisis de texto) son bilingües. El modelo es de código abierto y puede utilizarse con fines de lucro, y se construyó utilizando datos de GitHub.
Después del éxito de Baichuan-7B, Baichuan Intelligent Technology creó Baichuan-13B, un modelo de lenguaje de gran escala de código abierto y disponible comercialmente con 13 mil millones de parámetros. En comparación con otros modelos de tamaño similar, supera las normas chinas y en inglés. Esta versión incluye tanto la versión base (Baichuan-13B-Base) como la versión de diálogo (Baichuan-13B-Chat).
- Herramientas de Inteligencia Artificial de Conversión de Voz a Texto principales (2023)
- El equipo de Estabilidad AI presenta FreeWilly1 y FreeWilly2 Nuevos Modelos de Lenguaje de Acceso Abierto y Gran Tamaño (LLMs)
- Llama-2, GPT-4 o Claude-2; ¿Cuál es el mejor modelo de lenguaje de inteligencia artificial?
Características
- Baichuan-13B se basa en Baichuan-7B aumentando el número de parámetros a 13 mil millones, y se han entrenado 1.4 billones de tokens en corpora de alta calidad, lo cual es un 40% más que LLaMA-13B. Actualmente, en el tamaño de 13B de código abierto, es el modelo con más datos de entrenamiento. Utiliza codificación posicional ALiBi y una ventana de contexto de 4096 bytes, y funciona en chino e inglés.
- El modelo de pre-entrenamiento sirve como una “base” para los desarrolladores, mientras que el modelo alineado con características de diálogo es más demandado entre los usuarios regulares. Por lo tanto, esta versión de código abierto incluye el modelo alineado (Baichuan-13B-Chat), que cuenta con potentes características de diálogo, está listo para usar y solo requiere unas pocas líneas de código para implementarlo.
- También se están poniendo a disposición de los investigadores versiones cuantizadas int8 e int4, que son aún más eficientes para la inferencia, para fomentar su uso generalizado por los usuarios. Pueden implementarse en tarjetas gráficas de consumo como Nvidia 3090, pero la versión no cuantizada requiere hardware significativamente más potente.
- Gratis para uso público sin restricciones de reventa o modificación: si un desarrollador solicita una licencia comercial oficial por correo electrónico, puede utilizar Baichuan-13B con fines comerciales sin costo alguno.
Se están utilizando aproximadamente 1.4 mil millones de tokens para entrenar a Baichuan-13. Según OpenAI, ChatGPT-3 supuestamente se entrenó con 300 mil millones de tokens. El equipo de Baichuan duplicó su tamaño en tres meses, llegando a cincuenta miembros, y demostró públicamente su modelo, Baichuan-7B, que tiene siete mil millones de parámetros, el mes pasado. La versión Baichuan-13B, lanzada hace dos días, es la versión básica. Ahora se ofrece de forma gratuita a investigadores y programadores que han obtenido autorización legal para utilizarlo con fines comerciales. El futuro del lanzamiento oficial del modelo para uso generalizado aún está por descubrirse.
El modelo básico Baichuan-13B ahora está disponible de forma gratuita para investigadores y programadores que han obtenido las autorizaciones legales necesarias para utilizarlo con fines comerciales. Dado las recientes restricciones de Estados Unidos contra los fabricantes chinos de chips de inteligencia artificial (IA), es especialmente notable que las variantes de este modelo puedan ejecutarse en hardware de consumo como las tarjetas gráficas Nvidia 3090.
Los investigadores de Baichuan Intelligent Technology confirman que su grupo aún no ha creado aplicaciones basadas en Baichuan-13B para ninguna plataforma, incluyendo iOS, Android, la web u otras. Se insta a los usuarios a no utilizar el modelo Baichuan-13B para fines ilegales o perjudiciales, como comprometer la seguridad nacional o social. También se anima a los usuarios a abstenerse de utilizar el modelo Baichuan-13B para servicios de Internet sin las auditorías de seguridad y los registros necesarios. Cuentan con que todos sigan esta regla para mantener el progreso tecnológico dentro de los límites de la ley.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- La Iniciativa ‘Encontrando Neuronas en un Pajar’ en el MIT, Harvard y la Universidad Northeastern Emplea la Exploración Escasa.
- Conozca Prompt Diffusion Un marco de inteligencia artificial para permitir el aprendizaje en contexto en modelos generativos basados en difusión
- ¿Pueden los LLM ejecutarse de forma nativa en tu iPhone? Conoce MLC-LLM un marco abierto que permite llevar los modelos de lenguaje (LLMs) directamente a una amplia clase de plataformas con aceleración de GPU.
- Conoce a TxGNN un nuevo modelo que utiliza el aprendizaje profundo geométrico y la inteligencia artificial centrada en el ser humano para hacer predicciones sin entrenamiento sobre el uso terapéutico en una amplia gama de 17,080 enfermedades.
- Cuidado con las sombras IA y patrones oscuros en nuestra vida digital
- Cómo realizar un seguimiento y visualizar experimentos de aprendizaje automático utilizando MLflow
- Gratis de Google Ruta de Aprendizaje de IA Generativa