MosaicML acaba de lanzar su MPT-30B bajo la licencia Apache 2.0.
MosaicML ha lanzado MPT-30B bajo licencia Apache 2.0.
Después del gran éxito de MosaicML-7B, MosaicML ha vuelto a superar el referente que ellos mismos habían establecido anteriormente. En el nuevo lanzamiento revolucionario, MosaicML ha lanzado MosaicML-30B.
MosaicML es un transformador preentrenado muy preciso y potente. MosaicML afirma que MosaicML-30B es aún mejor que ChatGPT3.
Antes del lanzamiento de MosaicML-30B, MosaicML-7B había causado sensación en el mundo de la IA. MPT-7B Base-instruct, base-chat y la escritura de historias fueron grandes éxitos. La compañía ha afirmado que estos modelos se descargaron más de 3 millones de veces en todo el mundo. Una de las principales razones para impulsar un motor aún mejor, que MosaicML ha logrado con MPT-30B, fue la locura de la comunidad por los modelos que lanzaron anteriormente.
- ¿Qué es Machine Learning como Servicio? Beneficios y principales plataformas de MLaaS.
- Las GPUs NVIDIA H100 establecen el estándar para la IA generativa en el primer benchmark MLPerf.
- La carrera para evitar el peor escenario para el aprendizaje automático
Fue increíble cómo la comunidad se adaptó y utilizó estos motores MPT para construir algo mejor ajustado y servir casos de uso concretos. Algunos de los casos interesantes son LLaVA-MPT. LLaVa-MPT añade comprensión de la visión a MPT-7B preentrenado.
De manera similar, GGML optimiza los motores MPT para que funcionen mejor en Apple Silicon y CPUs. GPT4ALL es otro caso de uso que te permite ejecutar una opción de chat similar a GPT4 con MPT como motor base.
Cuando observamos de cerca, una de las principales razones por las que MosaicML es tan superior y aparentemente tiene ventaja al ofrecer una dura competencia y una mejor alternativa a las grandes empresas es la lista de características competitivas que ofrecen y la capacidad de adaptación de sus modelos a diferentes casos de uso con una integración comparativamente fácil.
En este lanzamiento, MosaicML también afirmó que su MPT-30B supera a ChatGPT3 existente con aproximadamente un tercio de los parámetros que utiliza ChatGPT, lo que lo convierte en un modelo extremadamente ligero en comparación con las soluciones generativas existentes.
Es mejor que el MPT-7B existente de MosaicML, y este MPT-30B está disponible para uso comercial bajo una licencia comercial.
No solo eso, sino que el MPT-30B viene con dos modelos preentrenados, que son MPT-30B-Instruct y MPT-30B-Chat, que son capaces de verse influenciados por una sola instrucción y son bastante capaces de seguir una conversación de múltiples turnos durante más tiempo.
Las razones para que sea mejor continúan. MosaicML ha diseñado el MPT-30B para que sea un modelo mejor y más robusto desde un enfoque de abajo hacia arriba, asegurándose de que cada pieza móvil funcione mejor y de manera más eficiente. El MPT-30B ha sido entrenado con una ventana de contexto de 8k tokens. Admite contextos más largos a través de ALiBi.
Ha mejorado su rendimiento de entrenamiento e inferencia con la ayuda de FlashAttention. El MPT-30B también está equipado con habilidades de codificación más fuertes, gracias a la diversidad de los datos que han abordado. Este modelo se extendió a una ventana de contexto de 8K en el H100 de Nvidia. La compañía afirma que este, según su conocimiento, es el primer modelo LLM entrenado en H100s, que están disponibles para los clientes.
MosaicML también ha mantenido el modelo ligero, lo que ayuda a las organizaciones emergentes a mantener bajos los costos operativos.
El tamaño del MPT-30B también se eligió específicamente para facilitar su implementación en una sola GPU. El sistema puede ejecutarse en 1xA100-80GB en precisión de 16 bits o en 1xA100-40GB en precisión de 8 bits. Otros LLM comparables, como Falcon-40B, tienen un recuento de parámetros más grande y no se pueden utilizar en una sola GPU de centro de datos (hoy en día); esto requiere 2+ GPUs, lo que aumenta el costo mínimo del sistema de inferencia.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 8 cosas potencialmente sorprendentes que debes saber sobre los Modelos de Lenguaje Grandes (LLMs)
- Segmentación de Imágenes Eficiente utilizando PyTorch Parte 1
- Segmentación de Imágenes Eficiente Utilizando PyTorch Parte 2
- Segmentación de Imágenes Eficiente utilizando PyTorch Parte 4
- La importancia de la reproducibilidad en el aprendizaje automático
- SiMa.ai traerá el chip de inteligencia artificial más poderoso del mundo a la India.
- Toma esto y conviértelo en una marioneta digital GenMM es un modelo de IA que puede sintetizar movimiento usando un solo ejemplo.