MosaicML acaba de lanzar su MPT-30B bajo la licencia Apache 2.0.

MosaicML ha lanzado MPT-30B bajo licencia Apache 2.0.

Después del gran éxito de MosaicML-7B, MosaicML ha vuelto a superar el referente que ellos mismos habían establecido anteriormente. En el nuevo lanzamiento revolucionario, MosaicML ha lanzado MosaicML-30B.

MosaicML es un transformador preentrenado muy preciso y potente. MosaicML afirma que MosaicML-30B es aún mejor que ChatGPT3.

Antes del lanzamiento de MosaicML-30B, MosaicML-7B había causado sensación en el mundo de la IA. MPT-7B Base-instruct, base-chat y la escritura de historias fueron grandes éxitos. La compañía ha afirmado que estos modelos se descargaron más de 3 millones de veces en todo el mundo. Una de las principales razones para impulsar un motor aún mejor, que MosaicML ha logrado con MPT-30B, fue la locura de la comunidad por los modelos que lanzaron anteriormente.

Fue increíble cómo la comunidad se adaptó y utilizó estos motores MPT para construir algo mejor ajustado y servir casos de uso concretos. Algunos de los casos interesantes son LLaVA-MPT. LLaVa-MPT añade comprensión de la visión a MPT-7B preentrenado.

De manera similar, GGML optimiza los motores MPT para que funcionen mejor en Apple Silicon y CPUs. GPT4ALL es otro caso de uso que te permite ejecutar una opción de chat similar a GPT4 con MPT como motor base.

Cuando observamos de cerca, una de las principales razones por las que MosaicML es tan superior y aparentemente tiene ventaja al ofrecer una dura competencia y una mejor alternativa a las grandes empresas es la lista de características competitivas que ofrecen y la capacidad de adaptación de sus modelos a diferentes casos de uso con una integración comparativamente fácil.

En este lanzamiento, MosaicML también afirmó que su MPT-30B supera a ChatGPT3 existente con aproximadamente un tercio de los parámetros que utiliza ChatGPT, lo que lo convierte en un modelo extremadamente ligero en comparación con las soluciones generativas existentes.

Es mejor que el MPT-7B existente de MosaicML, y este MPT-30B está disponible para uso comercial bajo una licencia comercial.

No solo eso, sino que el MPT-30B viene con dos modelos preentrenados, que son MPT-30B-Instruct y MPT-30B-Chat, que son capaces de verse influenciados por una sola instrucción y son bastante capaces de seguir una conversación de múltiples turnos durante más tiempo.

Las razones para que sea mejor continúan. MosaicML ha diseñado el MPT-30B para que sea un modelo mejor y más robusto desde un enfoque de abajo hacia arriba, asegurándose de que cada pieza móvil funcione mejor y de manera más eficiente. El MPT-30B ha sido entrenado con una ventana de contexto de 8k tokens. Admite contextos más largos a través de ALiBi.

Ha mejorado su rendimiento de entrenamiento e inferencia con la ayuda de FlashAttention. El MPT-30B también está equipado con habilidades de codificación más fuertes, gracias a la diversidad de los datos que han abordado. Este modelo se extendió a una ventana de contexto de 8K en el H100 de Nvidia. La compañía afirma que este, según su conocimiento, es el primer modelo LLM entrenado en H100s, que están disponibles para los clientes.

MosaicML también ha mantenido el modelo ligero, lo que ayuda a las organizaciones emergentes a mantener bajos los costos operativos.

El tamaño del MPT-30B también se eligió específicamente para facilitar su implementación en una sola GPU. El sistema puede ejecutarse en 1xA100-80GB en precisión de 16 bits o en 1xA100-40GB en precisión de 8 bits. Otros LLM comparables, como Falcon-40B, tienen un recuento de parámetros más grande y no se pueden utilizar en una sola GPU de centro de datos (hoy en día); esto requiere 2+ GPUs, lo que aumenta el costo mínimo del sistema de inferencia.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

Series de tiempo para el cambio climático Pronóstico de demanda origen-destino

La minería de datos de vehículos en movimiento es una tarea clave en los sistemas de transporte inteligentes. Los dat...

Noticias de Inteligencia Artificial

'AI Doctor' predice la readmisión en hospitales y otros resultados de salud.

Los investigadores inventaron un algoritmo de inteligencia artificial para predecir los resultados de salud de los pa...

Aprendizaje Automático

Rendimiento sobrehumano en la prueba Atari 100K El poder de BBF - Un nuevo agente de RL basado en valores de Google DeepMind, Mila y la Universidad de Montreal.

El aprendizaje por refuerzo profundo (RL) ha surgido como un algoritmo de aprendizaje automático poderoso para aborda...

Aprendizaje Automático

Más allá de NeRFs (Parte Dos)

En el ámbito de la representación y el renderizado de escenas 3D, los campos de radiance neural (NeRFs) proporcionaro...