Mistral AI presenta Mixtral 8x7B un potente modelo disperso de mezcla de expertos

Mistral AI presenta Mixtral 8x7B un potente modelo disperso de mezcla de expertos

En un movimiento hacia el avance de la inteligencia artificial, Mistral AI, pionero en la entrega de modelos abiertos de vanguardia, ha presentado Mixtral 8x7B. Este modelo de mezcla de expertos dispersos (SMoE) de alta calidad con pesos abiertos marca un salto significativo en el campo. Alejándose de las arquitecturas y paradigmas de entrenamiento convencionales, Mistral AI tiene como objetivo empoderar a la comunidad de desarrolladores con modelos originales, fomentando la innovación y diversas aplicaciones.

Resumen de Mixtral 8x7B

Mixtral 8x7B emerge como un modelo solo de decodificador, aprovechando una red de mezcla de expertos dispersos. Con un conjunto de 8 grupos de parámetros distintos, el bloque de avance dinámicamente selecciona dos expertos en cada capa para procesar tokens, combinando sus salidas de manera aditiva. Este enfoque innovador aumenta el número de parámetros del modelo a 46.7B, al mismo tiempo que mantiene un control de costo y latencia, operando a la velocidad y eficiencia de costo de un modelo de 12.9B.

Empujando los límites con arquitecturas dispersas

Mistral AI pionera en el uso de arquitecturas dispersas con Mixtral, demostrando un compromiso con empujar los límites de los modelos abiertos. La red de enrutadores en Mixtral procesa eficientemente los datos de entrada, seleccionando grupos específicos de parámetros por token. Esta utilización estratégica de parámetros mejora el rendimiento sin comprometer velocidad o costo, haciendo de Mixtral un competidor formidable en el panorama de la IA.

Métricas de rendimiento

Mixtral es puesto a prueba contra los modelos Llama 2 y el modelo base GPT3.5. Los resultados muestran el poder de Mixtral, superando a Llama 2 70B y igualando o superando a GPT3.5 en varios puntos de referencia. El gráfico de calidad versus presupuesto de inferencia ilustra la eficiencia de Mixtral 8x7B, ubicándolo entre modelos altamente eficientes en comparación con los modelos Llama 2.

Alucinación, Sesgos y Dominio del Lenguaje

Un análisis crítico del rendimiento de Mixtral revela sus fortalezas en TruthfulQA, BBQ y los puntos de referencia BOLD. En comparación con Llama 2, Mixtral muestra una mayor veracidad y un sesgo reducido. El modelo demuestra competencia en múltiples idiomas, incluyendo francés, alemán, español, italiano e inglés.

También puedes leer: De GPT a Mistral-7B: El emocionante salto adelante en las conversaciones de IA

Nuestra Opinión

Mixtral 8x7B de Mistral AI no solo establece un nuevo estándar para los modelos abiertos, sino que también aborda consideraciones éticas. Al identificar y medir activamente las alucinaciones, los sesgos y el sentimiento, Mistral AI demuestra su compromiso con la mejora del modelo mediante el ajuste fino y la modelización de preferencias. El lanzamiento de Mixtral 8x7B Instruct enfatiza aún más la dedicación de Mistral AI para proporcionar un modelo de código abierto versátil, de alto rendimiento y ético.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Los robots submarinos podrían abrir paso a un futuro de alta tecnología para la minería en aguas profundas

Renee Grogan, desarrolladora de soluciones mineras en Impossible Metals, visualiza a los robots submarinos como clave...

Ciencia de Datos

El modelo de inteligencia artificial de NVIDIA para salvar la Tierra, obtiene financiamiento de la NASA.

Es impresionante ver las lluvias de meteoros iluminar el cielo nocturno. Sin embargo, la amenaza de objetos celestes ...

Inteligencia Artificial

Abriendo la caja negra

Los investigadores esperan permitir a los científicos y diseñadores de procesadores comprender el razonamiento subyac...