Stability AI ha lanzado Beluga 1 y Stable Beluga 2, nuevos LLM de acceso abierto.

En un nuevo blog, Stability AI y su laboratorio CarperAI presentaron Stable Beluga 1 y su sucesor, Stable Beluga 2 (anteriormente conocido como FreeWilly). Según su publicación, el objetivo de estos dos Modelos de Lenguaje Grande es expandir y crear un nuevo estándar para la investigación de IA de acceso abierto.

Stable Beluga 1 se basa en los cimientos del modelo LLaMA 65B. Se ajusta con un nuevo conjunto de datos generado sintéticamente utilizando Fine-Tune Supervisado (SFT) en el formato estándar Alpaca. Del mismo modo, Stable Beluga 2 aprovecha el poder del modelo base LLaMA 2 70B. Según la publicación, esto le otorga un rendimiento líder en la industria.

Ambos modelos surgieron como experimentos de investigación convincentes para impulsar iniciativas de investigación abierta bajo una licencia no comercial. El equipo interno se aseguró de que ambos modelos sean “educados y benignos en su naturaleza”. Pero también esperan que la comunidad ayude y participe en pruebas adicionales.

El proceso de generación y recopilación de datos para los modelos Stable Beluga se inspira en la metodología de Microsoft descrita en el artículo “Orca: Aprendizaje progresivo a partir de trazas de explicación complejas de GPT-4”. En la publicación, mencionaron que su proceso era similar, pero el equipo tomó otro enfoque en cuanto a las fuentes de datos.

Luego mencionaron que el conjunto de datos sintético contiene 600,000 puntos de datos. Se curó a partir de instrucciones de alta calidad y es una variante de los conjuntos de datos de Enrico Shippole:

COT Submix Original
NIV2 Submix Original
FLAN 2021 Submix Original
T0 Submix Original

Más adelante en la publicación, mencionaron que el filtrado de estos conjuntos de datos eliminó ejemplos de los puntos de referencia de evaluación. Según ellos, fue para garantizar una competencia justa. A pesar de entrenar con una fracción de los datos utilizados en el artículo original de Orca, los modelos Stable Beluga pudieron mostrar un rendimiento notable en diversos puntos de referencia. En la opinión de Stability AI, esto validó su enfoque en conjuntos de datos generados sintéticamente.

Finalmente, la publicación mencionó que Hugging Face pudo validar las métricas de ambos modelos Beluga. Los resultados luego se publicaron en su Open LLM Leaderboard (tabla de clasificación). Actualmente, Stable Beluga 2 ocupa el segundo lugar, mientras que Stable Beluga 1 ocupa el séptimo lugar.

Nota del editor: El Aprendizaje Profundo se está convirtiendo en un tema crítico en el futuro del desarrollo de la IA, y si deseas estar a la vanguardia de los últimos avances, debes escuchar a los líderes de la industria que lideran el camino. Obtendrás eso en la pista de Aprendizaje Profundo y Aprendizaje Automático de ODSC West 2023. Reserva tu lugar y regístrate hoy.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Stability AI ha lanzado Beluga 1 y Stable Beluga 2, nuevos LLM de acceso abierto.

Was this article helpful?

Automatiza la creación de subtítulos y la búsqueda de imágenes a escala empresarial utilizando la inteligencia artificial generativa y Amazon Kendra

Registro KYC ahora hecho fácil usando IA

Inteligencia Artificial

ChatGPT Plus Desata Emocionantes Nuevas Funciones para Entusiastas de los Datos

Una nueva investigación de inteligencia artificial propone un razonamiento multimodal de cadena de pensamiento en modelos de lenguaje que supera a GPT-3.5 en un 16% (75,17% → 91,68%) en ScienceQA.

Investigadores de UCLA presentan 'Reformular y Responder' (RaR) un nuevo método de inteligencia artificial que mejora la comprensión de las LLMs de las preguntas humanas

Confrontación de modelos de chat GPT-4 vs GPT-3.5 vs LLaMA-2 en un debate simulado - Parte 1

La influencia oculta de la contaminación de datos en los grandes modelos de lenguaje

Meta AI anuncia Purple Llama para ayudar a la comunidad a construir de manera ética con modelos de IA abiertos y generativos.