Stability AI ha lanzado Beluga 1 y Stable Beluga 2, nuevos LLM de acceso abierto.

Stability AI ha lanzado Beluga 1 y Stable Beluga 2, nuevos LLM de acceso abierto.

En un nuevo blog, Stability AI y su laboratorio CarperAI presentaron Stable Beluga 1 y su sucesor, Stable Beluga 2 (anteriormente conocido como FreeWilly). Según su publicación, el objetivo de estos dos Modelos de Lenguaje Grande es expandir y crear un nuevo estándar para la investigación de IA de acceso abierto.

Stable Beluga 1 se basa en los cimientos del modelo LLaMA 65B. Se ajusta con un nuevo conjunto de datos generado sintéticamente utilizando Fine-Tune Supervisado (SFT) en el formato estándar Alpaca. Del mismo modo, Stable Beluga 2 aprovecha el poder del modelo base LLaMA 2 70B. Según la publicación, esto le otorga un rendimiento líder en la industria.

Ambos modelos surgieron como experimentos de investigación convincentes para impulsar iniciativas de investigación abierta bajo una licencia no comercial. El equipo interno se aseguró de que ambos modelos sean “educados y benignos en su naturaleza”. Pero también esperan que la comunidad ayude y participe en pruebas adicionales.

El proceso de generación y recopilación de datos para los modelos Stable Beluga se inspira en la metodología de Microsoft descrita en el artículo “Orca: Aprendizaje progresivo a partir de trazas de explicación complejas de GPT-4”. En la publicación, mencionaron que su proceso era similar, pero el equipo tomó otro enfoque en cuanto a las fuentes de datos.

Luego mencionaron que el conjunto de datos sintético contiene 600,000 puntos de datos. Se curó a partir de instrucciones de alta calidad y es una variante de los conjuntos de datos de Enrico Shippole:

  • COT Submix Original
  • NIV2 Submix Original
  • FLAN 2021 Submix Original
  • T0 Submix Original

Más adelante en la publicación, mencionaron que el filtrado de estos conjuntos de datos eliminó ejemplos de los puntos de referencia de evaluación. Según ellos, fue para garantizar una competencia justa. A pesar de entrenar con una fracción de los datos utilizados en el artículo original de Orca, los modelos Stable Beluga pudieron mostrar un rendimiento notable en diversos puntos de referencia. En la opinión de Stability AI, esto validó su enfoque en conjuntos de datos generados sintéticamente.

Finalmente, la publicación mencionó que Hugging Face pudo validar las métricas de ambos modelos Beluga. Los resultados luego se publicaron en su Open LLM Leaderboard (tabla de clasificación). Actualmente, Stable Beluga 2 ocupa el segundo lugar, mientras que Stable Beluga 1 ocupa el séptimo lugar.

Nota del editor: El Aprendizaje Profundo se está convirtiendo en un tema crítico en el futuro del desarrollo de la IA, y si deseas estar a la vanguardia de los últimos avances, debes escuchar a los líderes de la industria que lideran el camino. Obtendrás eso en la pista de Aprendizaje Profundo y Aprendizaje Automático de ODSC West 2023. Reserva tu lugar y regístrate hoy.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

ChatGPT Plus Desata Emocionantes Nuevas Funciones para Entusiastas de los Datos

OpenAI está lanzando una versión beta que promete cambiar por completo la forma en que nos comunicamos con esta IA de...

Inteligencia Artificial

Confrontación de modelos de chat GPT-4 vs GPT-3.5 vs LLaMA-2 en un debate simulado - Parte 1

Con Meta revelando recientemente planes para construir un modelo de chat que competirá con GPT-4, y el lanzamiento de...

Inteligencia Artificial

La influencia oculta de la contaminación de datos en los grandes modelos de lenguaje

Veea los riesgos de la contaminación de datos en los Modelos de Lenguaje Extensos (LLMs). Estrategias para la detecci...

Inteligencia Artificial

Meta AI anuncia Purple Llama para ayudar a la comunidad a construir de manera ética con modelos de IA abiertos y generativos.

Gracias al éxito en el aumento de los datos, el tamaño del modelo y la capacidad computacional para la modelización d...