El equipo de Estabilidad AI presenta FreeWilly1 y FreeWilly2 Nuevos Modelos de Lenguaje de Acceso Abierto y Gran Tamaño (LLMs)
El equipo de Estabilidad AI presenta FreeWilly1 y FreeWilly2, nuevos LLMs de acceso abierto y gran tamaño.
FreeWilly1 y su sucesor FreeWilly2 son nuevos y potentes modelos de lenguaje de código abierto (LLMs) desarrollados por el equipo CarperAI de Stability AI. Ambos modelos tienen un rendimiento excepcional en competencias de razonamiento utilizando diferentes métricas. Se utilizó el ajuste supervisado (SFT) en el formato estándar de la industria Alpaca para ajustar el modelo FreeWilly1, construido sobre el modelo base LLaMA 65B original. FreeWilly2 utiliza el modelo base LLaMA 2 70B para lograr un rendimiento similar al de GPT-3.5 en algunas tareas.
El entrenamiento de los modelos FreeWilly fue fuertemente influenciado por el enfoque innovador de Microsoft, descrito en el artículo “Orca: Aprendizaje progresivo a partir de trazas de explicación complejas de GPT-4”. El equipo proporcionó instrucciones de alta calidad a los modelos de lenguaje para generar nuestra copia del conjunto de datos, que contiene 600,000 puntos de datos (aproximadamente el 10% del tamaño del conjunto de datos utilizado en el trabajo original de Orca).
Utilizando este método, los investigadores generaron 500,000 casos utilizando un modelo de LLM menos complejo y 100,000 adicionales utilizando un modelo de LLM más complejo. Estos conjuntos de datos fueron minuciosamente examinados, eliminando los casos provenientes de las evaluaciones de referencia para garantizar comparaciones válidas. Su enfoque de conjuntos de datos generados sintéticamente se valida mediante el excelente rendimiento de los modelos FreeWilly en múltiples evaluaciones, a pesar de haber sido entrenados con sólo una décima parte del tamaño de muestra utilizado en el artículo original de Orca.
- Llama-2, GPT-4 o Claude-2; ¿Cuál es el mejor modelo de lenguaje de inteligencia artificial?
- La Iniciativa ‘Encontrando Neuronas en un Pajar’ en el MIT, Harvard y la Universidad Northeastern Emplea la Exploración Escasa.
- Conozca Prompt Diffusion Un marco de inteligencia artificial para permitir el aprendizaje en contexto en modelos generativos basados en difusión
Los investigadores utilizaron el marco de evaluación lm-eval-harness de EleutherAI, al cual agregaron AGIEval, para realizar evaluaciones de estos modelos. Los resultados muestran que ambos modelos FreeWilly son excelentes al resolver problemas difíciles en disciplinas especializadas como el derecho y las matemáticas, realizar razonamientos complejos y reconocer matices del lenguaje.
El equipo cree que estos dos modelos mejoran nuestra capacidad para comprender el lenguaje hablado y abren posibilidades que antes eran imposibles. Esperan ver todos los usos innovadores de estos modelos en la inteligencia artificial.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ¿Pueden los LLM ejecutarse de forma nativa en tu iPhone? Conoce MLC-LLM un marco abierto que permite llevar los modelos de lenguaje (LLMs) directamente a una amplia clase de plataformas con aceleración de GPU.
- Conoce a TxGNN un nuevo modelo que utiliza el aprendizaje profundo geométrico y la inteligencia artificial centrada en el ser humano para hacer predicciones sin entrenamiento sobre el uso terapéutico en una amplia gama de 17,080 enfermedades.
- Cuidado con las sombras IA y patrones oscuros en nuestra vida digital
- Cómo realizar un seguimiento y visualizar experimentos de aprendizaje automático utilizando MLflow
- Gratis de Google Ruta de Aprendizaje de IA Generativa
- ¿En qué te has alimentado? Este modelo de IA puede extraer datos de entrenamiento de modelos de difusión
- Inteligencia Artificial Explicativa (IAE)