Investigadores de UC Berkeley presentan Starling-7B un Modelo de Lenguaje Amplio (LLM) Abierto entrenado mediante Aprendizaje por Reforzamiento a partir de Retroalimentación de IA (ARIA).
Los investigadores de UC Berkeley presentan Starling-7B un modelo de lenguaje amplio abierto (LLM) entrenado por Aprendizaje por Reforzamiento a través de Retroalimentación de IA (ARIA).
Los Modelos de Lenguaje Grandes (LLMs) son modelos de inteligencia artificial para tareas de procesamiento de lenguaje natural. Estos modelos se entrenan con conjuntos de datos masivos y pueden entender y generar texto similar al humano. Han transformado el procesamiento de lenguaje natural con su capacidad para comprender y desarrollar texto similar al humano. La utilidad está presente en todos los ámbitos de la vida.
Los investigadores de UC Berkeley han introducido Starling-7B, un modelo de lenguaje grande (LLM) abierto entrenado mediante Aprendizaje por Refuerzo a partir de la Retroalimentación de la Inteligencia Artificial (RLAIF). El modelo aprovecha las capacidades de nuestro recientemente desarrollado entrenamiento de recompensa y canalización de ajuste de políticas, nuestro nuevo conjunto de datos etiquetados GPT-4, Nectar, y una canalización de entrenamiento de recompensa y ajuste de políticas de vanguardia.
![](https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-04-at-12.47.00-AM-1024x456.png)
La base de Starling-7B radica en el conjunto de datos etiquetados GPT-4, Nectar. Cuenta con 183.000 ejemplos de chat, y cada ejemplo presenta siete respuestas de varios modelos como GPT-4, GPT-3.5-instruct, GPT-3.5-turbo, Mistral-7B-Instruct y Llama2-7B, lo que da lugar a extensas 3,8 millones de comparaciones en pares. Para garantizar la imparcialidad, los investigadores dedicaron un considerable esfuerzo a mitigar el sesgo posicional al solicitar clasificaciones a GPT-4, un proceso detallado minuciosamente en la sección de conjunto de datos.
- ¿Cuál es la importancia de la cultura de datos en las organizaciones?
- OpenAI se prepara para el lanzamiento de GPT-6 y GPT-7 Aplicación de marcas registradas en China
- ChatGPT Essentials La hoja de trucos de Ciencia de Datos que necesitas
![](https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-04-at-12.47.41-AM-1024x880.png)
Utilizaron un modelo de recompensa de aprendizaje para refinar el modelo de lenguaje Openchat 3.5 y encontraron resultados impresionantes. La puntuación AlpacaEval aumentó de 88,51% a 91,99%, mientras que la puntuación MT-Bench aumentó de 7,81 a 8,09. Estas métricas funcionan como estándares para evaluar la utilidad del chatbot.
Los investigadores probaron el modelo con modelos de código abierto anteriores como Zephyra-7B, Neural-Chat-7B y Tulu-2-DPO-70B, utilizando la Optimización de Preferencia Directa (DPO). Si bien estos modelos tuvieron un buen desempeño en Chatbot Arena, no pudieron aprovechar todo el potencial de RLHF en comparación con los mejores modelos SFT como OpenHermes 2.5 y Openchat 3.5 en MT Bench.
Los investigadores enfatizaron que el modelo tiene ciertos desafíos. Es susceptible a métodos engañosos o manipulativos. Además, el modelo tiene dificultades con tareas matemáticas o de razonamiento, y la exactitud factual de sus resultados solo está garantizada en ocasiones. También señalaron que el modelo a veces puede ser demasiado verborrágico y susceptible a la manipulación de los comandos. Dijeron que estas fallas están dedicadas a mejorar Starling-7B.
Para abordar este problema, propusieron refinar aún más el modelo utilizando modelos de recompensa basados en reglas, en los que GPT-4 sirve como guía, utilizando las técnicas descritas en el Informe Técnico de GPT-4.
En conclusión, Starling-7B representa un avance significativo en los LLMs e ilustra las posibilidades del Aprendizaje por Refuerzo a través de la Retroalimentación de la Inteligencia Artificial. El campo del procesamiento de lenguaje natural se está mejorando gracias a la colaboración entre estos modelos y el conocimiento compartido de la comunidad. Los investigadores están trabajando para mejorar el rendimiento del modelo y solucionar las limitaciones.
El artículo UC Berkeley Researchers Introduce Starling-7B: An Open Large Language Model (LLM) Trained by Reinforcement Learning from AI Feedback (RLAIF) apareció primero en MarkTechPost.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- DeepSeek abre el código fuente del modelo DeepSeek-67B El último rival del ChatGPT proveniente de China
- Gran noticia Google retrasa el lanzamiento del modelo de IA Gemini
- Investigadores de CMU descubren ideas clave sobre el comportamiento de las redes neuronales la interacción entre datos de distribución pesada y la profundidad de la red en la formación de la dinámica de optimización
- Este artículo de IA publica una revisión detallada de los modelos de lenguaje de código abierto a gran escala que afirman alcanzar o superar a ChatGPT en diferentes tareas.
- Perplejidad revela dos nuevos modelos de LLM en línea ‘pplx-7b-online’ y ‘pplx-70b-online
- LLM y GNN Cómo mejorar el razonamiento de ambos sistemas de IA en datos de gráficos
- Buenos ingenieros, malos ingenieros y ingenieros malvados una anécdota para líderes de datos