Investigadores de UC Berkeley presentan Starling-7B un Modelo de Lenguaje Amplio (LLM) Abierto entrenado mediante Aprendizaje por Reforzamiento a partir de Retroalimentación de IA (ARIA).

Los investigadores de UC Berkeley presentan Starling-7B un modelo de lenguaje amplio abierto (LLM) entrenado por Aprendizaje por Reforzamiento a través de Retroalimentación de IA (ARIA).

Los Modelos de Lenguaje Grandes (LLMs) son modelos de inteligencia artificial para tareas de procesamiento de lenguaje natural. Estos modelos se entrenan con conjuntos de datos masivos y pueden entender y generar texto similar al humano. Han transformado el procesamiento de lenguaje natural con su capacidad para comprender y desarrollar texto similar al humano. La utilidad está presente en todos los ámbitos de la vida.

Los investigadores de UC Berkeley han introducido Starling-7B, un modelo de lenguaje grande (LLM) abierto entrenado mediante Aprendizaje por Refuerzo a partir de la Retroalimentación de la Inteligencia Artificial (RLAIF). El modelo aprovecha las capacidades de nuestro recientemente desarrollado entrenamiento de recompensa y canalización de ajuste de políticas, nuestro nuevo conjunto de datos etiquetados GPT-4, Nectar, y una canalización de entrenamiento de recompensa y ajuste de políticas de vanguardia.

La base de Starling-7B radica en el conjunto de datos etiquetados GPT-4, Nectar. Cuenta con 183.000 ejemplos de chat, y cada ejemplo presenta siete respuestas de varios modelos como GPT-4, GPT-3.5-instruct, GPT-3.5-turbo, Mistral-7B-Instruct y Llama2-7B, lo que da lugar a extensas 3,8 millones de comparaciones en pares. Para garantizar la imparcialidad, los investigadores dedicaron un considerable esfuerzo a mitigar el sesgo posicional al solicitar clasificaciones a GPT-4, un proceso detallado minuciosamente en la sección de conjunto de datos.

https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha

Utilizaron un modelo de recompensa de aprendizaje para refinar el modelo de lenguaje Openchat 3.5 y encontraron resultados impresionantes. La puntuación AlpacaEval aumentó de 88,51% a 91,99%, mientras que la puntuación MT-Bench aumentó de 7,81 a 8,09. Estas métricas funcionan como estándares para evaluar la utilidad del chatbot.

Los investigadores probaron el modelo con modelos de código abierto anteriores como Zephyra-7B, Neural-Chat-7B y Tulu-2-DPO-70B, utilizando la Optimización de Preferencia Directa (DPO). Si bien estos modelos tuvieron un buen desempeño en Chatbot Arena, no pudieron aprovechar todo el potencial de RLHF en comparación con los mejores modelos SFT como OpenHermes 2.5 y Openchat 3.5 en MT Bench.

Los investigadores enfatizaron que el modelo tiene ciertos desafíos. Es susceptible a métodos engañosos o manipulativos. Además, el modelo tiene dificultades con tareas matemáticas o de razonamiento, y la exactitud factual de sus resultados solo está garantizada en ocasiones. También señalaron que el modelo a veces puede ser demasiado verborrágico y susceptible a la manipulación de los comandos. Dijeron que estas fallas están dedicadas a mejorar Starling-7B.

Para abordar este problema, propusieron refinar aún más el modelo utilizando modelos de recompensa basados en reglas, en los que GPT-4 sirve como guía, utilizando las técnicas descritas en el Informe Técnico de GPT-4.

En conclusión, Starling-7B representa un avance significativo en los LLMs e ilustra las posibilidades del Aprendizaje por Refuerzo a través de la Retroalimentación de la Inteligencia Artificial. El campo del procesamiento de lenguaje natural se está mejorando gracias a la colaboración entre estos modelos y el conocimiento compartido de la comunidad. Los investigadores están trabajando para mejorar el rendimiento del modelo y solucionar las limitaciones.

El artículo UC Berkeley Researchers Introduce Starling-7B: An Open Large Language Model (LLM) Trained by Reinforcement Learning from AI Feedback (RLAIF) apareció primero en MarkTechPost.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Investigadores de la Universidad de Pekín y Microsoft presentan COLE un marco de generación jerárquica eficaz que puede convertir una simple indicación de intención en un diseño gráfico de alta calidad.

Investigadores de UC Berkeley presentan Starling-7B un Modelo de Lenguaje Amplio (LLM) Abierto entrenado mediante Aprendizaje por Reforzamiento a partir de Retroalimentación de IA (ARIA).

Was this article helpful?

¿Cuál es la importancia de la cultura de datos en las organizaciones?

Investigadores de la Universidad de Pekín y Microsoft presentan COLE un marco de generación jerárquica eficaz que puede convertir una simple indicación de intención en un diseño gráfico de alta calidad.

Inteligencia Artificial

Financiamiento en Startups de IA Edición Sept-1 ConverSight, Voxel, AI21 y Gesund

El catálogo de modelos de inteligencia artificial de Azure de Microsoft se expande con modelos innovadores de inteligencia artificial

La huella digital de ChatGPT DNA-GPT es un método de detección de texto generado por GPT que utiliza un análisis divergente de N-gramos.

Conoce a Prismer Un modelo de visión-lenguaje de código abierto con un conjunto de expertos.

Investigadores de KAIST proponen SyncDiffusion un módulo plug-and-play que sincroniza múltiples difusiones a través del descenso del gradiente desde una pérdida de similitud perceptual.

Pythia Un conjunto de 16 LLMs para investigación en profundidad