¿Pueden los modelos de lenguaje pequeños ofrecer un alto rendimiento? Conoce a StableLM un modelo de lenguaje de código abierto que puede generar texto y código, brindando un alto rendimiento con un entrenamiento adecuado.

StableLM es un modelo de lenguaje de código abierto que puede generar texto y código con un alto rendimiento, incluso siendo un modelo de lenguaje pequeño, siempre y cuando se le realice un entrenamiento adecuado.

Stability AI es una startup en el campo de la inteligencia artificial más conocida por su tecnología de IA generadora de imágenes llamada Stable Diffusion. Hoy ha presentado un nuevo modelo de lenguaje gratuito y de código abierto llamado StableLM. El modelo se ofrece en tres tamaños de parámetros diferentes para la fase Alpha: tres mil millones, siete mil millones, quince mil millones y sesenta y cinco mil millones. Bajo las reglas de la licencia CC BY-SA-4.0, los desarrolladores pueden revisar, utilizar y modificar los modelos básicos de StableLM para proyectos personales y comerciales.

El revolucionario modelo de imágenes Stable Diffusion, que ofrece una alternativa más abierta, escalable y transparente a la IA propietaria, fue lanzado al público en 2022 gracias a los esfuerzos de Stability AI. Stability AI ha lanzado el conjunto de modelos StableLM, ampliando aún más su misión de democratizar las capacidades básicas de la IA. Los modelos de StableLM impulsarán diversas aplicaciones con capacidades de generación de texto y código. Demuestran cómo modelos pequeños y eficientes pueden ser entrenados para funcionar bien.

El trabajo previo de código abierto del equipo con EleutherAI, un centro de investigación sin fines de lucro, les permitió sentar las bases para el lanzamiento de StableLM. El conjunto de datos de código abierto Pile se utilizó para entrenar varios modelos de lenguaje populares, como GPT-J, GPT-NeoX y el conjunto Pythia. Cerebras-GPT y Dolly-2 son solo dos ejemplos de los muchos nuevos modelos de lenguaje de código abierto que amplían estos anteriores.

El conjunto de datos experimental utilizado para enseñar StableLM se basa en The Pile, pero es tres veces más grande, con 1,5 billones de tokens. A pesar de tener solo 3-7 mil millones de parámetros (GPT-3 tiene 175 mil millones), StableLM logra un rendimiento sorprendentemente excelente en tareas de conversación y codificación gracias a la riqueza de este conjunto de datos. La información sobre el conjunto de datos se hará pública en una fecha posterior.

Han lanzado una colección de modelos de investigación optimizados para su uso en entornos educativos. Estos modelos refinados utilizarán primero datos de cinco conjuntos de datos de agentes conversacionales de código abierto recientemente lanzados: Alpaca, GPT4All, Dolly, ShareGPT y HH. Siguiendo la licencia Alpaca de Stanford, estos modelos afinados están disponibles bajo una licencia CC BY-NC-SA 4.0 no comercial para la investigación académica.

StableLM representa la visión del equipo de desarrollar tecnología de IA abierta, accesible y útil a través de las siguientes capacidades:

  1. Transparencia: Para confirmar el rendimiento, establecer enfoques de interpretabilidad, identificar riesgos y ayudar en la creación de salvaguardias, los investigadores pueden “mirar bajo el capó”. Sin revelar información privada ni renunciar a la autoridad sobre las capacidades de IA, las empresas y agencias gubernamentales pueden modificar (o “ajustar”) estos modelos de código abierto para adaptarlos a sus necesidades.
  2. Accesibilidad: El equipo construye para que la gente común pueda utilizar sus modelos en sus dispositivos. En lugar de depender de servicios exclusivos de algunas empresas, los desarrolladores pueden utilizar estos modelos para crear aplicaciones que funcionen con una gama más amplia de hardware disponible públicamente. De esta manera, los beneficios económicos de la IA se distribuyen entre un gran grupo de usuarios y creadores. Los modelos propuestos son abiertos y granulares, lo que permite a los investigadores y académicos ir más allá de las limitaciones de los modelos cerrados en términos de interpretabilidad y seguridad.
  3. Apoyo: Estos modelos están diseñados para ayudar a los clientes, no para reemplazarlos. En lugar de buscar una inteligencia superhumana, el equipo se centra en mejorar la capacidad de la IA para ejecutar tareas específicas en contextos del mundo real. Construyen recursos que permiten a las personas comunes y a las empresas aprovechar el potencial de la IA para fomentar la innovación, aumentar la producción y ampliar los horizontes económicos.

El equipo destaca que la calidad de las respuestas que recibe un usuario puede variar, y pueden contener lenguaje desagradable u opiniones, como ocurre con cualquier modelo de lenguaje grande preentrenado que carece de ajuste fino y aprendizaje por refuerzo. La escala, el aumento de datos, la retroalimentación de la comunidad y la optimización son factores que deberían conducir a una mejora considerable.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

5 Programas de Certificación en IA en línea - Explora e Inscríbete

Toma un curso de certificación de IA reconocido a nivel mundial y obtén un certificado para adquirir habilidades en I...

Inteligencia Artificial

Conoce a AnomalyGPT Un nuevo enfoque de IAD basado en Modelos de Visión-Lenguaje de Gran Escala (LVLM) para detectar anomalías industriales

En varias tareas de Procesamiento del Lenguaje Natural (NLP), los Modelos de Lenguaje de Gran Tamaño (LLMs) como GPT-...

Inteligencia Artificial

Coraje para aprender ML Desmitificando la Regularización L1 y L2 (parte 3)

Bienvenidos de nuevo a la tercera entrega de Valor para aprender ML Desmitificando la regularización L1 y L2. Anterio...

Inteligencia Artificial

Cómo utilizar ChatGPT en Google Sheets

Introducción Google Sheets es una aplicación amplia y ampliamente conocida de hojas de cálculo. A lo largo de los año...

Inteligencia Artificial

Colaboración entre humanos y IA

Al explorar la relación entre la IA y la inteligencia humana, la reciente aparición de GenAI plantea preguntas sobre ...