¿Pueden los modelos de lenguaje pequeños ofrecer un alto rendimiento? Conoce a StableLM un modelo de lenguaje de código abierto que puede generar texto y código, brindando un alto rendimiento con un entrenamiento adecuado.
StableLM es un modelo de lenguaje de código abierto que puede generar texto y código con un alto rendimiento, incluso siendo un modelo de lenguaje pequeño, siempre y cuando se le realice un entrenamiento adecuado.
Stability AI es una startup en el campo de la inteligencia artificial más conocida por su tecnología de IA generadora de imágenes llamada Stable Diffusion. Hoy ha presentado un nuevo modelo de lenguaje gratuito y de código abierto llamado StableLM. El modelo se ofrece en tres tamaños de parámetros diferentes para la fase Alpha: tres mil millones, siete mil millones, quince mil millones y sesenta y cinco mil millones. Bajo las reglas de la licencia CC BY-SA-4.0, los desarrolladores pueden revisar, utilizar y modificar los modelos básicos de StableLM para proyectos personales y comerciales.
El revolucionario modelo de imágenes Stable Diffusion, que ofrece una alternativa más abierta, escalable y transparente a la IA propietaria, fue lanzado al público en 2022 gracias a los esfuerzos de Stability AI. Stability AI ha lanzado el conjunto de modelos StableLM, ampliando aún más su misión de democratizar las capacidades básicas de la IA. Los modelos de StableLM impulsarán diversas aplicaciones con capacidades de generación de texto y código. Demuestran cómo modelos pequeños y eficientes pueden ser entrenados para funcionar bien.
El trabajo previo de código abierto del equipo con EleutherAI, un centro de investigación sin fines de lucro, les permitió sentar las bases para el lanzamiento de StableLM. El conjunto de datos de código abierto Pile se utilizó para entrenar varios modelos de lenguaje populares, como GPT-J, GPT-NeoX y el conjunto Pythia. Cerebras-GPT y Dolly-2 son solo dos ejemplos de los muchos nuevos modelos de lenguaje de código abierto que amplían estos anteriores.
- ¿Qué son los Modelos de Lenguaje Grandes (LLMs)? Aplicaciones y Tipos de LLMs
- ¿Qué sucede si ejecutas un modelo Transformer con una red neuronal óptica?
- Esta Herramienta de IA Explica Cómo la IA ‘Ve’ Imágenes y por qué Puede Equivocarse al Confundir un Astronauta con una Pala.
El conjunto de datos experimental utilizado para enseñar StableLM se basa en The Pile, pero es tres veces más grande, con 1,5 billones de tokens. A pesar de tener solo 3-7 mil millones de parámetros (GPT-3 tiene 175 mil millones), StableLM logra un rendimiento sorprendentemente excelente en tareas de conversación y codificación gracias a la riqueza de este conjunto de datos. La información sobre el conjunto de datos se hará pública en una fecha posterior.
Han lanzado una colección de modelos de investigación optimizados para su uso en entornos educativos. Estos modelos refinados utilizarán primero datos de cinco conjuntos de datos de agentes conversacionales de código abierto recientemente lanzados: Alpaca, GPT4All, Dolly, ShareGPT y HH. Siguiendo la licencia Alpaca de Stanford, estos modelos afinados están disponibles bajo una licencia CC BY-NC-SA 4.0 no comercial para la investigación académica.
StableLM representa la visión del equipo de desarrollar tecnología de IA abierta, accesible y útil a través de las siguientes capacidades:
- Transparencia: Para confirmar el rendimiento, establecer enfoques de interpretabilidad, identificar riesgos y ayudar en la creación de salvaguardias, los investigadores pueden “mirar bajo el capó”. Sin revelar información privada ni renunciar a la autoridad sobre las capacidades de IA, las empresas y agencias gubernamentales pueden modificar (o “ajustar”) estos modelos de código abierto para adaptarlos a sus necesidades.
- Accesibilidad: El equipo construye para que la gente común pueda utilizar sus modelos en sus dispositivos. En lugar de depender de servicios exclusivos de algunas empresas, los desarrolladores pueden utilizar estos modelos para crear aplicaciones que funcionen con una gama más amplia de hardware disponible públicamente. De esta manera, los beneficios económicos de la IA se distribuyen entre un gran grupo de usuarios y creadores. Los modelos propuestos son abiertos y granulares, lo que permite a los investigadores y académicos ir más allá de las limitaciones de los modelos cerrados en términos de interpretabilidad y seguridad.
- Apoyo: Estos modelos están diseñados para ayudar a los clientes, no para reemplazarlos. En lugar de buscar una inteligencia superhumana, el equipo se centra en mejorar la capacidad de la IA para ejecutar tareas específicas en contextos del mundo real. Construyen recursos que permiten a las personas comunes y a las empresas aprovechar el potencial de la IA para fomentar la innovación, aumentar la producción y ampliar los horizontes económicos.
El equipo destaca que la calidad de las respuestas que recibe un usuario puede variar, y pueden contener lenguaje desagradable u opiniones, como ocurre con cualquier modelo de lenguaje grande preentrenado que carece de ajuste fino y aprendizaje por refuerzo. La escala, el aumento de datos, la retroalimentación de la comunidad y la optimización son factores que deberían conducir a una mejora considerable.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Google AI presenta los complementos de difusión de MediaPipe que permiten la generación controlable de texto a imagen en el dispositivo.
- Salesforce presenta XGen-7B Un nuevo 7B LLM entrenado en secuencias de hasta 8K de longitud para 1.5T Tokens.
- ¿Pueden los LLMs generar pruebas matemáticas que puedan ser rigurosamente verificadas? Conoce LeanDojo un espacio de juego de inteligencia artificial de código abierto con herramientas, puntos de referencia y modelos para que los modelos de lenguaje grandes demuestren teoremas formales en el asistente de pruebas Lean.
- Contextual AI presenta LENS un marco de inteligencia artificial para modelos de lenguaje con visión aumentada que supera a Flamingo en un 9% (56->65%) en VQAv2.
- Unity anuncia el lanzamiento de Muse una plataforma de juegos de texto a video que te permite crear texturas, sprites y animaciones con lenguaje natural.
- Conoce a FastSAM La solución revolucionaria en tiempo real que logra una segmentación de alto rendimiento con una carga computacional mínima.
- Si la comunicación oral y escrita hizo que los seres humanos desarrollaran inteligencia… ¿Qué hay de los modelos de lenguaje?