Más allá de LLaMA El poder de los LLMs abiertos

Más allá de LLaMA y el poder de los LLMs abiertos

Cómo LLaMA está haciendo que el código abierto sea genial nuevamente

A pesar de los avances recientes en los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), muchos de los modelos más poderosos solo son accesibles a través de APIs de pago y se entrenan utilizando grandes cantidades de datos propietarios, lo que limita a la comunidad de investigación a acceder o reproducir dichos modelos. Esta tendencia plantea preocupaciones serias sobre si los LLMs estarán controlados en su mayoría por un pequeño número de grupos centralizados que obligan a otros a pagar por interactuar con estos modelos. Tal escenario impide estrictamente que la mayoría de los investigadores accedan directamente o mejoren los LLMs por sí mismos.

“[Muchos] LLMs requieren enormes recursos computacionales para entrenar y a menudo usan conjuntos de datos grandes y propietarios. Esto sugiere que en el futuro, los LLMs altamente capaces estarán controlados en gran medida por un pequeño número de organizaciones.” — de [5]

Dado la carga computacional de entrenar y alojar LLMs, podríamos preguntarnos si hacer que estos modelos sean de código abierto es útil para la comunidad de investigación. Si no formamos parte de una organización masiva con amplios recursos informáticos, ¿podemos hacer investigaciones útiles con LLMs? Si no es así, tal vez estemos condenados a un mundo de control y acceso centralizado a los LLMs. Estos modelos parecen tener demasiada “gravedad” (es decir, requieren acceso a toneladas de datos y capacidad de cómputo) para que la mayoría de las personas puedan trabajar fácilmente con ellos.

La propuesta de LLaMA (y la posterior filtración al público) se mueve en dirección contraria al hacer de código abierto una suite de LLMs poderosos pero más pequeños. Después de la publicación de LLaMA al público, hemos visto una enorme ola de investigación abierta sobre LLMs. Esta investigación ha producido una variedad de modelos diferentes, algunos de los cuales tienen una calidad comparable a la de ChatGPT. Sin embargo, lo más notable es que estos modelos se crearon con un costo mínimo (es decir, menos de $500 en la mayoría de los casos) y con recursos informáticos modestos (es decir, algunos de estos modelos se pueden ejecutar en un MacBook normal). Aquí, revisaremos algunos de estos modelos posteriores a LLaMA que se han propuesto recientemente y exploraremos cómo la investigación de código abierto en LLMs ha hecho que el tema sea más accesible.

Conceptos clave

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Más allá de LLaMA El poder de los LLMs abiertos

Cómo LLaMA está haciendo que el código abierto sea genial nuevamente

Conceptos clave

Was this article helpful?

Promoviendo interacciones éticas entre la humanidad y la inteligencia artificial avanzada

Sorprendente descubrimiento magnético revelado en el grafeno de ángulo mágico

Inteligencia Artificial

La Escuela de Ingeniería da la bienvenida a Songyee Yoon, PhD '00, como investigadora visitante de innovación.

META's Hiera reduce la complejidad para aumentar la precisión.

DeepSeek abre el código fuente del modelo DeepSeek-67B El último rival del ChatGPT proveniente de China

Un derrame le robó la capacidad de hablar a los 30 años. La IA está ayudando a restaurarla años después.

Científicos más cerca de encontrar una prueba para el COVID prolongado

La IA se está comiendo la Ciencia de Datos.