¡Abrocha tu cinturón ¡El Falcon 180B está aquí!

¡Asegura tu cinturón! ¡El Falcon 180B ha llegado!

 

Hace unos meses, aprendimos sobre Falcon LLM, que fue fundada por el Technology Innovation Institute (TII), una empresa que forma parte del Consejo de Investigación de Tecnología Avanzada del Gobierno de Abu Dhabi. Avanzamos unos meses, y ahora se han vuelto aún más grandes y mejores, literalmente, mucho más grandes. 

 

Falcon 180B: Todo lo que necesitas saber

 

Falcon 180B es el modelo de lenguaje disponible más grande, con 180 mil millones de parámetros. Sí, lo has leído correctamente, 180 mil millones. Fue entrenado con 3.5 trillones de tokens utilizando el conjunto de datos RefinedWeb de TII. Esto representa el entrenamiento previo de una sola época más largo para un modelo abierto.

Pero no se trata solo del tamaño del modelo en lo que nos vamos a centrar aquí, sino también en el poder y el potencial que tiene detrás. Falcon 180B está estableciendo nuevos estándares en cuanto a las capacidades de los modelos de lenguaje grandes (LLMs).

Los modelos disponibles son:

El modelo base Falcon-180B es solo un decodificador casual. Recomiendo utilizar este modelo para afinar aún más tus propios datos.

El modelo Falcon-180B-Chat es similar a la versión base pero se adentra un poco más al afinar mediante una mezcla de conjuntos de datos de conversaciones como Ultrachat, Platypus y Airoboros (chat).

 

Entrenamiento

 

Falcon 180B ha aumentado su escala en comparación con su predecesor Falcon 40B, con nuevas capacidades como la atención con múltiples consultas para una mayor escalabilidad. El modelo se entrenó utilizando 4096 GPUs en Amazon SageMaker y se entrenó con 3.5 trillones de tokens. Esto equivale a aproximadamente 7,000,000 de horas de GPU. Esto significa que Falcon 180B es 2.5 veces más rápido que LLMs como Llama 2 y se entrenó utilizando 4 veces más capacidad de cálculo.

Wow, eso es mucho.

 

Datos

 

El conjunto de datos utilizado para Falcon 180B proviene principalmente (85%) de RefinedWeb, además de entrenarse con una mezcla de datos curados como papers técnicos, conversaciones y algunos elementos de código.

 

Benchmarks

 

La parte que todos quieren saber: ¿cómo se está desempeñando Falcon 180B en comparación con sus competidores?

Falcon 180B es actualmente el mejor LLM de código abierto lanzado hasta la fecha (septiembre de 2023). Se ha demostrado que supera a Llama 2 70B y GPT-3.5 de OpenAI en MMLU. Normalmente se encuentra en algún lugar entre GPT 3.5 y GPT 4.  

Falcon 180B obtuvo una calificación de 68.74 en el Hugging Face Leaderboard, lo que lo convierte en el LLM de pre-entrenamiento abierto de mayor puntuación, superando a LLaMA 2 de Meta, que tenía una calificación de 67.35.

 

¿Cómo utilizar Falcon 180B?

 

Para los desarrolladores y entusiastas del procesamiento de lenguaje natural (NLP), Falcon 180B está disponible en el ecosistema de Hugging Face, a partir de la versión 4.33 de Transformers. 

Sin embargo, como puedes imaginar debido al tamaño del modelo, debes tener en cuenta los requisitos de hardware. Para tener una mejor comprensión de los requisitos de hardware, HuggingFace realizó pruebas para diferentes casos de uso, como se muestra en la siguiente imagen:

Si quieres probarlo y jugar con él, puedes probar Falcon 180B a través de la demo haciendo clic en este enlace: Falcon 180B Demo.

Falcon 180B vs ChatGPT

El modelo tiene requisitos de hardware serios que no están fácilmente accesibles para todos. Sin embargo, según los hallazgos de otras personas al probar tanto Falcon 180B como ChatGPT haciéndoles las mismas preguntas, ChatGPT salió ganador.

Funcionó bien en la generación de código, sin embargo, necesita un impulso en la extracción y resumen de texto.

Finalizando

Si has tenido la oportunidad de jugar con él, avísanos cuáles fueron tus hallazgos en comparación con otros LLMs. ¿Vale la pena toda la publicidad que hay alrededor de Falcon 180B, ya que actualmente es el modelo más grande disponible públicamente en el repositorio de modelos de Hugging Face?

Bueno, parece serlo, ya que se ha demostrado que está en la cima de las listas de modelos de acceso abierto, y modelos como PaLM-2, les hacen competencia. Lo descubriremos más pronto o más tarde.

Nisha Arya es una científica de datos, escritora técnica independiente y gerente de comunidad en VoAGI. Le interesa especialmente brindar consejos profesionales o tutoriales y conocimientos teóricos sobre ciencia de datos. También desea explorar las diferentes formas en que la inteligencia artificial puede beneficiar la longevidad de la vida humana. Una ávida aprendiz, buscando ampliar sus conocimientos tecnológicos y habilidades de escritura, al tiempo que ayuda a guiar a otros.

****[Nisha Arya](https://www.linkedin.com/in/nisha-arya-ahmed/)**** es una científica de datos y escritora técnica independiente. Le interesa especialmente brindar consejos profesionales o tutoriales y conocimientos teóricos sobre ciencia de datos. También desea explorar las diferentes formas en que la inteligencia artificial puede beneficiar la longevidad de la vida humana. Una ávida aprendiz, buscando ampliar sus conocimientos tecnológicos y habilidades de escritura, al tiempo que ayuda a guiar a otros.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencias de la Computación

Después de un año difícil, Zuckerberg presenta el plan de Meta a los empleados.

En una reunión interna de toda la empresa, el director ejecutivo explicó sus planes para la inteligencia artificial, ...

Inteligencia Artificial

La pantalla 3D podría llevar el tacto al mundo digital

Los ingenieros diseñaron una pantalla de transformación compuesta por una cuadrícula de músculos robóticos blandos qu...

Inteligencia Artificial

Libre de Limitaciones La Validación de las Alucinaciones de la Máquina en el MoMA

El científico de datos principal en Refik Anadol Studio, Christian Burke, relata su experiencia trabajando en la exhi...

Inteligencia Artificial

Framework Permite a los Robots Realizar Tareas Interactivas en Orden Secuencial

Un nuevo marco de trabajo permite a los robots cuadrúpedos realizar tareas que se vuelven progresivamente más complej...

Inteligencia Artificial

Los Anunciantes más Grandes del Mundo Aceptan el Poder de la IA Un Cambio de Paradigma en la Publicidad

En un movimiento que podría remodelar el panorama publicitario, algunos de los anunciantes más renombrados del mundo ...

Ciencia de Datos

Reinventando la experiencia de los datos Utilice la inteligencia artificial generativa y la arquitectura de datos moderna para desbloquear conocimientos.

Implementar una arquitectura moderna de datos brinda un método escalable para integrar datos de fuentes dispares. Al ...