¡Abrocha tu cinturón ¡El Falcon 180B está aquí!
¡Asegura tu cinturón! ¡El Falcon 180B ha llegado!
Hace unos meses, aprendimos sobre Falcon LLM, que fue fundada por el Technology Innovation Institute (TII), una empresa que forma parte del Consejo de Investigación de Tecnología Avanzada del Gobierno de Abu Dhabi. Avanzamos unos meses, y ahora se han vuelto aún más grandes y mejores, literalmente, mucho más grandes.
Falcon 180B: Todo lo que necesitas saber
- ¿Puede un modelo de IA dominar todas las tareas de audio? Conoce UniAudio un nuevo sistema universal de generación de audio
- Explorando Data Mesh Un cambio de paradigma en la arquitectura de datos
- Google actualiza su búsqueda de IA Vertex con capacidades de atención médica y ciencias de la vida.
Falcon 180B es el modelo de lenguaje disponible más grande, con 180 mil millones de parámetros. Sí, lo has leído correctamente, 180 mil millones. Fue entrenado con 3.5 trillones de tokens utilizando el conjunto de datos RefinedWeb de TII. Esto representa el entrenamiento previo de una sola época más largo para un modelo abierto.
Pero no se trata solo del tamaño del modelo en lo que nos vamos a centrar aquí, sino también en el poder y el potencial que tiene detrás. Falcon 180B está estableciendo nuevos estándares en cuanto a las capacidades de los modelos de lenguaje grandes (LLMs).
Los modelos disponibles son:
El modelo base Falcon-180B es solo un decodificador casual. Recomiendo utilizar este modelo para afinar aún más tus propios datos.
El modelo Falcon-180B-Chat es similar a la versión base pero se adentra un poco más al afinar mediante una mezcla de conjuntos de datos de conversaciones como Ultrachat, Platypus y Airoboros (chat).
Entrenamiento
Falcon 180B ha aumentado su escala en comparación con su predecesor Falcon 40B, con nuevas capacidades como la atención con múltiples consultas para una mayor escalabilidad. El modelo se entrenó utilizando 4096 GPUs en Amazon SageMaker y se entrenó con 3.5 trillones de tokens. Esto equivale a aproximadamente 7,000,000 de horas de GPU. Esto significa que Falcon 180B es 2.5 veces más rápido que LLMs como Llama 2 y se entrenó utilizando 4 veces más capacidad de cálculo.
Wow, eso es mucho.
Datos
El conjunto de datos utilizado para Falcon 180B proviene principalmente (85%) de RefinedWeb, además de entrenarse con una mezcla de datos curados como papers técnicos, conversaciones y algunos elementos de código.
Benchmarks
La parte que todos quieren saber: ¿cómo se está desempeñando Falcon 180B en comparación con sus competidores?
Falcon 180B es actualmente el mejor LLM de código abierto lanzado hasta la fecha (septiembre de 2023). Se ha demostrado que supera a Llama 2 70B y GPT-3.5 de OpenAI en MMLU. Normalmente se encuentra en algún lugar entre GPT 3.5 y GPT 4.
Falcon 180B obtuvo una calificación de 68.74 en el Hugging Face Leaderboard, lo que lo convierte en el LLM de pre-entrenamiento abierto de mayor puntuación, superando a LLaMA 2 de Meta, que tenía una calificación de 67.35.
¿Cómo utilizar Falcon 180B?
Para los desarrolladores y entusiastas del procesamiento de lenguaje natural (NLP), Falcon 180B está disponible en el ecosistema de Hugging Face, a partir de la versión 4.33 de Transformers.
Sin embargo, como puedes imaginar debido al tamaño del modelo, debes tener en cuenta los requisitos de hardware. Para tener una mejor comprensión de los requisitos de hardware, HuggingFace realizó pruebas para diferentes casos de uso, como se muestra en la siguiente imagen:
Si quieres probarlo y jugar con él, puedes probar Falcon 180B a través de la demo haciendo clic en este enlace: Falcon 180B Demo.
Falcon 180B vs ChatGPT
El modelo tiene requisitos de hardware serios que no están fácilmente accesibles para todos. Sin embargo, según los hallazgos de otras personas al probar tanto Falcon 180B como ChatGPT haciéndoles las mismas preguntas, ChatGPT salió ganador.
Funcionó bien en la generación de código, sin embargo, necesita un impulso en la extracción y resumen de texto.
Finalizando
Si has tenido la oportunidad de jugar con él, avísanos cuáles fueron tus hallazgos en comparación con otros LLMs. ¿Vale la pena toda la publicidad que hay alrededor de Falcon 180B, ya que actualmente es el modelo más grande disponible públicamente en el repositorio de modelos de Hugging Face?
Bueno, parece serlo, ya que se ha demostrado que está en la cima de las listas de modelos de acceso abierto, y modelos como PaLM-2, les hacen competencia. Lo descubriremos más pronto o más tarde.
Nisha Arya es una científica de datos, escritora técnica independiente y gerente de comunidad en VoAGI. Le interesa especialmente brindar consejos profesionales o tutoriales y conocimientos teóricos sobre ciencia de datos. También desea explorar las diferentes formas en que la inteligencia artificial puede beneficiar la longevidad de la vida humana. Una ávida aprendiz, buscando ampliar sus conocimientos tecnológicos y habilidades de escritura, al tiempo que ayuda a guiar a otros.
****[Nisha Arya](https://www.linkedin.com/in/nisha-arya-ahmed/)**** es una científica de datos y escritora técnica independiente. Le interesa especialmente brindar consejos profesionales o tutoriales y conocimientos teóricos sobre ciencia de datos. También desea explorar las diferentes formas en que la inteligencia artificial puede beneficiar la longevidad de la vida humana. Una ávida aprendiz, buscando ampliar sus conocimientos tecnológicos y habilidades de escritura, al tiempo que ayuda a guiar a otros.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Optimización Interpretación Geométrica del Método de Newton-Raphson
- ¿Cómo aprender Machine Learning en línea?
- Investigadores de la Universidad de Sharjah desarrollan soluciones de inteligencia artificial para la inclusión del árabe y sus dialectos en el procesamiento del lenguaje natural
- Investigadores de Meta AI presentan un modelo de aprendizaje automático que explora la decodificación de la percepción del habla a partir de registros cerebrales no invasivos.
- Google presenta Vertex AI Search de última generación un cambio de juego para los proveedores de atención médica
- Funciones de Activación en Redes Neuronales
- Nuevas formas de inspirarse con la IA generativa en la Búsqueda