Aumente el rendimiento de latencia y rendimiento de Llama 2 hasta 4 veces

Aumente rendimiento Llama 2 hasta 4x

Benchmarks del mundo real para Llama-2 13B

Imagen del autor - Creada utilizando Stable Diffusion — Imagen del autor – Creada utilizando Stable Diffusion

Introducción

En el ámbito de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), integrar estos sistemas avanzados en aplicaciones empresariales del mundo real es una necesidad apremiante. Sin embargo, el ritmo al que evoluciona la IA generativa es tan rápido que la mayoría no puede seguir el ritmo de los avances.

Una solución es utilizar servicios gestionados como los proporcionados por OpenAI. Estos servicios gestionados ofrecen una solución simplificada, pero para aquellos que no tienen acceso a dichos servicios o priorizan factores como la seguridad y la privacidad, surge una alternativa: las herramientas de código abierto.

Las herramientas de IA generativa de código abierto son extremadamente populares en este momento y las empresas se apresuran a lanzar sus aplicaciones impulsadas por IA. Mientras intentan construir rápidamente, las empresas a menudo olvidan que, para obtener verdadero valor de la IA generativa, necesitan construir aplicaciones listas para la “producción”, no solo prototipos.

En este artículo, quiero mostrarles la diferencia de rendimiento para Llama 2 utilizando dos métodos de inferencia diferentes. El primer método de inferencia será un modelo Llama 2 en contenedor servido a través de Fast API, una opción popular entre los desarrolladores para servir modelos como puntos finales de API REST. El segundo método será el mismo modelo en contenedor servido a través de Text Generation Inference, una biblioteca de código abierto desarrollada por Hugging Face para implementar fácilmente LLMs.

Ambos métodos que estamos analizando están destinados a funcionar bien en casos de uso del mundo real, como en empresas o aplicaciones. Pero es importante darse cuenta de que no se escalan de la misma manera. Nos sumergiremos en esta comparación para ver cómo se desempeñan cada uno y entender mejor las diferencias.

Qué impulsa la inferencia de LLM en OpenAI y Cohere

¿Alguna vez te has preguntado por qué ChatGPT es tan rápido?

Los modelos de lenguaje grandes requieren una gran cantidad de potencia informática y, debido a su tamaño, a menudo necesitan múltiples GPU. Cuando se trabaja con clústeres grandes de GPU, las empresas deben tener mucho cuidado de cómo se utiliza su capacidad informática.

Los proveedores de LLM como OpenAI ejecutan grandes clústeres de GPU para alimentar la inferencia de sus modelos. Para exprimir al máximo…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Aumente el rendimiento de latencia y rendimiento de Llama 2 hasta 4 veces

Benchmarks del mundo real para Llama-2 13B

Introducción

Qué impulsa la inferencia de LLM en OpenAI y Cohere

Was this article helpful?

Ingenieros de Aprendizaje Automático ¿Qué hacen en realidad?

Desplegando modelos de Hugging Face con BentoML DeepFloyd IF en acción

Inteligencia Artificial

Sabemos que las LLM pueden utilizar herramientas, ¿pero sabías que también pueden crear nuevas herramientas? Conoce a las LLM como fabricantes de herramientas (LATM) un sistema de bucle cerrado que permite a las LLM crear sus propias herramientas reutilizables.

Una nueva investigación de IA de Tel Aviv y la Universidad de Copenhague introduce un enfoque de conectar y usar para ajustar rápidamente modelos de difusión de texto a imagen utilizando una señal discriminativa.

Descubre DERA Un marco de inteligencia artificial para mejorar las completaciones de modelos de lenguaje grandes con agentes de resolución habilitados para el diálogo

AWS Inferentia2 se basa en AWS Inferentia1 ofreciendo un rendimiento 4 veces mayor y una latencia 10 veces menor.

Microsoft y OpenAI chocan por la integración de la inteligencia artificial.

Revolucionando la personalización de modelos 3D utilizando inteligencia artificial Investigadores del MIT desarrollaron una interfaz fácil de usar para ajustes estéticos sin afectar la funcionalidad