Desplegando modelos de PyTorch con el servidor de inferencia Nvidia Triton

Desplegando modelos PyTorch con Nvidia Triton

Una solución flexible y de alto rendimiento para servir modelos

El valor del Aprendizaje Automático (Machine Learning, ML) se reconoce realmente en aplicaciones del mundo real cuando llegamos al Alojamiento e Inferencia de Modelos. Es difícil llevar cargas de trabajo de ML a producción si no se cuenta con una solución de servicio de modelos altamente eficiente que ayude a que el modelo se dimensione correctamente.

¿Qué es un servidor de modelos / qué es el servicio de modelos? Piensa en un servidor de modelos como algo equivalente a un servidor web en el mundo del ML. No es suficiente simplemente lanzar grandes cantidades de hardware detrás del modelo, necesitas una capa de comunicación que ayude a procesar las solicitudes de tus clientes mientras asigna eficientemente el hardware necesario para abordar el tráfico que tu aplicación está recibiendo. Los servidores de modelos son una característica ajustable para los usuarios: podemos aprovechar el rendimiento desde una perspectiva de latencia controlando aspectos como gRPC vs REST, etc. Algunos ejemplos populares de servidores de modelos incluyen los siguientes:

TensorFlow Serving
TorchServe
Multi-Model Server (MMS)
Deep Java Library (DJL)

El que exploraremos hoy es el Nvidia Triton Inference Server, una solución altamente flexible y de alto rendimiento para el servicio de modelos. Cada servidor de modelos requiere que los artefactos del modelo y los scripts de inferencia se presenten de una manera única que pueda entender. En el artículo de hoy, tomaremos un modelo de muestra de PyTorch y mostraremos cómo podemos alojarlo utilizando Triton Inference Server.

NOTA: Este artículo asume un entendimiento básico de Aprendizaje Automático y no profundiza en ninguna teoría detrás de la construcción de modelos. También se asume fluidez en Python y un entendimiento básico de los contenedores de Docker. También estaremos trabajando en una instancia de cuaderno SageMaker Classic para el desarrollo, así que crea una cuenta de AWS si es necesario (también puedes ejecutar este ejemplo en otro lugar si lo prefieres).

DESCARGO DE RESPONSABILIDAD: Soy un Arquitecto de Aprendizaje Automático en AWS y estas son mis opiniones propias.

¿Por qué Triton Inference Server?

Triton Inference Server es una solución de servicio de modelos de código abierto que tiene una variedad de beneficios, incluyendo los siguientes:

Compatibilidad con Frameworks: Triton es compatible nativamente con una multitud de…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Desplegando modelos de PyTorch con el servidor de inferencia Nvidia Triton

Una solución flexible y de alto rendimiento para servir modelos

¿Por qué Triton Inference Server?

Was this article helpful?

Cómo construir gráficos de cascada con Plotly Graph Objects

Una técnica de mapeo de posturas podría evaluar de forma remota a pacientes con parálisis cerebral

Inteligencia Artificial

Hacia la IA generativa para la arquitectura del modelo

Cómo este investigador ganador de la Turing Award se convirtió en un legendario asesor académico

Nuevo curso técnico de inmersión profunda Fundamentos de IA generativa en AWS

Investigadores de UBC Canadá presentan un nuevo algoritmo de IA que mapea las rutas más seguras para los conductores en la ciudad

Investigadores de NTU Singapur proponen OtterHD-8B un innovador modelo de IA multimodal evolucionado a partir de Fuyu-8B

¿Quién es Harry Potter? Dentro del método de ajuste fino de Microsoft Research para desaprender conceptos en LLMs