Desplegando modelos de PyTorch con el servidor de inferencia Nvidia Triton

Desplegando modelos PyTorch con Nvidia Triton

Una solución flexible y de alto rendimiento para servir modelos

Imagen de Unsplash

El valor del Aprendizaje Automático (Machine Learning, ML) se reconoce realmente en aplicaciones del mundo real cuando llegamos al Alojamiento e Inferencia de Modelos. Es difícil llevar cargas de trabajo de ML a producción si no se cuenta con una solución de servicio de modelos altamente eficiente que ayude a que el modelo se dimensione correctamente.

¿Qué es un servidor de modelos / qué es el servicio de modelos? Piensa en un servidor de modelos como algo equivalente a un servidor web en el mundo del ML. No es suficiente simplemente lanzar grandes cantidades de hardware detrás del modelo, necesitas una capa de comunicación que ayude a procesar las solicitudes de tus clientes mientras asigna eficientemente el hardware necesario para abordar el tráfico que tu aplicación está recibiendo. Los servidores de modelos son una característica ajustable para los usuarios: podemos aprovechar el rendimiento desde una perspectiva de latencia controlando aspectos como gRPC vs REST, etc. Algunos ejemplos populares de servidores de modelos incluyen los siguientes:

  • TensorFlow Serving
  • TorchServe
  • Multi-Model Server (MMS)
  • Deep Java Library (DJL)

El que exploraremos hoy es el Nvidia Triton Inference Server, una solución altamente flexible y de alto rendimiento para el servicio de modelos. Cada servidor de modelos requiere que los artefactos del modelo y los scripts de inferencia se presenten de una manera única que pueda entender. En el artículo de hoy, tomaremos un modelo de muestra de PyTorch y mostraremos cómo podemos alojarlo utilizando Triton Inference Server.

NOTA: Este artículo asume un entendimiento básico de Aprendizaje Automático y no profundiza en ninguna teoría detrás de la construcción de modelos. También se asume fluidez en Python y un entendimiento básico de los contenedores de Docker. También estaremos trabajando en una instancia de cuaderno SageMaker Classic para el desarrollo, así que crea una cuenta de AWS si es necesario (también puedes ejecutar este ejemplo en otro lugar si lo prefieres).

DESCARGO DE RESPONSABILIDAD: Soy un Arquitecto de Aprendizaje Automático en AWS y estas son mis opiniones propias.

¿Por qué Triton Inference Server?

Triton Inference Server es una solución de servicio de modelos de código abierto que tiene una variedad de beneficios, incluyendo los siguientes:

  1. Compatibilidad con Frameworks: Triton es compatible nativamente con una multitud de…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Hacia la IA generativa para la arquitectura del modelo

La revolución del transformador La atención es todo lo que necesitas ha tenido un profundo efecto en el diseño de las...

Inteligencia Artificial

Cómo este investigador ganador de la Turing Award se convirtió en un legendario asesor académico

El científico teórico de la computación, Manuel Blum, ha guiado a generaciones de estudiantes de posgrado hacia carre...

Inteligencia Artificial

Nuevo curso técnico de inmersión profunda Fundamentos de IA generativa en AWS

Generative AI Foundations en AWS es un nuevo curso de inmersión técnica que te proporciona los fundamentos conceptual...

Inteligencia Artificial

Investigadores de UBC Canadá presentan un nuevo algoritmo de IA que mapea las rutas más seguras para los conductores en la ciudad

Las aplicaciones de navegación son aplicaciones que proporcionan indicaciones de navegación en tiempo real. La mayorí...

Inteligencia Artificial

Investigadores de NTU Singapur proponen OtterHD-8B un innovador modelo de IA multimodal evolucionado a partir de Fuyu-8B

Investigadores de S-Lab, Universidad Tecnológica de Nanyang, Singapur, presentan OtterHD-8B, un innovador modelo mult...

Inteligencia Artificial

¿Quién es Harry Potter? Dentro del método de ajuste fino de Microsoft Research para desaprender conceptos en LLMs

Los modelos de lenguaje grandes (LLMs) se entrenan regularmente con grandes cantidades de datos no etiquetados, lo qu...