Desplegando modelos de PyTorch con el servidor de inferencia Nvidia Triton
Desplegando modelos PyTorch con Nvidia Triton
Una solución flexible y de alto rendimiento para servir modelos
El valor del Aprendizaje Automático (Machine Learning, ML) se reconoce realmente en aplicaciones del mundo real cuando llegamos al Alojamiento e Inferencia de Modelos. Es difícil llevar cargas de trabajo de ML a producción si no se cuenta con una solución de servicio de modelos altamente eficiente que ayude a que el modelo se dimensione correctamente.
¿Qué es un servidor de modelos / qué es el servicio de modelos? Piensa en un servidor de modelos como algo equivalente a un servidor web en el mundo del ML. No es suficiente simplemente lanzar grandes cantidades de hardware detrás del modelo, necesitas una capa de comunicación que ayude a procesar las solicitudes de tus clientes mientras asigna eficientemente el hardware necesario para abordar el tráfico que tu aplicación está recibiendo. Los servidores de modelos son una característica ajustable para los usuarios: podemos aprovechar el rendimiento desde una perspectiva de latencia controlando aspectos como gRPC vs REST, etc. Algunos ejemplos populares de servidores de modelos incluyen los siguientes:
- TensorFlow Serving
- TorchServe
- Multi-Model Server (MMS)
- Deep Java Library (DJL)
El que exploraremos hoy es el Nvidia Triton Inference Server, una solución altamente flexible y de alto rendimiento para el servicio de modelos. Cada servidor de modelos requiere que los artefactos del modelo y los scripts de inferencia se presenten de una manera única que pueda entender. En el artículo de hoy, tomaremos un modelo de muestra de PyTorch y mostraremos cómo podemos alojarlo utilizando Triton Inference Server.
NOTA: Este artículo asume un entendimiento básico de Aprendizaje Automático y no profundiza en ninguna teoría detrás de la construcción de modelos. También se asume fluidez en Python y un entendimiento básico de los contenedores de Docker. También estaremos trabajando en una instancia de cuaderno SageMaker Classic para el desarrollo, así que crea una cuenta de AWS si es necesario (también puedes ejecutar este ejemplo en otro lugar si lo prefieres).
- Cómo construir gráficos de cascada con Plotly Graph Objects
- ¡Pide tus documentos con Langchain y Deep Lake!
- Inteligencia Artificial y la Estética de la Generación de Imágenes
DESCARGO DE RESPONSABILIDAD: Soy un Arquitecto de Aprendizaje Automático en AWS y estas son mis opiniones propias.
¿Por qué Triton Inference Server?
Triton Inference Server es una solución de servicio de modelos de código abierto que tiene una variedad de beneficios, incluyendo los siguientes:
- Compatibilidad con Frameworks: Triton es compatible nativamente con una multitud de…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Hoja de referencia de Scikit-learn para Aprendizaje Automático
- Conoce FLM-101B Un decodificador de solo lectura de LLM de código abierto con 101 mil millones de parámetros
- En la cumbre en Washington DC, los líderes tecnológicos respaldan la regulación de la IA
- ¿Cómo convertirse en un ingeniero de procesamiento del lenguaje natural (NLP)? Hoja de ruta profesional 2023
- Noticias de VoAGI, 13 de septiembre Primeros pasos con SQL en 5 pasos • Introducción a las bases de datos en Ciencia de Datos
- Data Commons está utilizando la IA para hacer que los datos públicos del mundo sean más accesibles y útiles
- Visualiza un análisis de Amazon Comprehend con una nube de palabras en Amazon QuickSight