Desplegando un modelo TFLite en GCP Serverless
Desplegando modelo TFLite en GCP Serverless
Cómo implementar un modelo cuantizado de manera serverless
La implementación de modelos es complicada; con el panorama en constante cambio de las plataformas en la nube y otras bibliotecas relacionadas con la IA que se actualizan casi semanalmente, la compatibilidad hacia atrás y encontrar el método de implementación correcto es todo un desafío. En la publicación de blog de hoy, veremos cómo implementar un modelo tflite en la Google Cloud Platform de manera serverless.
Esta publicación de blog está estructurada de la siguiente manera:
- Entendiendo el concepto de serverless y otras formas de implementación
- ¿Qué es la cuantización y TFLite?
- Implementación de un modelo TFLite usando la API Cloud Run de GCP
![Fuente de la imagen: https://pixabay.com/photos/man-pier-silhouette-sunrise-fog-8091933/](https://miro.medium.com/v2/resize:fit:640/format:webp/0*Ba3Wf5me13nN0aSk.jpg)
Entendiendo el concepto de serverless y otras formas de implementación
Primero, comprendamos qué significa serverless, ya que serverless no significa sin servidor.
Un modelo de IA, o cualquier aplicación en general, se puede implementar de varias formas diferentes, con tres categorías principales.
- Transformada de Fourier para series de tiempo Sobre convolución de imágenes y SciPy
- 5 Preocupaciones en torno a la Escalabilidad y Adopción de la IA
- ¿Es ChatGPT realmente inteligente?
Serverless: En este caso, el modelo se almacena en el registro de contenedores en la nube y solo se ejecuta cuando un usuario realiza una solicitud. Cuando se realiza una solicitud, se lanza automáticamente una instancia del servidor para cumplir con la solicitud del usuario, la cual se apaga después de un tiempo. Desde el inicio, la configuración, la escalabilidad y el apagado, todo esto lo realiza la API Cloud Run proporcionada por la plataforma Google Cloud. Tenemos AWS Lambda y Azure Functions como alternativas en otras nubes.
Serverless tiene sus propias ventajas y desventajas.
- La mayor ventaja es el ahorro de costos, si no tienes una gran base de usuarios, la mayor parte del tiempo, el servidor está inactivo y tu dinero se está gastando sin motivo. Otra ventaja es que no necesitamos pensar en escalar la infraestructura, dependiendo de la carga en el servidor, puede replicar automáticamente el número de instancias y manejar el tráfico.
- En la columna de las desventajas, hay tres cosas a tener en cuenta. Tiene un límite de carga útil pequeño, lo que significa que se puede utilizar para ejecutar un modelo más grande. En segundo lugar, el servidor se apaga automáticamente después de 15 minutos de inactividad, por lo tanto, cuando hacemos una solicitud después de mucho tiempo, las primeras solicitudes tardan mucho tiempo…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Liberando la Inteligencia Artificial Generativa con VAEs, GANs y Transformadores
- Analizar la infestación de roedores utilizando las capacidades geoespaciales de Amazon SageMaker
- ¿Cómo conseguir un empleo en Ciencia de Datos? [Decodificado en 8 sencillos pasos]
- Emily Webber de AWS sobre Preentrenamiento de Modelos de Lenguaje Grandes
- Pensando como un anotador en profundidad Generación de instrucciones para etiquetar conjuntos de datos
- Lanzando un gato entre las palomas? Aumentando la computación humana con modelos de lenguaje grandes
- Configuración de Proyectos en Python Parte VI