Desplegando un modelo TFLite en GCP Serverless

Desplegando modelo TFLite en GCP Serverless

Cómo implementar un modelo cuantizado de manera serverless

La implementación de modelos es complicada; con el panorama en constante cambio de las plataformas en la nube y otras bibliotecas relacionadas con la IA que se actualizan casi semanalmente, la compatibilidad hacia atrás y encontrar el método de implementación correcto es todo un desafío. En la publicación de blog de hoy, veremos cómo implementar un modelo tflite en la Google Cloud Platform de manera serverless.

Esta publicación de blog está estructurada de la siguiente manera:

Entendiendo el concepto de serverless y otras formas de implementación
¿Qué es la cuantización y TFLite?
Implementación de un modelo TFLite usando la API Cloud Run de GCP

Fuente de la imagen: https://pixabay.com/photos/man-pier-silhouette-sunrise-fog-8091933/

Entendiendo el concepto de serverless y otras formas de implementación

Primero, comprendamos qué significa serverless, ya que serverless no significa sin servidor.

Un modelo de IA, o cualquier aplicación en general, se puede implementar de varias formas diferentes, con tres categorías principales.

Serverless: En este caso, el modelo se almacena en el registro de contenedores en la nube y solo se ejecuta cuando un usuario realiza una solicitud. Cuando se realiza una solicitud, se lanza automáticamente una instancia del servidor para cumplir con la solicitud del usuario, la cual se apaga después de un tiempo. Desde el inicio, la configuración, la escalabilidad y el apagado, todo esto lo realiza la API Cloud Run proporcionada por la plataforma Google Cloud. Tenemos AWS Lambda y Azure Functions como alternativas en otras nubes.

Serverless tiene sus propias ventajas y desventajas.

La mayor ventaja es el ahorro de costos, si no tienes una gran base de usuarios, la mayor parte del tiempo, el servidor está inactivo y tu dinero se está gastando sin motivo. Otra ventaja es que no necesitamos pensar en escalar la infraestructura, dependiendo de la carga en el servidor, puede replicar automáticamente el número de instancias y manejar el tráfico.
En la columna de las desventajas, hay tres cosas a tener en cuenta. Tiene un límite de carga útil pequeño, lo que significa que se puede utilizar para ejecutar un modelo más grande. En segundo lugar, el servidor se apaga automáticamente después de 15 minutos de inactividad, por lo tanto, cuando hacemos una solicitud después de mucho tiempo, las primeras solicitudes tardan mucho tiempo…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Desplegando un modelo TFLite en GCP Serverless

Cómo implementar un modelo cuantizado de manera serverless

Entendiendo el concepto de serverless y otras formas de implementación

Was this article helpful?

Transformada de Fourier para series de tiempo Sobre convolución de imágenes y SciPy

Por qué su próximo director financiero debería ser un científico de datos impulsando decisiones empresariales con ciencia de datos y análisis

Inteligencia Artificial

Esta Investigación de IA presenta GAIA un referente que define el próximo hito en la competencia general de IA

Microsoft lanza TypeChat una biblioteca de IA que facilita la creación de interfaces de lenguaje natural utilizando tipos.

Wimbledon introduce comentarios impulsados por inteligencia artificial (IA)

Aterrizaje de Chandrayaan 3 Cómo la IA y los sensores ayudaron en la épica empresa lunar de la ISRO.

La cirugía cerebral impulsada por IA se convierte en una realidad en Hong Kong

Prodigio de preadolescencia se gradúa de la Universidad de Santa Clara.