Vuelva a entrenar los modelos de aprendizaje automático y automatice las predicciones por lotes en Amazon SageMaker Canvas utilizando conjuntos de datos actualizados.
'Retrain ML models and automate batch predictions in Amazon SageMaker Canvas using updated datasets.'
Ahora puede volver a entrenar modelos de aprendizaje automático (ML) y automatizar flujos de trabajo de predicción por lotes con conjuntos de datos actualizados en Amazon SageMaker Canvas, lo que facilita el aprendizaje constante y la mejora del rendimiento del modelo y la eficiencia de conducción. La efectividad de un modelo de ML depende de la calidad y relevancia de los datos en los que se entrena. A medida que avanza el tiempo, los patrones subyacentes, las tendencias y las distribuciones en los datos pueden cambiar. Al actualizar el conjunto de datos, asegura que el modelo aprenda de los datos más recientes y representativos, mejorando así su capacidad para hacer predicciones precisas. Canvas ahora admite la actualización automática y manual de conjuntos de datos, lo que le permite utilizar la última versión del conjunto de datos tabular, de imagen y de documentos para entrenar modelos de ML.
Después de entrenar el modelo, es posible que desee ejecutar predicciones sobre él. La ejecución de predicciones por lotes en un modelo de ML permite procesar múltiples puntos de datos simultáneamente en lugar de hacer predicciones una por una. La automatización de este proceso proporciona eficiencia, escalabilidad y toma de decisiones oportuna. Después de generar las predicciones, se pueden analizar, agregar o visualizar para obtener información, identificar patrones o tomar decisiones informadas basadas en los resultados predichos. Canvas ahora admite la configuración de una configuración de predicción por lotes automatizada y la asociación de un conjunto de datos con ella. Cuando se actualiza el conjunto de datos asociado, ya sea de forma manual o según un horario, se activa automáticamente un flujo de trabajo de predicción por lotes en el modelo correspondiente. Los resultados de las predicciones se pueden ver en línea o descargar para su revisión posterior.
En esta publicación, mostramos cómo volver a entrenar modelos de ML y automatizar predicciones por lotes utilizando conjuntos de datos actualizados en Canvas.
Descripción general de la solución
Para nuestro caso de uso, desempeñamos el papel de analista de negocios para una empresa de comercio electrónico. Nuestro equipo de productos quiere que determinemos las métricas más críticas que influyen en la decisión de compra de un comprador. Para ello, entrenamos un modelo de ML en Canvas con un conjunto de datos de sesión en línea del sitio web del cliente de la empresa. Evaluamos el rendimiento del modelo y, si es necesario, volvemos a entrenar el modelo con datos adicionales para ver si mejora el rendimiento del modelo existente o no. Para hacerlo, utilizamos la capacidad de actualización automática de conjuntos de datos en Canvas y volvemos a entrenar nuestro modelo de ML existente con la última versión del conjunto de datos de entrenamiento. Luego configuramos flujos de trabajo de predicción por lotes automáticos: cuando se actualiza el conjunto de datos de predicción correspondiente, se activa automáticamente el trabajo de predicción por lotes en el modelo correspondiente y se ponen a disposición los resultados para su revisión.
- 4 Funciones de Pandas para la comparación elemento a elemento de DataFrames
- Una guía completa para empezar su propio Homelab para análisis de datos.
- Motivando la Autoatención
Los pasos del flujo de trabajo son los siguientes:
- Cargar los datos de sesión en línea del sitio web del cliente descargado en Amazon Simple Storage Service (Amazon S3) y crear un nuevo conjunto de datos de entrenamiento en Canvas. Para la lista completa de fuentes de datos admitidas, consulte Importación de datos en Amazon SageMaker Canvas.
- Crear modelos de ML y analizar sus métricas de rendimiento. Consulte los pasos sobre cómo crear un modelo de ML personalizado en Canvas y evaluar el rendimiento de un modelo.
- Configurar la actualización automática en el conjunto de datos de entrenamiento existente y cargar nuevos datos en la ubicación de Amazon S3 que respalda este conjunto de datos. Cuando se complete, se debe crear una nueva versión del conjunto de datos.
- Utilice la última versión del conjunto de datos para volver a entrenar el modelo de ML y analizar su rendimiento.
- Configure predicciones por lotes automáticas en la versión de modelo de mejor rendimiento y vea los resultados de la predicción.
Puede realizar estos pasos en Canvas sin escribir una sola línea de código.
Descripción general de los datos
El conjunto de datos consta de vectores de características pertenecientes a 12,330 sesiones. El conjunto de datos se formó de manera que cada sesión perteneciera a un usuario diferente en un período de 1 año para evitar cualquier tendencia a una campaña específica, un día especial, un perfil de usuario o un período. La siguiente tabla describe el esquema de datos.
Nombre de columna | Tipo de datos | Descripción |
Administrativo |
Numérico | Número de páginas visitadas por el usuario para actividades relacionadas con la gestión de cuentas de usuario. |
Duración administrativa |
Numérico | Cantidad de tiempo dedicado a esta categoría de páginas. |
Informativo |
Numérico | Número de páginas de este tipo (informativo) que visitó el usuario. |
Duración informativa |
Numérico | Cantidad de tiempo dedicado a esta categoría de páginas. |
Relacionado con el producto |
Numérico | Número de páginas de este tipo (relacionado con el producto) que visitó el usuario. |
Duración relacionada con el producto |
Numérico | Cantidad de tiempo dedicado a esta categoría de páginas. |
Tasas de rebote |
Numérico | Porcentaje de visitantes que ingresan al sitio web a través de esa página y salen sin activar ninguna tarea adicional. |
Tasas de salida |
Numérico | Tasa de salida promedio de las páginas visitadas por el usuario. Este es el porcentaje de personas que abandonaron su sitio desde esa página. |
Valores de página |
Numérico | Valor promedio de página de las páginas visitadas por el usuario. Este es el valor promedio de una página que un usuario visitó antes de llegar a la página de destino o completar una transacción de comercio electrónico (o ambas). |
Día especial |
Binario | La función “Día especial” indica la cercanía del tiempo de visita del sitio a un día especial específico (como el Día de la Madre o San Valentín) en el que es más probable que las sesiones se finalicen con una transacción. |
Mes |
Categórico | Mes de la visita. |
Sistemas operativos |
Categórico | Sistemas operativos del visitante. |
Navegador |