La Distribución de SageMaker está ahora disponible en Amazon SageMaker Studio
Distribución de SageMaker disponible en Amazon SageMaker Studio
SageMaker Distribution es una imagen de Docker preconstruida que contiene muchos paquetes populares para machine learning (ML), ciencia de datos y visualización de datos. Esto incluye frameworks de deep learning como PyTorch, TensorFlow y Keras; paquetes populares de Python como NumPy, scikit-learn y pandas; e IDEs como JupyterLab. Además de esto, SageMaker Distribution es compatible con conda, micromamba y pip como gestores de paquetes de Python.
En mayo de 2023, lanzamos SageMaker Distribution como un proyecto de código abierto en JupyterCon. Este lanzamiento te ayudó a utilizar SageMaker Distribution para ejecutar experimentos en tus entornos locales. Ahora estamos proporcionando nativamente esa imagen en Amazon SageMaker Studio para que obtengas los beneficios de alto rendimiento, computación y seguridad al ejecutar tus experimentos en Amazon SageMaker.
En comparación con el lanzamiento anterior de código abierto, tienes las siguientes capacidades adicionales:
- La imagen de código abierto ahora está disponible como una imagen de primera parte en SageMaker Studio. Ahora simplemente puedes elegir la distribución de SageMaker de código abierto de la lista al seleccionar una imagen y un kernel para tus cuadernos, sin necesidad de crear una imagen personalizada.
- El paquete SageMaker Python SDK ahora está integrado en la imagen.
En esta publicación, mostramos las características y ventajas de utilizar la imagen de SageMaker Distribution.
- Truco para la procrastinación convierte proyectos en videojuegos (con ChatGPT)
- Modelado de datos para los simples mortales, Parte 1 ¿Qué es el modelado de datos?
- Kylie Verzosa ha anunciado una asociación con una compañía de IA para crear un modelo de IA de ella misma
Utilizar SageMaker Distribution en SageMaker Studio
Si tienes acceso a un dominio de Studio existente, puedes iniciar SageMaker Studio. Para crear un dominio de Studio, sigue las instrucciones en Empezar con un dominio de Amazon SageMaker.
- En la interfaz de usuario de SageMaker Studio, selecciona Archivo en la barra de menú, elige Nuevo y selecciona Cuaderno de notas.
- Cuando se te solicite la imagen y la instancia, elige la imagen SageMaker Distribution v0 CPU o SageMaker Distribution v0 GPU.
- Elige tu Kernel y luego selecciona Seleccionar.
¡Ahora puedes empezar a ejecutar tus comandos sin necesidad de instalar paquetes y frameworks de ML comunes! También puedes ejecutar cuadernos que ejecutan frameworks compatibles como PyTorch y TensorFlow desde el repositorio de ejemplos de SageMaker, sin tener que cambiar los kernels activos.
Ejecutar código de forma remota utilizando SageMaker Distribution
En el anuncio de la versión beta pública, discutimos la transición de los cuadernos desde entornos de cómputo locales a SageMaker Studio, así como la operacionalización del cuaderno mediante trabajos de cuaderno.
Además, puedes ejecutar directamente el código de tu cuaderno local como un trabajo de entrenamiento de SageMaker simplemente agregando un decorador @remote
a tu función.
Veamos un ejemplo. Agrega el siguiente código a tu cuaderno de Studio que se está ejecutando en la imagen de SageMaker Distribution:
from sagemaker.remote_function import remote
@remote(instance_type="ml.m5.xlarge", dependencies='./requirements.txt')
def divide(x, y):
return x / y
divide(2, 3.0)
Cuando ejecutes la celda, la función se ejecutará como un trabajo de entrenamiento remoto de SageMaker en una instancia de cuaderno ml.m5.xlarge, y el SDK seleccionará automáticamente la imagen de SageMaker Distribution como la imagen de entrenamiento en Amazon Elastic Container Registry (Amazon ECR). Para cargas de trabajo de deep learning, también puedes ejecutar tu script en múltiples instancias paralelas.
Reproducir entornos Conda de SageMaker Distribution en otros lugares
SageMaker Distribution está disponible como una imagen de Docker pública. Sin embargo, para los científicos de datos que están más familiarizados con los entornos Conda que con Docker, el repositorio de GitHub también proporciona los archivos de entorno para cada compilación de imagen para que puedas construir entornos Conda tanto para las versiones de CPU como de GPU.
Los artefactos de compilación para cada versión se almacenan en el directorio sagemaker-distribution/build_artifacts. Para crear el mismo entorno que cualquiera de las versiones disponibles de SageMaker Distribution, ejecuta los siguientes comandos, reemplazando el parámetro --file
con los archivos de entorno correctos:
conda create --name conda-sagemaker-distribution \
--file sagemaker-distribution/build_artifacts/v0/v0.2/v0.2.1/cpu.env.out
# activa el entorno
conda activate conda-sagemaker-distribution
Personalizar la imagen de distribución de SageMaker de código abierto
La imagen de distribución de SageMaker de código abierto tiene los paquetes más comúnmente utilizados para la ciencia de datos y el aprendizaje automático. Sin embargo, los científicos de datos pueden requerir acceso a paquetes adicionales y los clientes empresariales pueden tener paquetes propietarios que brinden capacidades adicionales para sus usuarios. En estos casos, existen varias opciones para tener un entorno de ejecución con todos los paquetes necesarios. En orden de complejidad creciente, se enumeran de la siguiente manera:
- Puede instalar paquetes directamente en el cuaderno. Recomendamos Conda y micromamba, pero pip también funciona.
- Los científicos de datos familiarizados con Conda para la gestión de paquetes pueden reproducir el entorno Conda de SageMaker Distribution en otro lugar e instalar y administrar paquetes adicionales en ese entorno a partir de entonces.
- Si los administradores desean un entorno de ejecución repetible y controlado para sus usuarios, pueden extender las imágenes Docker de SageMaker Distribution y mantener su propia imagen. Consulte Traiga su propia imagen de SageMaker para obtener instrucciones detalladas sobre cómo crear y usar una imagen personalizada en Studio.
Limpieza
Si experimentó con SageMaker Studio, cierre todas las aplicaciones de Studio para evitar pagar por el uso de computación no utilizado. Consulte Cierre y actualización de aplicaciones de Studio para obtener instrucciones.
Conclusión
Hoy anunciamos el lanzamiento de la imagen de distribución de SageMaker de código abierto dentro de SageMaker Studio. Le mostramos cómo usar la imagen en SageMaker Studio como una de las imágenes de primera parte disponibles, cómo operacionalizar sus scripts utilizando el decorador @remote del SageMaker Python SDK, cómo reproducir los entornos Conda de SageMaker Distribution fuera de Studio y cómo personalizar la imagen. ¡Le animamos a probar SageMaker Distribution y compartir sus comentarios a través de GitHub!
Referencias adicionales
- Documentación de SageMaker-distribution
- Contribuciones de AWS en JupyterCon en 2023
- Empezar en SageMaker Studio
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- El Gobierno Japonés adaptará la tecnología ChatGPT para tareas administrativas
- ¿Está la Ciencia de la Decisión convirtiéndose silenciosamente en la nueva Ciencia de Datos?
- Detección automatizada de engaños investigadores de la Universidad de Tokio utilizan expresiones faciales y ritmos cardíacos para desenmascarar el engaño a través del aprendizaje automático
- Sesiones de laboratorio Una nueva serie de colaboraciones experimentales de IA
- Nuevo ataque afecta a importantes chatbots de IA y nadie sabe cómo detenerlo
- Meta planea integrar personas impulsadas por IA en sus servicios
- Inflection-1 La Próxima Frontera de la IA Personal