La Distribución de SageMaker está ahora disponible en Amazon SageMaker Studio

Distribución de SageMaker disponible en Amazon SageMaker Studio

SageMaker Distribution es una imagen de Docker preconstruida que contiene muchos paquetes populares para machine learning (ML), ciencia de datos y visualización de datos. Esto incluye frameworks de deep learning como PyTorch, TensorFlow y Keras; paquetes populares de Python como NumPy, scikit-learn y pandas; e IDEs como JupyterLab. Además de esto, SageMaker Distribution es compatible con conda, micromamba y pip como gestores de paquetes de Python.

En mayo de 2023, lanzamos SageMaker Distribution como un proyecto de código abierto en JupyterCon. Este lanzamiento te ayudó a utilizar SageMaker Distribution para ejecutar experimentos en tus entornos locales. Ahora estamos proporcionando nativamente esa imagen en Amazon SageMaker Studio para que obtengas los beneficios de alto rendimiento, computación y seguridad al ejecutar tus experimentos en Amazon SageMaker.

En comparación con el lanzamiento anterior de código abierto, tienes las siguientes capacidades adicionales:

  • La imagen de código abierto ahora está disponible como una imagen de primera parte en SageMaker Studio. Ahora simplemente puedes elegir la distribución de SageMaker de código abierto de la lista al seleccionar una imagen y un kernel para tus cuadernos, sin necesidad de crear una imagen personalizada.
  • El paquete SageMaker Python SDK ahora está integrado en la imagen.

En esta publicación, mostramos las características y ventajas de utilizar la imagen de SageMaker Distribution.

Utilizar SageMaker Distribution en SageMaker Studio

Si tienes acceso a un dominio de Studio existente, puedes iniciar SageMaker Studio. Para crear un dominio de Studio, sigue las instrucciones en Empezar con un dominio de Amazon SageMaker.

  1. En la interfaz de usuario de SageMaker Studio, selecciona Archivo en la barra de menú, elige Nuevo y selecciona Cuaderno de notas.
  2. Cuando se te solicite la imagen y la instancia, elige la imagen SageMaker Distribution v0 CPU o SageMaker Distribution v0 GPU.
  3. Elige tu Kernel y luego selecciona Seleccionar.

¡Ahora puedes empezar a ejecutar tus comandos sin necesidad de instalar paquetes y frameworks de ML comunes! También puedes ejecutar cuadernos que ejecutan frameworks compatibles como PyTorch y TensorFlow desde el repositorio de ejemplos de SageMaker, sin tener que cambiar los kernels activos.

Ejecutar código de forma remota utilizando SageMaker Distribution

En el anuncio de la versión beta pública, discutimos la transición de los cuadernos desde entornos de cómputo locales a SageMaker Studio, así como la operacionalización del cuaderno mediante trabajos de cuaderno.

Además, puedes ejecutar directamente el código de tu cuaderno local como un trabajo de entrenamiento de SageMaker simplemente agregando un decorador @remote a tu función.

Veamos un ejemplo. Agrega el siguiente código a tu cuaderno de Studio que se está ejecutando en la imagen de SageMaker Distribution:

from sagemaker.remote_function import remote

@remote(instance_type="ml.m5.xlarge", dependencies='./requirements.txt')
def divide(x, y):
    return x / y

divide(2, 3.0)

Cuando ejecutes la celda, la función se ejecutará como un trabajo de entrenamiento remoto de SageMaker en una instancia de cuaderno ml.m5.xlarge, y el SDK seleccionará automáticamente la imagen de SageMaker Distribution como la imagen de entrenamiento en Amazon Elastic Container Registry (Amazon ECR). Para cargas de trabajo de deep learning, también puedes ejecutar tu script en múltiples instancias paralelas.

Reproducir entornos Conda de SageMaker Distribution en otros lugares

SageMaker Distribution está disponible como una imagen de Docker pública. Sin embargo, para los científicos de datos que están más familiarizados con los entornos Conda que con Docker, el repositorio de GitHub también proporciona los archivos de entorno para cada compilación de imagen para que puedas construir entornos Conda tanto para las versiones de CPU como de GPU.

Los artefactos de compilación para cada versión se almacenan en el directorio sagemaker-distribution/build_artifacts. Para crear el mismo entorno que cualquiera de las versiones disponibles de SageMaker Distribution, ejecuta los siguientes comandos, reemplazando el parámetro --file con los archivos de entorno correctos:

conda create --name conda-sagemaker-distribution \
  --file sagemaker-distribution/build_artifacts/v0/v0.2/v0.2.1/cpu.env.out
# activa el entorno
conda activate conda-sagemaker-distribution

Personalizar la imagen de distribución de SageMaker de código abierto

La imagen de distribución de SageMaker de código abierto tiene los paquetes más comúnmente utilizados para la ciencia de datos y el aprendizaje automático. Sin embargo, los científicos de datos pueden requerir acceso a paquetes adicionales y los clientes empresariales pueden tener paquetes propietarios que brinden capacidades adicionales para sus usuarios. En estos casos, existen varias opciones para tener un entorno de ejecución con todos los paquetes necesarios. En orden de complejidad creciente, se enumeran de la siguiente manera:

  • Puede instalar paquetes directamente en el cuaderno. Recomendamos Conda y micromamba, pero pip también funciona.
  • Los científicos de datos familiarizados con Conda para la gestión de paquetes pueden reproducir el entorno Conda de SageMaker Distribution en otro lugar e instalar y administrar paquetes adicionales en ese entorno a partir de entonces.
  • Si los administradores desean un entorno de ejecución repetible y controlado para sus usuarios, pueden extender las imágenes Docker de SageMaker Distribution y mantener su propia imagen. Consulte Traiga su propia imagen de SageMaker para obtener instrucciones detalladas sobre cómo crear y usar una imagen personalizada en Studio.

Limpieza

Si experimentó con SageMaker Studio, cierre todas las aplicaciones de Studio para evitar pagar por el uso de computación no utilizado. Consulte Cierre y actualización de aplicaciones de Studio para obtener instrucciones.

Conclusión

Hoy anunciamos el lanzamiento de la imagen de distribución de SageMaker de código abierto dentro de SageMaker Studio. Le mostramos cómo usar la imagen en SageMaker Studio como una de las imágenes de primera parte disponibles, cómo operacionalizar sus scripts utilizando el decorador @remote del SageMaker Python SDK, cómo reproducir los entornos Conda de SageMaker Distribution fuera de Studio y cómo personalizar la imagen. ¡Le animamos a probar SageMaker Distribution y compartir sus comentarios a través de GitHub!

Referencias adicionales

  • Documentación de SageMaker-distribution
  • Contribuciones de AWS en JupyterCon en 2023
  • Empezar en SageMaker Studio

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

¿Puede la IA realmente restaurar detalles faciales de imágenes de baja calidad? Conozca DAEFR un marco de doble rama para mejorar la calidad

En el campo del procesamiento de imágenes, recuperar información de alta definición de fotografías faciales de mala c...

Inteligencia Artificial

Investigadores de Stanford y Salesforce AI presentan UniControl un modelo de difusión unificado para el control avanzado en la generación de imágenes de IA.

Los modelos generativos fundamentales son una clase de modelos de inteligencia artificial diseñados para generar nuev...

Inteligencia Artificial

Destilando lo que sabemos

Los investigadores buscan reducir el tamaño de los modelos GPT grandes.

Inteligencia Artificial

Investigación en Stanford presenta PointOdyssey un conjunto de datos sintético a gran escala para el seguimiento de puntos a largo plazo

Los conjuntos de datos anotados a gran escala han servido como una autopista para crear modelos precisos en varias ta...

Inteligencia Artificial

ChatGPT Plugins Todo lo que necesitas saber

Aprenda más sobre los complementos de terceros que OpenAI ha lanzado para comprender ChatGPTs en uso en el mundo real.