Optimizando el análisis de datos Integrando GitHub Copilot en Databricks

Mejorando el análisis de datos al integrar GitHub Copilot en Databricks

 

Introducción

 

GitHub Copilot es un asistente de completado de código impulsado por inteligencia artificial desarrollado por GitHub y en colaboración con OpenAI, que utiliza el modelo ChatGPT. Está diseñado para ayudar a los desarrolladores a acelerar su proceso de codificación al tiempo que minimiza los errores. El modelo subyacente se entrena en una combinación de código con licencia de los propios repositorios de GitHub y código disponible públicamente, dotándolo de una amplia comprensión de los paradigmas de programación.

Por otro lado, Databricks, una plataforma abierta de análisis en la nube fundada por los creadores originales de Apache Spark, permite a las organizaciones construir pipelines de análisis de datos y aprendizaje automático de manera fluida, acelerando así la innovación. Además, fomenta el trabajo colaborativo entre los usuarios.

Integrar GitHub Copilot con Databricks permite a los ingenieros de análisis de datos y de aprendizaje automático implementar soluciones de manera eficiente y en un tiempo efectivo. Esta integración facilita el desarrollo de código más fluido, mejora la calidad y estandarización del código, aumenta la eficiencia entre diferentes lenguajes de programación, acelera el desarrollo de prototipos y ayuda en la documentación, elevando así la productividad y eficiencia de los ingenieros.

Requisitos previos para la integración de GitHub Copilot y Databricks:

Cuenta de Databricks configurada.

Configuración de GitHub Copilot.

Descarga e instalación de Visual Studio Code.

 

Pasos para la integración

 

Instalar el complemento de Databricks en Visual Studio Code Marketplace.

  

Configurar el complemento de Databricks en Visual Studio Code. Si has utilizado la línea de comandos de Databricks antes, ya estará configurado localmente en el archivo databrickscfg. Si no, crea el siguiente contenido en el archivo ~/.databrickscfg.

[DEFAULT]host = https://xxxtoken = <token>jobs-api-version = 2.0

 

Haz clic en la opción “Configurar Databricks”, luego elige la primera opción del menú desplegable, que muestra el nombre de host configurado en el paso anterior, y continúa con el perfil “DEFAULT”.

  

Después de completar la configuración, se establece una conexión de Databricks con Visual Studio Code. Puedes ver los detalles de configuración del espacio de trabajo y el clúster cuando hagas clic en el complemento de Databricks.

Una vez que un usuario haya completado la configuración de la cuenta de GitHub Copilot, asegúrate de tener acceso a GitHub Copilot. Instala GitHub Copilot y los complementos de GitHub Copilot Chat en VSCode a través del Marketplace.

  

Una vez que un usuario haya instalado los complementos de GitHub Copilot y Copilot Chat, se le pedirá que inicie sesión en GitHub Copilot a través de Visual Studio IDE. Si no se le solicita autorización, haz clic en el icono de campana en el panel inferior de Visual Studio Code IDE.

  

Ahora es el momento de desarrollar con GitHub Copilot

 

Desarrollo de un pipeline de ingeniería de datos

 

Los ingenieros de datos pueden utilizar GitHub Copilot para escribir pipelines de ingeniería de datos de manera más rápida, incluyendo la documentación, en poco tiempo. A continuación se presentan los pasos para crear un pipeline de ingeniería de datos simple utilizando técnicas de sugerencia.

Leer archivos del bucket S3 utilizando Python y el framework Spark.

  

Escribir un marco de datos en un cubo S3 utilizando Python y el framework Spark

  

Ejecutar las funciones a través del método principal: Representado de la misma forma en la consola y resultado del código con los pasos de ejecución

 

 

Beneficios de usar GitHub Copilot para la ingeniería de datos y el aprendizaje automático en Databricks

 

  • Herramienta de programación de IA para sugerencias rápidas y sensibles, ofrece código de plantilla.
  • Sugerencias de primera categoría para optimizar el código y el tiempo de ejecución.
  • Mejor documentación y representación ASCII de los pasos lógicos.
  • Implementación más rápida de canalización de datos con errores mínimos.
  • Explicación detallada de la funcionalidad existente, tanto simple como compleja, y técnicas inteligentes de refactorización de código.

 

Hoja de trucos

 

  • Abre una barra de texto/búsqueda de Copilot donde puedes ingresar tus indicaciones.

     Windows: [Ctrl] + [I] 

    Mac: Comando + [I]

  • Abre una ventana separada a la derecha con las 10 mejores sugerencias de código.

    Windows: [Ctrl] + [Enter]

    Mac: [control] + [enter]

  

  • Abre una ventana de chat separada de Copilot en el lado izquierdo.

    Windows: [Ctrl] + [Alt] + [I]

    Mac: [Control] + [Comando] + [I]

  • Descarta una sugerencia en línea.

    Windows/Mac: Esc

  • Acepta una sugerencia.

    Windows/Mac: Tab

  • Refiérete a sugerencias anteriores.

    Windows: [Alt] + [

    Mac: [opción] + [

  • Verifica la siguiente sugerencia.

    Windows: [Alt] + ]

    Mac: [opción] + ]

 

Conclusión

 

La integración de herramientas de programación de IA con entornos de desarrollo integrados ayuda a los desarrolladores a acelerar el desarrollo con sugerencias de código en tiempo real, reduciendo el tiempo dedicado a consultar documentación para obtener código de plantilla y sintaxis, y permitiendo a los desarrolladores centrarse en la innovación y en resolver problemas empresariales.

 

Recursos adicionales

 

  

[Naresh Vurukonda](http://www.linkedin.com/in/naresh-vurukonda-a23861124) es un arquitecto principal con más de 10 años de experiencia en la construcción de proyectos de ingeniería de datos y aprendizaje automático en organizaciones de atención médica, ciencias de la vida y redes de medios.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Noticias de Inteligencia Artificial

Productores de alimentos se unen frente a amenazas cibernéticas.

Los ejecutivos de empresas de alimentos y agricultura de EE. UU. dicen que están formalizando colaborativamente el in...

Inteligencia Artificial

EE. UU. y la UE completan el tan esperado acuerdo sobre el intercambio de datos

El acuerdo pone fin a la incertidumbre legal para Meta, Google y decenas de empresas, al menos por ahora.

Aprendizaje Automático

¿Qué son los Modelos de Lenguaje Grandes (LLMs)? Aplicaciones y Tipos de LLMs

Los programas informáticos llamados modelos de lenguaje grandes proporcionan opciones novedosas para analizar y crear...

Ciencias de la Computación

Un algoritmo para películas de proteínas más nítidas

Los investigadores han creado un algoritmo para analizar con mayor precisión el movimiento ultra rápido de las proteí...

Inteligencia Artificial

Grupo de noticias dice que los chatbots de inteligencia artificial dependen en gran medida del contenido de noticias

La News Media Alliance, un grupo comercial que representa a los periódicos, afirma que los chatbots de inteligencia a...

Inteligencia Artificial

Investigación de AI de SalesForce ha desarrollado ProGen Un gran avance en la ingeniería de proteínas mediante el uso de inteligencia artificial.

El desarrollo de proteínas funcionales ha sido durante mucho tiempo una búsqueda crítica en diversos campos científic...