Por qué SQL es EL lenguaje que debes aprender para Ciencia de Datos

Por qué SQL es EL lenguaje imprescindible que debes aprender para Ciencia de Datos

“¡Python!” “No, R.” “Tontos, obviamente es Rust.”

Muchos aprendices y expertos en ciencia de datos están ansiosos por encontrar el mejor lenguaje para la ciencia de datos. En mi opinión, la mayoría de las personas están equivocadas. En medio de la búsqueda del lenguaje más nuevo, el más sexy, el más adecuado para la ciencia de datos en contenedores, las personas están buscando lo incorrecto.

Es fácil pasar por alto. Es fácil incluso descartarlo como un lenguaje. Pero el humilde Lenguaje de Consulta Estructurado, o SQL, es mi elección como el lenguaje para aprender para la ciencia de datos. Todos esos otros lenguajes ciertamente tienen su lugar, pero SQL es el lenguaje no negociable que considero un requisito básico para cualquier persona que trabaje en ciencia de datos. Aquí está el por qué.

Un lenguaje universal para bases de datos

Mira, las bases de datos van de la mano con la ciencia de datos. Está en el nombre. Si estás trabajando con ciencia de datos, estás trabajando con bases de datos. Y si estás trabajando con bases de datos, probablemente estés trabajando con SQL.

¿Por qué? Porque SQL es el lenguaje universal de consulta de bases de datos. No hay otro. Imagina que alguien te dijera que si aprendieras un lenguaje específico, podrías hablar y entender a todas las personas de la Tierra. ¿Qué tan valioso sería eso? SQL es ese lenguaje en la ciencia de datos, el lenguaje que todos usan para administrar y acceder a las bases de datos.

Todo científico de datos necesita acceder y recuperar datos, explorar datos y construir hipótesis, filtrar, agregar y ordenar datos. Y para eso, todo científico de datos necesitará SQL. Siempre y cuando sepas cómo escribir una consulta SQL, llegarás lejos.

Alguien que está leyendo este artículo en este momento está mencionando el movimiento NoSQL. De hecho, ciertos datos ahora se almacenan más comúnmente en bases de datos no relacionales, como pares de clave-valor o datos de gráficos. Es cierto que hay beneficios al almacenar datos de esa manera, obtienes más escalabilidad y flexibilidad. Pero no hay un lenguaje de consulta NoSQL estándar. Puede que aprendas uno para un trabajo y luego necesites aprender uno completamente nuevo para otro trabajo.

Además, rara vez encontrarás una empresa que trabaje completamente con bases de datos NoSQL, mientras que muchas empresas no necesitan bases de datos no relacionales.

Limpieza y procesamiento

Hay una estadística famosa (y desacreditada) sobre cómo los científicos de datos pasan el 80% de su tiempo limpiando datos. Si bien no es cierto, creo que si le preguntas a cualquier científico de datos en qué invierte su tiempo, la limpieza de datos estará entre las cinco tareas principales. Por eso esta sección es la más larga.

Puedes limpiar y procesar datos con otros lenguajes, pero SQL en particular ofrece ventajas únicas para ciertos aspectos de la limpieza y procesamiento de datos.

El lenguaje de consulta expresivo de SQL permite a los científicos de datos filtrar, ordenar y agregar datos de manera eficiente mediante declaraciones concisas. Este nivel de flexibilidad es especialmente útil al tratar con conjuntos de datos grandes donde la manipulación manual de datos sería lenta y propensa a errores. Compara eso con un lenguaje como Python, donde lograr tareas similares de manipulación de datos podría requerir escribir más líneas de código y lidiar con bucles, condiciones y bibliotecas externas. Si bien Python es conocido por su versatilidad y rico ecosistema de bibliotecas de ciencia de datos, la sintaxis enfocada de SQL puede agilizar las operaciones rutinarias de limpieza de datos, permitiendo a los científicos de datos preparar rápidamente los datos para el análisis.

Además, cualquier científico de datos se quejará de la pesadilla de su existencia: los valores faltantes. Las funciones y capacidades de SQL para manejar valores faltantes, como el uso de COALESCE, CASE y el manejo de NULL, ofrecen enfoques directos para abordar las brechas en los datos sin necesidad de una lógica de programación compleja.

Otra pesadilla en la vida de un científico de datos son los duplicados. Afortunadamente, SQL ofrece métodos eficientes para identificar y eliminar registros duplicados de conjuntos de datos, como la palabra clave `DISTINCT` y la cláusula `GROUP BY`.

Probablemente hayas oído hablar de los pipelines ETL. Bueno, SQL se puede utilizar para crear pipelines de transformación de datos, que toman datos en bruto o semi-procesados y los convierten en un formato adecuado para el análisis. Esto es particularmente beneficioso para automatizar y estandarizar esos procesos repetitivos de limpieza de datos que todos conocemos y odiamos.

La capacidad de SQL para unir tablas de diferentes bases de datos o archivos agiliza el proceso de fusión de datos para el análisis y es esencial para proyectos que implican integración de datos o agregación de datos de diversas fuentes. Lo cual, para un científico de datos, comprende la mayoría de los proyectos.

Por último, me gusta recordar a la gente que la ciencia de datos no sucede en el vacío. Las consultas SQL son autocontenidas y se pueden compartir fácilmente con colegas. Esto fomenta la colaboración y asegura que otros puedan reproducir los pasos de limpieza de datos sin intervención manual.

Juega bien con los demás

Ahora, no llegarás muy lejos en la ciencia de datos si solo sabes SQL. Pero afortunadamente, SQL se integra perfectamente con cualquier otro de los principales lenguajes de ciencia de datos como R, Python, Julia o Rust. Obtienes todos los beneficios del análisis, visualización de datos y aprendizaje automático, al tiempo que retienes la fortaleza de SQL para la manipulación de datos.

Esto es especialmente poderoso cuando piensas en toda la limpieza y procesamiento de datos de los que hablé anteriormente. Puedes usar SQL para preprocesar y limpiar datos directamente dentro de las bases de datos, y luego confiar en Python, R, Julia o Rust para realizar transformaciones de datos más avanzadas o ingeniería de características, aprovechando las extensas bibliotecas disponibles.

Muchas organizaciones dependen de SQL, o más precisamente, dependen de los científicos de datos que saben cómo usar SQL, para generar informes, paneles y visualizaciones que informan la toma de decisiones. La familiaridad con SQL permite a los científicos de datos producir informes significativos directamente desde las bases de datos. Y debido a que SQL es tan extendido, estos informes suelen ser compatibles e interoperables con casi cualquier sistema.

Debido a su interoperabilidad con herramientas de informes y lenguajes de script como Python, R y JavaScript, los científicos de datos pueden automatizar los procesos de generación de informes, combinando sin problemas las capacidades de extracción y manipulación de datos de SQL con las funciones de visualización e informes de estos lenguajes. El resultado es obtener informes exhaustivos y perspicaces que comunican de manera efectiva los conocimientos impulsados por datos a las partes interesadas, todo en un solo lugar.

Trabajos, trabajos, trabajos

Hay una razón por la que te harán un montón de preguntas de entrevista de SQL en cualquier entrevista de ciencia de datos. Casi todos los trabajos de ciencia de datos requieren al menos una familiaridad básica con SQL.

Aquí tienes un ejemplo de lo que quiero decir: el anuncio de trabajo dice: “Experiencia en SQL, y R o Python para análisis de datos y desarrollo de plataformas”. En otras palabras, SQL es imprescindible. Y luego o R o Python, pero uno es tan bueno como otro para la mayoría de los empleadores. Pero gracias al dominio de SQL, no hay alternativa a SQL. Todo trabajo de ciencia de datos requerirá que trabajes con SQL.

Lo realmente genial es que esto hace que SQL sea la herramienta definitiva transferible. Un trabajo puede preferir Python, mientras que una startup puede requerir Rust debido a preferencias personales o infraestructura heredada. Pero no importa a dónde vayas o qué hagas, es SQL o nada. Tómate el tiempo para aprenderlo y siempre podrás cumplir con un requisito de trabajo.

En última instancia, si encuentras un trabajo como científico de datos que no requiere SQL, probablemente no estarás haciendo mucha ciencia de datos en absoluto.

¿Por qué es SQL tan necesario para la ciencia de datos?

Realmente todo se reduce a la base de datos. La ciencia de datos requiere el almacenamiento, manipulación, recuperación y gestión de una gran cantidad de datos. Ese dato vive en algún lugar. Normalmente solo se puede acceder con una herramienta, y esa herramienta es SQL. SQL es el lenguaje que hay que aprender para la ciencia de datos y lo será mientras dependamos de bases de datos para hacer ciencia de datos. Nate Rosidi es un científico de datos y estrategia de productos. También es profesor adjunto que enseña análisis de datos y es el fundador de StrataScratch, una plataforma que ayuda a los científicos de datos a prepararse para sus entrevistas con preguntas reales de empresas importantes. Conéctate con él en Twitter: StrataScratch o LinkedIn.

****[Nate Rosidi](https://twitter.com/StrataScratch)**** es un científico de datos y estratega de productos. También es profesor adjunto de análisis y fundador de StrataScratch, una plataforma que ayuda a los científicos de datos a prepararse para sus entrevistas con preguntas reales de las principales empresas. Conéctate con él en Twitter: StrataScratch o LinkedIn.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Este artículo de IA revela las implicaciones de ciberseguridad de los modelos de IA generativa riesgos, oportunidades y desafíos éticos'.

Los modelos de IA generativa (GenAI), como ChatGPT, Google Bard y GPT de Microsoft, han revolucionado la interacción ...

Inteligencia Artificial

Una guía completa de Distributed Data Parallel (DDP)

¡Hola a todos! Soy François, científico investigador en Meta. Bienvenidos a este nuevo tutorial parte de la serie Tut...

Inteligencia Artificial

6 Mitos sobre la Inteligencia Artificial Desacreditados Separando la Realidad de la Ficción

Descubre la verdad detrás de los mitos populares de la IA y sumérgete en las auténticas capacidades e impacto de la I...