3 proyectos de ciencia de datos garantizados para conseguir ese trabajo

3 proyectos de ciencia de datos para conseguir ese trabajo garantizado

¡Una declaración bastante audaz! Asegurar que puedo garantizar que alguien consiga un trabajo, eso es.

Bueno, la verdad es que nada en la vida está garantizado, especialmente encontrar un trabajo. Ni siquiera en ciencia de datos. Pero lo que te acerca muuuucho, mucho a la garantía es tener proyectos de datos en tu portafolio.

¿Por qué creo que los proyectos son tan determinantes? Porque, si se eligen con sabiduría, muestran de manera más efectiva la amplitud y profundidad de tus habilidades técnicas en ciencia de datos. La calidad de los proyectos es lo que cuenta, no su cantidad. Deben cubrir tantas habilidades de ciencia de datos como sea posible.

Entonces, ¿qué proyectos te garantizan eso con el menor número de proyectos? Si solo pudieras hacer tres proyectos, seleccionaría estos.

Pero no lo tomes demasiado literalmente. El mensaje aquí no es que debas ceñirte estrictamente a esos tres. Los seleccioné porque cubren la mayoría de las habilidades técnicas requeridas en ciencia de datos. Si quieres hacer otros proyectos de ciencia de datos, siéntete libre de hacerlo. Pero si estás limitado por el tiempo/número de proyectos, elige con sabiduría y selecciona aquellos que pongan a prueba la mayor cantidad de habilidades de ciencia de datos.

Hablando de eso, aclaremos cuáles son.

Habilidades Técnicas para Buscar en Proyectos de Ciencia de Datos

Hay cinco habilidades fundamentales en ciencia de datos.

Python
Manipulación de Datos
Análisis Estadístico
Aprendizaje Automático
Visualización de Datos

Esta es una lista de verificación que deberías considerar al intentar obtener el máximo provecho de los proyectos de ciencia de datos que elijas.

Aquí tienes una descripción general de lo que abarcan estas habilidades.

Por supuesto, hay mucho más en las habilidades de ciencia de datos. También incluyen el conocimiento de SQL y R, tecnologías de big data, aprendizaje profundo, procesamiento de lenguaje natural y computación en la nube.

Sin embargo, la necesidad de estas habilidades depende en gran medida de la descripción del trabajo. Pero las cinco habilidades fundamentales que mencioné, no puedes prescindir de ellas.

Veamos ahora cómo los tres proyectos de ciencia de datos que elegí desafían estas habilidades.

3 Proyectos de Ciencia de Datos para Ejercitar Habilidades Fundamentales de Ciencia de Datos

Algunos de estos proyectos pueden ser un poco demasiado avanzados para algunos. En ese caso, prueba estos 19 proyectos de ciencia de datos para principiantes.

1. Entendiendo la Oferta y Demanda de la Ciudad: Análisis de Negocios

Fuente: Información clave de Datos sobre Oferta y Demanda en la Ciudad

Tema: Análisis de Negocios

Panorama General: Las ciudades son centros de interacción de oferta y demanda para Uber. Analizar esto puede ofrecer conocimientos sobre el negocio y la planificación de la empresa. Uber te proporciona un conjunto de datos con detalles sobre los viajes. Debes responder once preguntas para ofrecer una visión de negocio sobre los viajes, su tiempo, la demanda de conductores, etc.

Ejecución del Proyecto: Se te dan once preguntas que deben ser respondidas en el orden mostrado. Responderlas implica tareas como:

Rellenar los valores faltantes,
Agregar datos,
Encontrar los valores más grandes,
Analizar intervalos de tiempo,
Calcular porcentajes,
Calcular promedios ponderados,
Buscar diferencias,
Visualizar datos, y así sucesivamente.

Habilidades destacadas: Análisis exploratorio de datos (EDA) para seleccionar columnas necesarias y completar los valores faltantes, obtener información relevante sobre viajes completados (diferentes períodos, relación promedio ponderada de viajes por conductor, encontrar las horas más ocupadas para ayudar a elaborar un horario para los conductores, la relación entre oferta y demanda, etc.), visualizar la relación entre oferta y demanda.

2. Predicción de la fuga de clientes: una tarea de clasificación

Fuente: Predicción de fuga de clientes

Tema: Aprendizaje supervisado (clasificación)

Resumen breve: En este proyecto de ciencia de datos, Sony Research te proporciona un conjunto de datos de los clientes de una compañía de telecomunicaciones. Esperan que realices un análisis exploratorio y extraigas ideas. Luego tendrás que construir un modelo de predicción de fuga, evaluarlo y discutir los problemas al implementar el modelo en producción.

Ejecución del proyecto: El proyecto debe abordarse en estas fases principales.

Análisis exploratorio y extracción de ideas

- Verificar los fundamentos de los datos (nulos, unicidad)
- Elegir los datos que necesitas y formar tu conjunto de datos
- Visualizar los datos para verificar la distribución de los valores
- Formar una matriz de correlación
- Verificar las importancias de las características

División de entrenamiento/prueba

- Usar sklearn para dividir el conjunto de datos en entrenamiento y prueba con una relación del 80%-20%

Modelo predictivo

- Aplicar clasificadores y elegir uno para usar en producción según su rendimiento

Métricas

- Usar precisión y puntuación F1 al comparar el rendimiento de diferentes algoritmos

Resultados del modelo

- Usar modelos clásicos de aprendizaje automático
- Visualizar el árbol de decisiones y ver cómo funcionan los algoritmos basados en árboles

Modelo de aprendizaje profundo

- Probar una red neuronal artificial (ANN) en este problema

Problemas de implementación

- Supervisar el rendimiento del modelo para evitar cambios en los datos y el concepto en el ciclo de MLOps

Habilidades destacadas: Análisis exploratorio de datos (EDA) y manipulación de datos para verificar nulos, unicidad de los datos, obtener información sobre la distribución de los datos y correlaciones positivas y negativas; visualización de datos en histogramas y matriz de correlación; aplicación de clasificadores de aprendizaje automático utilizando la biblioteca sklearn, medición de la precisión y puntuación F1 de los algoritmos, comparación de los algoritmos, visualización del árbol de decisiones; uso de una red neuronal artificial para ver cómo se desempeña el aprendizaje profundo; implementación del modelo donde es necesario tener en cuenta los problemas de cambios en los datos y el concepto en el ciclo de MLOps.

3. Policiamiento predictivo: Examinando las implicancias

Fuente: Los peligros del policimiento predictivo

Tema: Aprendizaje supervisado (regresión)

Resumen breve: Este policimiento predictivo utiliza algoritmos y análisis de datos para predecir dónde es probable que ocurran delitos. Tu enfoque elegido puede tener profundas implicaciones éticas y sociales. Utiliza los datos de delitos de la Ciudad de San Francisco en el año 2016 de su iniciativa de datos abiertos. El proyecto intentará predecir el número de incidentes delictivos en un código postal dado en un día de la semana y a una hora del día determinados.

Ejecución del proyecto: Estos son los principales pasos que el autor del proyecto ha realizado.

Selección de variables y cálculo del número total de delitos por año, por código postal, por hora

Divide los datos en entrenamiento y prueba de manera cronológica
Prueba cinco algoritmos de regresión:

- Regresión Lineal
- Random Forest
- K Vecinos Más Cercanos (K-Nearest Neighbors)
- XGBoost
- Perceptrón Multicapa (Multilayer Perceptron)

Habilidades destacadas: Análisis exploratorio de datos (EDA) y manipulación de datos donde obtienes información sobre crímenes, hora, día de la semana y código postal; ML (aprendizaje supervisado/regresión) donde pruebas el rendimiento de regresión lineal, random forest regressor, K-nearest neighbor, XGBoost; aprendizaje profundo donde utilizas el perceptrón multicapa para intentar explicar los resultados obtenidos; obtener ideas sobre la predicción de crímenes y su posible mal uso; implementar el modelo en un mapa interactivo.

Si deseas realizar más proyectos utilizando habilidades similares, aquí hay más de 30 ideas de proyectos de ML.

Conclusión

Al completar estos proyectos de ciencia de datos, probarás y adquirirás habilidades esenciales de ciencia de datos, como la manipulación de datos, visualización de datos, análisis estadístico, construcción e implementación de modelos de ML.

Hablando de ML, me enfoqué aquí en el aprendizaje supervisado, ya que es más comúnmente utilizado en ciencia de datos. Puedo casi garantizarte que estos proyectos de ciencia de datos serán suficientes para conseguir el trabajo que deseas.

Pero debes leer detenidamente la descripción del trabajo. Si ves que se requiere aprendizaje no supervisado, procesamiento del lenguaje natural o algo más que no cubrí aquí, incluye uno o dos proyectos de ese tipo en tu portafolio.

No importa qué, aún no estás limitado a solo tres proyectos. Están aquí para guiarte sobre cómo elegir tus proyectos que te garantizarán conseguir un trabajo. Ten en cuenta la complejidad de los proyectos, ya que deberían abarcar ampliamente habilidades fundamentales de ciencia de datos.

¡Ahora ve y consigue ese trabajo! Nate Rosidi es un científico de datos y estratega de productos. También es profesor adjunto enseñando análisis y es el fundador de StrataScratch, una plataforma que ayuda a los científicos de datos a prepararse para sus entrevistas con preguntas de entrevistas reales de las principales empresas. Conéctate con él en Twitter: StrataScratch o LinkedIn.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Career Advice

Was this article helpful?

93 out of 132 found this helpful

3 proyectos de ciencia de datos garantizados para conseguir ese trabajo

Habilidades Técnicas para Buscar en Proyectos de Ciencia de Datos

3 Proyectos de Ciencia de Datos para Ejercitar Habilidades Fundamentales de Ciencia de Datos

1. Entendiendo la Oferta y Demanda de la Ciudad: Análisis de Negocios

2. Predicción de la fuga de clientes: una tarea de clasificación

3. Policiamiento predictivo: Examinando las implicancias

Conclusión

Was this article helpful?

Meta AI presenta AnyMAL el futuro de los modelos de lenguaje multimodal que conecta texto, imágenes, videos, audio y datos de sensores de movimiento.

¿Cómo podemos prever nuestra relación con la IA?

Inteligencia Artificial

Fortaleciendo la industria de semiconductores de EE. UU.

Microsoft AI propone MM-REACT un paradigma del sistema que combina ChatGPT y expertos en visión para un razonamiento y acción multimodal avanzados.

Investigadores de Microsoft y la Universidad de Tsinghua proponen SCA (Segment and Caption Anything) para equipar de manera eficiente al modelo SAM con la capacidad de generar subtítulos regionales

6 Mitos sobre la Inteligencia Artificial Desacreditados Separando la Realidad de la Ficción

Este artículo de IA de la Universidad de Tokio ha aplicado el aprendizaje profundo al problema de la simulación de supernovas.

David Autor nombrado Científico Distinguido NOMIS 2023