3 proyectos de ciencia de datos garantizados para conseguir ese trabajo
3 proyectos de ciencia de datos para conseguir ese trabajo garantizado
¡Una declaración bastante audaz! Asegurar que puedo garantizar que alguien consiga un trabajo, eso es.
Bueno, la verdad es que nada en la vida está garantizado, especialmente encontrar un trabajo. Ni siquiera en ciencia de datos. Pero lo que te acerca muuuucho, mucho a la garantía es tener proyectos de datos en tu portafolio.
¿Por qué creo que los proyectos son tan determinantes? Porque, si se eligen con sabiduría, muestran de manera más efectiva la amplitud y profundidad de tus habilidades técnicas en ciencia de datos. La calidad de los proyectos es lo que cuenta, no su cantidad. Deben cubrir tantas habilidades de ciencia de datos como sea posible.
- Investigadores de ETH Zurich y Microsoft presentan SCREWS Un marco de inteligencia artificial para mejorar el razonamiento en modelos de lenguaje grandes.
- Últimos avances en el campo de la IA multimodal (ChatGPT + DALLE 3) + (Google BARD + extensiones) y muchos más…
- Meta AI presenta AnyMAL el futuro de los modelos de lenguaje multimodal que conecta texto, imágenes, videos, audio y datos de sensores de movimiento.
Entonces, ¿qué proyectos te garantizan eso con el menor número de proyectos? Si solo pudieras hacer tres proyectos, seleccionaría estos.
- Información clave de Datos sobre Oferta y Demanda en la Ciudad
- Predicción de Abandono de Clientes
- Policía Predictiva
Pero no lo tomes demasiado literalmente. El mensaje aquí no es que debas ceñirte estrictamente a esos tres. Los seleccioné porque cubren la mayoría de las habilidades técnicas requeridas en ciencia de datos. Si quieres hacer otros proyectos de ciencia de datos, siéntete libre de hacerlo. Pero si estás limitado por el tiempo/número de proyectos, elige con sabiduría y selecciona aquellos que pongan a prueba la mayor cantidad de habilidades de ciencia de datos.
Hablando de eso, aclaremos cuáles son.
Habilidades Técnicas para Buscar en Proyectos de Ciencia de Datos
Hay cinco habilidades fundamentales en ciencia de datos.
- Python
- Manipulación de Datos
- Análisis Estadístico
- Aprendizaje Automático
- Visualización de Datos
Esta es una lista de verificación que deberías considerar al intentar obtener el máximo provecho de los proyectos de ciencia de datos que elijas.
Aquí tienes una descripción general de lo que abarcan estas habilidades.
Por supuesto, hay mucho más en las habilidades de ciencia de datos. También incluyen el conocimiento de SQL y R, tecnologías de big data, aprendizaje profundo, procesamiento de lenguaje natural y computación en la nube.
Sin embargo, la necesidad de estas habilidades depende en gran medida de la descripción del trabajo. Pero las cinco habilidades fundamentales que mencioné, no puedes prescindir de ellas.
Veamos ahora cómo los tres proyectos de ciencia de datos que elegí desafían estas habilidades.
3 Proyectos de Ciencia de Datos para Ejercitar Habilidades Fundamentales de Ciencia de Datos
Algunos de estos proyectos pueden ser un poco demasiado avanzados para algunos. En ese caso, prueba estos 19 proyectos de ciencia de datos para principiantes.
1. Entendiendo la Oferta y Demanda de la Ciudad: Análisis de Negocios
Fuente: Información clave de Datos sobre Oferta y Demanda en la Ciudad
Tema: Análisis de Negocios
Panorama General: Las ciudades son centros de interacción de oferta y demanda para Uber. Analizar esto puede ofrecer conocimientos sobre el negocio y la planificación de la empresa. Uber te proporciona un conjunto de datos con detalles sobre los viajes. Debes responder once preguntas para ofrecer una visión de negocio sobre los viajes, su tiempo, la demanda de conductores, etc.
Ejecución del Proyecto: Se te dan once preguntas que deben ser respondidas en el orden mostrado. Responderlas implica tareas como:
- Rellenar los valores faltantes,
- Agregar datos,
- Encontrar los valores más grandes,
- Analizar intervalos de tiempo,
- Calcular porcentajes,
- Calcular promedios ponderados,
- Buscar diferencias,
- Visualizar datos, y así sucesivamente.
Habilidades destacadas: Análisis exploratorio de datos (EDA) para seleccionar columnas necesarias y completar los valores faltantes, obtener información relevante sobre viajes completados (diferentes períodos, relación promedio ponderada de viajes por conductor, encontrar las horas más ocupadas para ayudar a elaborar un horario para los conductores, la relación entre oferta y demanda, etc.), visualizar la relación entre oferta y demanda.
2. Predicción de la fuga de clientes: una tarea de clasificación
Fuente: Predicción de fuga de clientes
Tema: Aprendizaje supervisado (clasificación)
Resumen breve: En este proyecto de ciencia de datos, Sony Research te proporciona un conjunto de datos de los clientes de una compañía de telecomunicaciones. Esperan que realices un análisis exploratorio y extraigas ideas. Luego tendrás que construir un modelo de predicción de fuga, evaluarlo y discutir los problemas al implementar el modelo en producción.
Ejecución del proyecto: El proyecto debe abordarse en estas fases principales.
- Análisis exploratorio y extracción de ideas
-
- Verificar los fundamentos de los datos (nulos, unicidad)
- Elegir los datos que necesitas y formar tu conjunto de datos
- Visualizar los datos para verificar la distribución de los valores
- Formar una matriz de correlación
- Verificar las importancias de las características
- División de entrenamiento/prueba
-
- Usar sklearn para dividir el conjunto de datos en entrenamiento y prueba con una relación del 80%-20%
- Modelo predictivo
-
- Aplicar clasificadores y elegir uno para usar en producción según su rendimiento
- Métricas
-
- Usar precisión y puntuación F1 al comparar el rendimiento de diferentes algoritmos
- Resultados del modelo
-
- Usar modelos clásicos de aprendizaje automático
- Visualizar el árbol de decisiones y ver cómo funcionan los algoritmos basados en árboles
- Modelo de aprendizaje profundo
-
- Probar una red neuronal artificial (ANN) en este problema
- Problemas de implementación
-
- Supervisar el rendimiento del modelo para evitar cambios en los datos y el concepto en el ciclo de MLOps
Habilidades destacadas: Análisis exploratorio de datos (EDA) y manipulación de datos para verificar nulos, unicidad de los datos, obtener información sobre la distribución de los datos y correlaciones positivas y negativas; visualización de datos en histogramas y matriz de correlación; aplicación de clasificadores de aprendizaje automático utilizando la biblioteca sklearn, medición de la precisión y puntuación F1 de los algoritmos, comparación de los algoritmos, visualización del árbol de decisiones; uso de una red neuronal artificial para ver cómo se desempeña el aprendizaje profundo; implementación del modelo donde es necesario tener en cuenta los problemas de cambios en los datos y el concepto en el ciclo de MLOps.
3. Policiamiento predictivo: Examinando las implicancias
Fuente: Los peligros del policimiento predictivo
Tema: Aprendizaje supervisado (regresión)
Resumen breve: Este policimiento predictivo utiliza algoritmos y análisis de datos para predecir dónde es probable que ocurran delitos. Tu enfoque elegido puede tener profundas implicaciones éticas y sociales. Utiliza los datos de delitos de la Ciudad de San Francisco en el año 2016 de su iniciativa de datos abiertos. El proyecto intentará predecir el número de incidentes delictivos en un código postal dado en un día de la semana y a una hora del día determinados.
Ejecución del proyecto: Estos son los principales pasos que el autor del proyecto ha realizado.
- Selección de variables y cálculo del número total de delitos por año, por código postal, por hora
-
Divide los datos en entrenamiento y prueba de manera cronológica
-
Prueba cinco algoritmos de regresión:
-
- Regresión Lineal
- Random Forest
- K Vecinos Más Cercanos (K-Nearest Neighbors)
- XGBoost
- Perceptrón Multicapa (Multilayer Perceptron)
Habilidades destacadas: Análisis exploratorio de datos (EDA) y manipulación de datos donde obtienes información sobre crímenes, hora, día de la semana y código postal; ML (aprendizaje supervisado/regresión) donde pruebas el rendimiento de regresión lineal, random forest regressor, K-nearest neighbor, XGBoost; aprendizaje profundo donde utilizas el perceptrón multicapa para intentar explicar los resultados obtenidos; obtener ideas sobre la predicción de crímenes y su posible mal uso; implementar el modelo en un mapa interactivo.
Si deseas realizar más proyectos utilizando habilidades similares, aquí hay más de 30 ideas de proyectos de ML.
Conclusión
Al completar estos proyectos de ciencia de datos, probarás y adquirirás habilidades esenciales de ciencia de datos, como la manipulación de datos, visualización de datos, análisis estadístico, construcción e implementación de modelos de ML.
Hablando de ML, me enfoqué aquí en el aprendizaje supervisado, ya que es más comúnmente utilizado en ciencia de datos. Puedo casi garantizarte que estos proyectos de ciencia de datos serán suficientes para conseguir el trabajo que deseas.
Pero debes leer detenidamente la descripción del trabajo. Si ves que se requiere aprendizaje no supervisado, procesamiento del lenguaje natural o algo más que no cubrí aquí, incluye uno o dos proyectos de ese tipo en tu portafolio.
No importa qué, aún no estás limitado a solo tres proyectos. Están aquí para guiarte sobre cómo elegir tus proyectos que te garantizarán conseguir un trabajo. Ten en cuenta la complejidad de los proyectos, ya que deberían abarcar ampliamente habilidades fundamentales de ciencia de datos.
¡Ahora ve y consigue ese trabajo! Nate Rosidi es un científico de datos y estratega de productos. También es profesor adjunto enseñando análisis y es el fundador de StrataScratch, una plataforma que ayuda a los científicos de datos a prepararse para sus entrevistas con preguntas de entrevistas reales de las principales empresas. Conéctate con él en Twitter: StrataScratch o LinkedIn.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Investigadores de Stanford presentan un novedoso método de inteligencia artificial que puede descomponer eficaz y eficientemente el sombreado en una representación estructurada en forma de árbol’.
- Investigadores del Instituto de Tecnología Shibaura revolucionan la detección de la dirección del rostro con Aprendizaje Profundo navegando los desafíos de las características faciales ocultas y ampliando los ángulos del horizonte.
- Conoce ConceptGraphs Una representación gráfica estructurada de vocabulario abierto para escenas en 3D
- Una actualización sobre los controles del editor web
- ¡Es posible la exploración multi-dimensional!
- Usar con más frecuencia
- Retro-ingeniería de un esquema de base de datos GPT vs. Bard vs. LLama2 (Episodio 2)