Preguntas de probabilidad en la vida real de los analistas de datos

Probabilidades en la vida real Preguntas para los analistas de datos

Conectando preguntas de entrevistas de probabilidad con las tareas diarias de los analistas de datos

Foto de Thomas en Unsplash

Si solicitas el puesto de analista de datos y científico de datos, en tus entrevistas a menudo te encontrarás con preguntas de probabilidad. Pero aquí está la cosa: algunas personas están seguras de que estas preguntas no tienen mucho que ver con el trabajo real. Preguntas como “¿Por qué deberíamos molestarnos en calcular la probabilidad de sacar un 6 cinco veces con un dado?” suelen surgir. En este artículo, voy a compartir algunos ejemplos de la vida real para explicar por qué entender la probabilidad es más importante de lo que crees. Para eso, vamos a tomar algunas tareas de entrevista y ver sus aplicaciones en el mundo real.

P1. Lanzas una moneda 10 veces seguidas, ¿cuál es la probabilidad de que todas salgan cara?

Imagina que eres un analista de datos en un servicio de entrega de alimentos. Después de cada pedido, los clientes pueden calificar la calidad de la comida. El objetivo principal del equipo es brindar un servicio de primera categoría, y si un restaurante recibe malas críticas, debes verificarlo. Entonces, aquí está la gran pregunta: ¿cuántas malas críticas deberían provocar una revisión del restaurante?

A veces, un restaurante puede recibir comentarios no tan buenos solo ocasionalmente, y no es su culpa. Si un restaurante ha gestionado 1000 pedidos, pueden recibir un par de críticas negativas por casualidad.

Piénsalo de esta manera: aproximadamente el 5% de los pedidos terminan con críticas negativas solo por casualidad. Entonces, el número de críticas negativas por restaurante sigue una distribución binomial Bin(n, p), siendo “n” los pedidos y “p” la probabilidad de una crítica negativa (que es del 5% en nuestro caso).

Entonces, si un restaurante tiene 100 pedidos, hay aproximadamente un 23.4% de probabilidad de que obtengan al menos 7 críticas negativas y una probabilidad mucho menor, del 2.8%, de obtener al menos 10. Puedes verificar esto utilizando una calculadora aquí, tus parámetros son n=100, x=10, p=0.05 y no olvides elegir la opción x>=X.

Imagen del autor.

He aquí una lección: si estableces el umbral en 7 críticas para un restaurante con 100 pedidos, es posible que termines verificando los restaurantes con demasiada frecuencia, lo que significa costos adicionales para ti y más presión sobre los restaurantes.

P2. Sacas una carta de una baraja estándar de 52 cartas 10 veces. ¿Cuál es la probabilidad de no obtener ninguna carta roja?

Ahora, imagínate en el mundo de los sitios web de comercio electrónico. Tú y tu equipo acabáis de lanzar un nuevo método de pago y estás curioso acerca de qué tan seguido los clientes están utilizando esta nueva función. Pero aquí está el detalle: debido a un pequeño error, alrededor del 2% de las solicitudes al nuevo método de pago fallan. En otras palabras, los clientes ven esta nueva opción de pago en el 98% de sus sesiones. Para averiguar con qué frecuencia un cliente elige este método de pago, quieres centrarte en aquellos que lo tuvieron disponible todo el tiempo. Pero aquí es donde se complica.

Considera a un usuario con solo una sesión; los excluyes de tu análisis con una probabilidad del 2%. Ahora, considera a un usuario con 25 sesiones. Para ellos, la probabilidad de no tener la función disponible en al menos una sesión es de 1-0.98²⁵ = 39.7%. Por lo tanto, es posible que termines excluyendo involuntariamente a algunos de tus clientes más leales con una mayor probabilidad, lo que podría sesgar tu análisis.

Imagen del autor.

P3. Si lanzas un dado tres veces, ¿cuál es la probabilidad de obtener dos tres consecutivos?

Imagínate que trabajas en una compañía de transporte compartido como Uber. En algunos países, todavía se paga el viaje en efectivo, lo cual puede ser un problema para los conductores. Tienen que llevar cambio, lidiar con transacciones de efectivo, y así sucesivamente.

Tu equipo está preocupado de que si un conductor recibe tres pedidos en efectivo consecutivos, podría frustrarse y quedarse sin cambio. Entonces, estás pensando en limitar los pedidos en efectivo en tales situaciones. Pero antes de hacerlo, quieres averiguar qué tan a menudo realmente sucede esto.

Supongamos que el número promedio de viajes por conductor por día es 10, y el 10% de esos viajes se pagan en efectivo.

Entonces, la probabilidad de tener 3 viajes en efectivo consecutivos es 0.1*0.1*0.1 = 0.001. Pero puede ser el primer, segundo o tercer viaje; el segundo, tercer o cuarto viaje, y así sucesivamente. Eso significa que la probabilidad de tener tres viajes en efectivo seguidos es simplemente 8*0.1*0.1*0.1 = 0.008%. Parece ser bastante baja, tal vez quieras posponer la implementación de esta función por ahora.

Imagen del autor.

P4. Una prueba de VIH tiene una precisión del 99% (en ambos sentidos). Solo el 0.3% de la población tiene VIH+. ¿Cuál es la probabilidad de que una persona al azar tenga VIH+ dado que la persona da positivo en la prueba?

Artículo original para la pregunta aquí.

Estás en la industria bancaria o crediticia, construyendo modelos para predecir si un cliente pagará su préstamo. En general, el 85% de todos los préstamos se pagan normalmente. En tu último modelo, cuando dice que un cliente pagará, es correcto el 92% de las veces. Sin embargo, solo es correcto el 40% de las veces cuando predice que un cliente no pagará. Ahora, tienes una preocupación: Si tu modelo dice que el cliente no pagará, ¿cuál es la probabilidad real de que realmente pague?

Primero, calculemos la probabilidad de que el modelo prediga “el cliente no pagará”. Esto involucra dos componentes:

  • La probabilidad de obtener esta predicción de clientes que no pagarán el crédito: (1-0.4)*(1-0.85) = 0.09
  • La probabilidad de obtener esta predicción de clientes que pagarán: (1-0.92)*0.85 = 0.068
  • Luego, la probabilidad de que el cliente pague el crédito si nuestro modelo no piensa así es: 0.068/(0.068+0.09) = 0.43
Imagen del autor.

Entonces, si crees que el cliente no devolverá el crédito, hay una probabilidad bastante alta de que lo haga.

¿Cuál es el punto de este artículo? Destaca que entender la probabilidad y la combinatoria es esencial para los científicos y analistas de datos. En tu vida diaria, te encontrarás con situaciones donde es necesario tener un buen manejo de la probabilidad; de lo contrario, podrías sacar conclusiones incorrectas. Sin embargo, desde la perspectiva de los empleadores, las preguntas de entrevista deberían ser más prácticas para ayudar a los futuros analistas a reconocer la aplicabilidad práctica de este conocimiento en el trabajo.

Gracias por tomarte el tiempo para leer este artículo. Me encantaría escuchar tus pensamientos, así que no dudes en compartir cualquier comentario o pregunta que puedas tener.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Esta Investigación de IA presenta DreamCraft3D Un enfoque jerárquico para crear material en 3D que genera modelos en 3D cohesivos y de alta fidelidad.

La increíble popularidad de la modelización generativa 2D ha tenido un impacto significativo en cómo se produce mater...

Inteligencia Artificial

La nueva canción de The Beatles 'Now and Then' utilizó inteligencia artificial para rescatar la voz de John Lennon

La tecnología ha avanzado mucho desde la última vez que Paul McCartney lanzó nuevas canciones de los Beatles.

Inteligencia Artificial

Este artículo de IA de la Universidad de Tokio ha aplicado el aprendizaje profundo al problema de la simulación de supernovas.

Investigadores de la Universidad de Tokio han desarrollado un modelo de aprendizaje profundo llamado 3D-Memory In Mem...

Inteligencia Artificial

Top Herramientas/Startups de Datos Sintéticos para Modelos de Aprendizaje Automático en 2023

La información creada intencionalmente en lugar de ser el resultado de eventos reales se conoce como datos sintéticos...

Inteligencia Artificial

Cómo las industrias están cumpliendo las expectativas de los consumidores con la IA de voz

Gracias a los rápidos avances tecnológicos, los consumidores se han acostumbrado a un nivel sin precedentes de comodi...

Inteligencia Artificial

GPT-Engineer Tu nuevo asistente de programación de IA

GPT-Engineer es un constructor de aplicaciones impulsado por IA que genera bases de código a partir de descripciones ...