Pareto, Ley de Potencias y Colas Gruesas

Pareto, Ley de Potencias y Distribución de Colas Gruesas

Lo que no te enseñan en estadística

Un cisne negro. Imagen de Canva

La estadística es el fundamento de la ciencia de datos y el análisis. Nos brinda una poderosa caja de herramientas para responder objetivamente preguntas complejas. Sin embargo, muchas de nuestras herramientas estadísticas favoritas se vuelven inútiles cuando se aplican a una clase particular de datos: las Leyes de Potencia.

En este artículo, proporcionaré una guía amigable para principiantes sobre las Leyes de Potencia y describiré 3 problemas principales con el uso de métodos estadísticos tradicionales para analizarlas.

Tabla de contenidos

  1. Antecedentes — La Distribución Gaussiana, la regla del 80-20 de Pareto, las Leyes de Potencia y la diferencia entre peso y riqueza.
  2. 3 Problemas con Estadística 101 — necesitas (mucho) más datos.
  3. Colas Gruesas — evitar controversias y cuantificar la brecha entre Gauss y Pareto.

Pesando a tu barista

Muchas cantidades en la naturaleza tienden a agruparse alrededor de un valor típico. Por ejemplo, si te sentaras en una cafetería (concurrida) y midieras los pesos de todos los baristas y clientes que entran y salen, eventualmente observarías un patrón como el del gráfico a continuación.

Ejemplo de distribución gaussiana. Nota técnica: al medir el peso de adultos, aparecerá una distribución similar a la Gaussiana para cada sexo. Imagen del autor.

Este gráfico es un ejemplo de una distribución Gaussiana, que probablemente hayas aprendido en Estadística 101 o estadística empresarial. Lo bueno de una Gaussiana es que podemos capturar gran parte de la información esencial de la cosa subyacente (por ejemplo, los pesos de los baristas) con solo un número – la media.

Aún mejor, podemos obtener más información caracterizando qué tan dispersos están los datos mediante medidas como desviación estándar y varianza.

Estos conceptos que todos aprendemos en estadística introductoria nos ofrecen una poderosa forma de analizar datos. Sin embargo, no todas las cantidades que nos importan tienen esta característica cualitativa de estar agrupadas alrededor de un valor típico.

Principio de Pareto (la regla del 80-20)

Puede que hayas oído hablar de la llamada “regla del 80-20” en el mundo de los negocios, con el lema “el 80% de las ventas provienen del 20% de los clientes”. Sin embargo, esta idea no proviene de las ventas y el marketing. Surgió del estudio de Vilfredo Pareto sobre la propiedad de la tierra en Italia (circa 1890) [1].

Pareto observó que aproximadamente el 80% de la tierra en Italia era propiedad de aproximadamente el 20% de la población. Resulta que esta simple observación indica propiedades estadísticas muy diferentes de las distribuciones Gaussianas que todos conocemos y amamos.

Es decir, la “regla del 80-20” es consecuencia de una distribución de Pareto. Esto se ilustra en el gráfico a continuación.

Distribución de Pareto, donde el 20% de la población representa el 80% del volumen. Imagen del autor.

La diferencia clave entre una distribución Gaussiana y una de Pareto es que una Pareto no tiene un “valor típico” que podamos usar para resumir la distribución de manera eficiente.

En otras palabras, mientras que conocer el peso promedio de un hombre italiano (~175 libras) te da una buena idea de qué esperar en tu próximo viaje a Roma, saber la población promedio de una ciudad italiana (~7,500) es inútil.

Distribuciones de Ley de Potencia

La distribución de Pareto es parte de una clase más amplia de distribuciones llamadas Leyes de Potencia. Podemos definir una Ley de Potencia de la siguiente manera [2].

Definición de la clase de distribución de Ley de Potencia [3]. Imagen del autor.

Donde PDF() denota la función de densidad de probabilidad de una variable aleatoria, X. x es un valor particular para X. L(x) es una función positiva de variación lenta con un dominio de [x_min, ∞]. Y x_min es el valor mínimo para el cual se cumple la ley de potencia (es decir, PDF(x) = 0 para x<x_min) [2]. Y α es un número (típicamente entre 2 y 3).

Ejemplo de distribuciones de Ley de Potencia con varios valores de α. Nota: α = 1.16 aproximadamente implica la regla del 80–20. Imagen del autor.

Como podemos ver en las gráficas anteriores, las Leyes de Potencia son cualitativamente muy diferentes de la distribución gaussiana. Esto forma una especie de dicotomía entre distribuciones similares a la gaussiana y distribuciones similares a Pareto. En otras palabras, las distribuciones gaussiana y de Ley de Potencia proporcionan anclajes conceptuales para categorizar cualitativamente las cosas en el mundo real.

Mediocristan Vs Extremistan

El autor Nassim Nicholas Taleb describe esta dicotomía entre cosas similares a la gaussiana y cosas similares a Pareto a través de dos categorías a las que llama “Mediocristan” y “Extremistan”.

Mediocristan es la tierra de las cosas similares a la gaussiana. Una propiedad fundamental de sus habitantes es que ninguna observación individual impactará significativamente las estadísticas agregadas [3]. Por ejemplo, supongamos que pesas a todos los turistas en el Coliseo durante tu viaje a Roma y calculas el peso promedio. Si agregas al italiano más pesado del mundo, este promedio apenas cambiaría (+0.5%).

En el otro lado de este paisaje conceptual se encuentra Extremistan, donde vemos una propiedad estadística opuesta. Es decir, en Extremistan, una sola observación puede (y a menudo lo hará) afectar significativamente las estadísticas agregadas. Considera a los mismos turistas en el Coliseo, pero en lugar de medir su peso, preguntas cuál es su patrimonio neto y calculas el promedio. A diferencia de antes, este promedio cambiaría drásticamente (+2500%) si agregamos al italiano más rico del mundo, Giovanni Ferrero (la familia del chocolate + avellana), a la muestra.

Para tener una mejor intuición de cada una de estas categorías, considera los ejemplos enumerados en la imagen de abajo.

Elementos de Mediocristan y Extremistan, respectivamente [3]. Imagen del autor.

Como puedes ver, los habitantes similares a Pareto de Extremistan no son un conjunto pequeño o trivial. De hecho, muchas cosas que nos importan no se parecen a las curvas gaussianas que estudiamos en ESTAD 101.

Aunque esto puede parecer excesivamente técnico y didáctico, hay limitaciones importantes en el uso de nuestras técnicas estadísticas familiares e intuiciones para analizar datos generados desde Extremistan e incluso (en algunos casos) riesgos significativos.

3 Problemas con el Pensamiento de Estadística 101

Como vimos en el Coliseo Romano, los datos generados desde Mediocristan (por ejemplo, peso) tienen propiedades opuestas a los de Extremistan (por ejemplo, riqueza).

Uno de los mayores problemas al utilizar técnicas de Estadística 101 para analizar Leyes de Potencia (es decir, datos de Extremistan) es que cantidades como la media, desviación estándar, varianza, correlación, etc. tienen poca significancia práctica.

Todo esto se deriva de un problema central: falta de datos suficientes.

En estadística, aprendemos sobre la Ley de los Grandes Números, que dice que si tomamos N muestras aleatorias, la media de las muestras se acercará a la media real a medida que N → ∞. Esto es cierto para CUALQUIER distribución (con media finita): Gaussiana, Ley de Potencia, Uniforme, lo que sea que se te ocurra.

Sin embargo, resulta que este comportamiento asintótico ocurre más lentamente para algunas distribuciones que para otras (por ejemplo, más lento para las Leyes de Potencia que para las Gaussianas). Y en la práctica, donde siempre tenemos conjuntos de datos finitos, esto puede causar problemas. Aquí destaco 3 de estos problemas.

Problema 1: La Media no tiene Significado (al igual que muchas otras métricas)

Siempre que queremos comparar dos conjuntos de valores (por ejemplo, ventas en abril vs. mayo, accidentes de tráfico en Los Ángeles vs. Nueva York, resultados de pacientes en el grupo de control vs. grupo de tratamiento), a menudo calculamos una media. Esto nos proporciona una manera intuitiva de comprimir varios valores en un solo número representativo.

Esto funciona increíblemente bien para datos que siguen una distribución Gaussiana, ya que se puede estimar con precisión la media en tamaños de muestra pequeños (N=~10). Sin embargo, este enfoque no funciona cuando trabajamos con datos que siguen una distribución de Ley de Potencia.

Podemos ver esto comparando las medias de muestras Gaussiana y de Ley de Potencia a medida que aumenta el tamaño de la muestra, como se muestra en las gráficas a continuación para N=100, N=1,000 y N=10,000. Las medias de muestra de Ley de Potencia y Gaussiana se representan en naranja y azul, respectivamente.

Convergencia de la media de las muestras para 3 tamaños de muestra diferentes. Imagen del autor.

Como podemos ver, las medias de las muestras de Ley de Potencia son más erráticas (y sesgadas) que las de la Gaussiana. Incluso cuando el tamaño de la muestra se aumenta a N=100,000, la precisión de la Ley de Potencia sigue siendo mucho peor que la que vemos en la Gaussiana para N=100. Esto se muestra en la gráfica a continuación.

Aunque la media se estabiliza en cierta medida en N=1,000,000, sigue siendo significativamente sesgada en comparación con la Gaussiana. Imagen del autor.

Este comportamiento errático no se limita solo a la media. También se aplica a muchas otras cantidades estadísticas comúnmente utilizadas. Las gráficas de convergencia similares para la mediana, desviación estándar, varianza, mínimo, máximo, percentiles 1º y 99º, curtosis y entropía se muestran a continuación.

Otras gráficas de convergencia de métricas en 3 tamaños de muestra. De arriba a abajo: mediana, desviación estándar, varianza, mínimo, máximo, percentiles 1º y 99º, curtosis y entropía. Imagen del autor.

Como podemos ver, algunas métricas tienden a ser más estables que otras. Por ejemplo, la mediana, el mínimo y los percentiles se mantienen relativamente bien. Mientras tanto, la desviación estándar, varianza, máximo, curtosis y entropía parecen no poder establecerse en un solo número.

De este último grupo, quiero destacar lo máximo porque esta cantidad puede parecer que converge en una muestra pequeña, pero a medida que N se hace más grande, puede aumentar en un orden de magnitud (como se ve en la gráfica de N=10,000). Esto es especialmente peligroso porque puede generar una falsa sensación de predictibilidad y seguridad.

Para relacionarlo con el mundo real, si los datos subyacentes fueran, por ejemplo, muertes por una pandemia, la pandemia más grande en 100 años sería 10 veces más pequeña que la más grande en 1,000 años.

Por ejemplo, la pandemia más mortal en los últimos 100 años fue la gripe española (~50 millones de muertes) [4], por lo que si las muertes por una pandemia siguen una distribución de Ley de Potencias, podemos esperar una pandemia que cobre 500 millones de vidas en los próximos 1,000 años (disculpen el ejemplo oscuro).

Esto resalta la propiedad clave de los datos de Extremistán, que es que eventos raros impulsan las estadísticas agregadas.

Sin embargo, esto no se detiene solo en las métricas estadísticas presentadas aquí. La gravedad de los eventos raros también afecta nuestra capacidad para hacer predicciones de manera efectiva.

Problema 2: La Regresión No Funciona

La regresión se reduce a hacer predicciones basadas en datos pasados. Sin embargo, como vimos en el Problema 1, al lidiar con Leyes de Potencias, es posible que no tengamos suficientes datos para capturar con precisión las verdaderas estadísticas.

Este punto se agrava cuando se realiza regresión con variables que siguen una distribución de Ley de Potencias con α <= 2. Esto se debe a que un α <= 2 implica una varianza infinita, lo que invalida una suposición clave de los métodos de regresión populares (por ejemplo, regresión de mínimos cuadrados).

Sin embargo, al trabajar con datos en la práctica, nunca se calculará una varianza infinita (los datos son necesariamente finitos). Esto plantea un problema similar al Problema 1: los resultados pueden parecer estables pero no se mantienen a medida que se recopilan más datos.

En otras palabras, el R² puede verse excelente al desarrollar el modelo pero rápidamente se deteriora a medida que el tamaño de la muestra aumenta y se acerca al valor real de R² = 0.

Esto se puede ver a través de un ejemplo (artificial). Supongamos que tenemos dos variables, X e Y, que están relacionadas linealmente (es decir, Y = mX + b), donde X sigue una distribución normal con un término de ruido aditivo que sigue una distribución de Ley de Potencias. Cuando realizamos una regresión en una muestra pequeña (N=100), el ajuste parece funcionar sorprendentemente bien.

Ajuste de regresión lineal que involucra un predictor con ruido aditivo que sigue una Ley de Potencias para una muestra pequeña (N=100). Imagen del autor.

Sin embargo, a medida que recopilamos más datos (N=100,000,000), el R² disminuye correctamente hacia el valor real (es decir, R² = 0).

R² se acerca al valor real (es decir, R² = 0) a medida que aumenta el tamaño de la muestra. Imagen del autor.

Problema 3: Las Probabilidades Divergen de los Beneficios

En este punto, podrías pensar: “Shaw… ¿qué tiene de malo? ¿Qué importa si mi modelo no puede predecir algunos eventos raros? La mayoría de las veces acierta”.

Estoy de acuerdo contigo. Al trabajar con datos de Extremistán, es fácil acertar la mayoría de las veces porque la mayoría de los datos no están en la cola. Sin embargo, las probabilidades solo cuentan la mitad de la historia cuando se trata de predecir resultados y tomar decisiones.

La otra mitad de la historia son los beneficios. En otras palabras, no solo se trata de cuántas veces aciertas (fallas), sino también de lo que sucede cuando aciertas (fallas).

Por ejemplo, si se le ofrece un multivitamínico diario que funciona muy bien el 99.9% del tiempo pero que mata el 0.1% del tiempo, probablemente optaría por otra marca (o comer alimentos mejores).

Depender únicamente de las probabilidades para tomar decisiones es especialmente perjudicial cuando se trata de Leyes de Potencia y “reglas del 80-20”. Considera el siguiente ejemplo empresarial.

Supongamos que tenemos una empresa de software con 3 ofertas: 1) gratuita con publicidad, 2) premium y 3) empresarial, donde se muestran las distribuciones de clientes y ingresos para cada oferta en la siguiente tabla.

Distribuciones de clientes y ingresos por oferta. Imagen del autor.

La empresa desea implementar una actualización para acelerar el tiempo de procesamiento en un 50%. Siendo una empresa de tecnología de vanguardia y basada en datos, realizaron una encuesta a los usuarios activos y descubrieron que el 95% de los clientes preferían el software actualizado. Con los datos en mano, la empresa da luz verde a la actualización de software.

Sin embargo, seis semanas después, la empresa está en desorden porque los ingresos han caído un 50%.

Resulta que después de la actualización, 3 clientes dejaron el servicio porque la actualización eliminó integraciones de datos heredados que eran esenciales para su caso de uso. Pero no eran solo clientes comunes. Eran los 3 principales clientes de la empresa (~1%), que representaban aproximadamente el 50% de sus ingresos (después de todas sus ventas adicionales personalizadas).

Este es el tipo de error (fatal) que se puede cometer al enfocarse solo en las probabilidades (el 95% de los clientes amaron la actualización). La moraleja de la historia es que al tratar con datos impulsados por eventos raros de Extremistán, equivocarse una vez puede cancelar aciertos de otras 99 veces (y más).

Código para generar gráficos 👇

YouTube-Blog/power-laws en main · ShawhinT/YouTube-Blog

Códigos para complementar videos de YouTube y publicaciones en blogs sobre VoAGI. – YouTube-Blog/power-laws en main · ShawhinT/YouTube-Blog

github.com

Controversia en Extremistán

Las Leyes de Potencia, al igual que las Leyes de Gauss, son una abstracción matemática idealizada. Sin embargo, el mundo real es caótico y rara vez (si alguna vez) se ajustará completamente a nuestras hermosas y precisas construcciones. Esto ha provocado cierta controversia sobre si una distribución en particular es realmente una Ley de Potencia.

Un punto de debate ha sido si la riqueza es una Ley de Potencia (como sugiere el trabajo de Pareto) o simplemente una distribución log-normal [5].

Parte de la controversia puede explicarse por la observación de que las distribuciones log-normal se comportan como las gaussianas para baja desviación estándar y como Ley de Potencia para alta desviación estándar [2].

Sin embargo, para evitar controversias, podemos apartarnos de si los datos en cuestión se ajustan o no a una Ley de Potencia y centrarnos en cambio en las colas gruesas.

<strong"colas "extremistán"

<strong"colas gruesas" es una idea más general que las distribuciones de Pareto y Leyes de Potencia. Podemos pensar en “colas gruesas” como el grado en que eventos raros impulsan las estadísticas agregadas de una distribución. Desde este punto de vista, las “colas gruesas” se encuentran en un espectro que va desde no tener “colas gruesas” (es decir, una Gaussiana) hasta tener “colas gruesas” muy pronunciadas (es decir, Pareto 80-20).

Esto se relaciona directamente con la idea de Mediocristán vs. Extremistán discutida anteriormente. La siguiente imagen muestra visualmente diferentes distribuciones en este paisaje conceptual [2].

Mapa de Mediocristan y Extremistan. Nota: Dado que la cola grasa existe en un espectro, etiquetar una distribución como 'Cola Grasa' o no es algo subjetivo. Imagen del autor.

Aunque no existe una medida exacta de codiciosidad con colas gordas, hay muchas métricas y heurísticas que podemos utilizar en la práctica para tener una idea de dónde se encuentra una determinada distribución en este mapa de Mediocristan y Extremistan. Aquí hay algunos enfoques.

  • Característica de ley de potencia: utiliza el índice de cola de ley de potencia, es decir, α – cuanto menor sea el alfa, más gordas serán las colas [2]
  • No gausianidad: curtosis (no aplica para la ley de potencia con α ≤ 4)
  • Varianza de la distribución log-normal
  • Métrica κ de Taleb [6]

Conclusiones

El desafío central de los datos con colas gordas es que uno puede no siempre tener suficientes datos para capturar con precisión sus propiedades estadísticas subyacentes. Esto nos da algunas conclusiones que dejaré para el práctico de datos.

  • Trama distribuciones, por ejemplo, histogramas, PDF y CDF
  • Pregúntate a ti mismo: ¿estos datos son de Mediocristan o Extremistan (o en algún punto intermedio)?
  • Cuando construyas modelos, pregúntate a ti mismo: ¿cuál es el valor de una predicción correcta y el costo de una incorrecta?
  • Si estás trabajando con datos (muy) con colas gordas, no ignores los eventos raros. En cambio, averigua cómo usarlos (por ejemplo, ¿puedes hacer una promoción especial para tus mejores clientes para impulsar más negocios?)

El código para reproducir las tramas está disponible aquí.

Recursos

Conectarse: Mi sitio web | Reservar una llamada | Pregúntame lo que sea

Redes Sociales: YouTube 🎥 | LinkedIn | Twitter

Apoyo: Compra un café ☕️

Los Emprendedores de Datos

Una comunidad para emprendedores en el espacio de datos. 👉 ¡Únete a Discord!

VoAGI.com

[1] Principio de Pareto. (30 de octubre de 2023). En Wikipedia. https://es.wikipedia.org/wiki/Principio_de_Pareto

[2] arXiv:2001.10488 [stat.OT]

[3] Taleb, N.N. (2007). El Cisne Negro: el impacto de lo altamente improbable. Nueva York; Random House.

[4] https://www.archives.gov/exhibits/influenza-epidemic/

[5] arXiv:0706.1062 [physics.data-an]

[6] Taleb, N. N. (2019). ¿Cuántos datos necesitas? Una métrica operativa y pre-asintótica para colas grasas. Revista Internacional de Pronóstico, 35(2), 677–686. https://doi.org/10.1016/j.ijforecast.2018.10.003

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Stability AI presenta SDXL Turbo un modelo de generación de texto a imagen en tiempo real

Stability AI presenta SDXL Turbo, que representa un avance notable en la síntesis de texto a imagen, impulsado por un...

Inteligencia Artificial

Proyecto de ley bipartidista propone un panel de expertos para abordar los riesgos y regulaciones de la inteligencia artificial.

El Representante Ted Lieu (D-CA) está liderando el esfuerzo para brindar al Congreso la experiencia necesaria para co...

Inteligencia Artificial

Cómo introducir computadoras cuánticas sin frenar el crecimiento económico

Para allanar el camino de la revolución cuántica, los investigadores y los gobiernos deben predecir y prepararse para...

Inteligencia Artificial

Aplicación de juegos bilingües tiene como objetivo combatir la demencia

Una aplicación multilingüe desarrollada por investigadores de la Universidad de Tecnología y Diseño de Singapur tiene...

Inteligencia Artificial

La cámara detiene los deepfakes al disparar

Las credenciales de contenido integradas verifican la autenticidad de las fotos.