Una introducción a la estimación estadística e inferencia

Una guía introductoria a la estimación estadística e inferencia

La ley de los grandes números y el razonamiento estadístico son la base para la inferencia estadística efectiva en la ciencia de datos

Foto de Gabriel Ghnassia en Unsplash

La ley de los grandes números y el razonamiento estadístico son la base para la inferencia estadística efectiva en la ciencia de datos.

El siguiente texto se basa significativamente en mi libro, “Data Science – Una introducción a la estadística y el aprendizaje automático” [Plaue 2023], publicado recientemente por Springer Nature.

Introducción

A través de nuestra experiencia diaria, tenemos una comprensión intuitiva de cuál es la altura corporal típica para las personas en la población. En gran parte del mundo, los seres humanos adultos suelen medir entre 1,60 m y 1,80 m de altura, mientras que las personas más altas de dos metros son raras de encontrar. Al proporcionar una distribución de frecuencia de la altura corporal, este hecho intuido puede respaldarse con evidencia numérica:

Tabla 1: Frecuencia de la altura del cuerpo humano. Imagen de autor.

Estas cifras se basan en un conjunto de datos recopilado por los Centros para el Control y la Prevención de Enfermedades (CDC) de los EE. UU., que enumera, entre otros atributos, la altura de más de 340.000 personas [CDC 2018]. Una inspección de esta tabla de frecuencias muestra que, de hecho, más de la mitad de las personas entrevistadas en la encuesta informaron que su altura estaba entre 1,60 m y 1,80 m.

Aunque la muestra es de tamaño limitado, tenemos confianza en que nuestras investigaciones nos permiten sacar conclusiones sobre la población en su conjunto. Por ejemplo, basándonos solo en los datos, podemos concluir con cierta confianza que un ser humano no puede crecer hasta una altura de tres metros.

Un objetivo importante de la estocástica es justificar rigurosamente tales conclusiones, matemáticamente. El campo se puede dividir en dos subcampos:

  • Teoría de la probabilidad trata sobre la definición e investigación matemática del concepto de probabilidad. Un objeto central de dicha investigación son las variables aleatorias: variables cuyos valores no están especificados o no se conocen con precisión, pero están sujetos a incertidumbre. En otras palabras, solo se puede dar una probabilidad de que una variable aleatoria tome valores dentro de un rango determinado.
  • Estadística inferencial se basa en la suposición de que las observaciones y medidas estadísticas, como frecuencias, medias, etc., son valores o realizaciones de variables aleatorias. A la inversa, el campo investiga hasta qué punto se pueden estimar características de las variables aleatorias a partir de datos muestreados. En particular, bajo ciertas suposiciones simplificadoras, es posible cuantificar la precisión o el error de tal estimación.

Examinemos un ejemplo sencillo de inferencia estadística: determinar si una moneda es justa o sesgada al observar una secuencia de lanzamientos de monedas. Podemos suponer que el resultado de lanzar la moneda está determinado por una variable aleatoria discreta X_1 que toma los valores de cero (representando cruces) o uno (representando caras). Si volviéramos a lanzar la misma moneda, podemos suponer que el resultado se puede describir por una segunda variable aleatoria X_2, que es independiente de la primera pero sigue la misma distribución.

Si no tenemos evidencia alguna que respalde la hipótesis de que la moneda está sesgada, podemos asumir que la moneda es justa. En otras palabras, esperamos que las caras aparezcan con la misma probabilidad que las cruces. Bajo esta suposición, conocida como la hipótesis nula, si repitiéramos el experimento varias veces, esperaríamos que las caras aparezcan aproximadamente la misma cantidad que las cruces.

A su vez, los datos nos permiten sacar conclusiones sobre la verdadera distribución subyacente. Por ejemplo, si observáramos frecuencias muy diferentes para caras y cruces, como una frecuencia del 70% para caras en comparación con un 30% para cruces, entonces, si el tamaño de la muestra es lo suficientemente grande, estaríamos convencidos de que necesitamos corregir nuestra suposición original de probabilidad igual. En otras palabras, es posible que tengamos que abandonar nuestra suposición de que la moneda es justa.

En el ejemplo anterior, la frecuencia de aparición de caras en los datos actúa como un estimador de la probabilidad del evento aleatorio “la moneda muestra caras”. El sentido común sugiere que nuestra confianza en tales estimaciones aumenta con el tamaño de la muestra. Por ejemplo, si el desequilibrio descrito anteriormente se encontrara en solo diez lanzamientos de moneda (siete caras y tres cruces), es posible que aún no estemos convencidos de que tenemos una moneda sesgada. Todavía es posible que la hipótesis nula de una moneda justa sea verdadera. En términos cotidianos, el resultado del experimento también podría atribuirse a “pura casualidad”. Sin embargo, si observamos setenta caras de cien lanzamientos de moneda, sería una evidencia mucho más sólida a favor de la hipótesis alternativa de que la moneda está sesgada.

El teorema del límite central: de las estimaciones puntuales a los intervalos de confianza

Las estimaciones puntuales están entre las herramientas más fundamentales en el conjunto de herramientas de los estadísticos y científicos de datos. Por ejemplo, la media aritmética, derivada de una muestra considerable de una población, nos proporciona una idea del valor típico que puede asumir una variable dada. En el aprendizaje automático, estimamos los parámetros del modelo a partir de los datos de entrenamiento, que deben cubrir un número adecuado de ejemplos etiquetados.

A través de la experiencia e intuición, hemos llegado a creer que muestras más grandes y mayores cantidades de datos de entrenamiento permiten procedimientos estadísticos más precisos y modelos predictivos mejores. La estadística inferencial ofrece una base más sólida para respaldar esta intuición, a menudo denominada ley de los grandes números. Además, ganamos una comprensión más profunda de lo que constituye una “muestra suficientemente grande” al calcular intervalos de confianza, en lugar de confiar únicamente en estimaciones puntuales. Los intervalos de confianza nos proporcionan rangos de valores dentro de los cuales podemos afirmar razonablemente que reside el verdadero parámetro que estamos tratando de estimar.

En las secciones siguientes, presentaremos el marco matemático para calcular intervalos de confianza de manera autónoma, en el centro del cual se encuentra el teorema del límite central.

Ley de los grandes números de Chebyshev

Así como esperamos que la frecuencia relativa sea un buen estimador de la probabilidad de un evento o resultado de una variable binaria, esperamos que la media aritmética sea un buen estimador del valor esperado de la variable aleatoria que produce los datos numéricos que observamos.

Es importante notar que esta estimación en sí misma es nuevamente una variable aleatoria. Si lanzamos un dado 50 veces y registramos el número promedio, y luego repetimos el experimento, es probable que obtengamos valores ligeramente diferentes. Si repetimos el experimento muchas veces, las medias aritméticas que registramos seguirán alguna distribución. Sin embargo, para muestras grandes, esperamos que muestren solo una pequeña dispersión y estén centradas alrededor del verdadero valor esperado. Este es el mensaje clave de la ley de los grandes números de Chebyshev, que detallaremos a continuación.

Antes de hacerlo, presentamos una herramienta importante en teoría de la probabilidad: la desigualdad de Chebyshev. Supongamos que se nos da una variable aleatoria X con media finita μ y varianza σ². Entonces, para cualquier ε > 0, se cumple lo siguiente, donde Pr( · ) significa “probabilidad de”:

Este resultado se alinea con nuestra comprensión intuitiva de una medida de dispersión: cuanto menor sea la varianza, más probable es que la variable aleatoria tome valores cercanos a la media.

Por ejemplo, la probabilidad de encontrar un valor observado de la variable aleatoria dentro de seis desviaciones estándar de su valor esperado es muy alta, al menos del 97%. En otras palabras, la probabilidad de que una variable aleatoria tome un valor que se desvíe de la media por más de seis desviaciones estándar es muy baja, menos del 3%. Este resultado es válido para distribuciones de cualquier forma siempre que el valor esperado y la varianza sean valores finitos.

Ahora supongamos que observamos valores numéricos en una muestra que son las realizaciones de variables aleatorias X_1, …, X_N. Suponemos que estas variables aleatorias son mutuamente independientes y siguen la misma distribución, una propiedad comúnmente conocida como independientes e idénticamente distribuidas, o i.i.d. en resumen. Esta suposición es razonable cuando las observaciones son el resultado de ensayos configurados de forma independiente y preparados de la misma manera, o cuando representan una selección aleatoria de una población. Sin embargo, es importante tener en cuenta que esta suposición no siempre puede ser justificada.

Además, suponemos que el valor esperado μ y la varianza σ² de cada variable aleatoria existen y son finitas. Dado que las variables siguen la misma distribución, estos valores son iguales para cada una de las variables. A continuación, consideramos la siguiente variable aleatoria que produce la media aritmética:

En primer lugar, mostramos que el estimador de la media aritmética x̄ es un estimador insesgado: sus valores se distribuyen alrededor de la verdadera media μ. Este es un resultado que se deduce directamente de la linealidad del valor esperado E[ · ]:

A continuación, queremos mostrar que para muestras grandes, los valores del estimador de la media aritmética no se dispersan demasiado lejos de la verdadera media. Dado que se asume que X_1, …, X_N son mutuamente independientes, no están correlacionados entre sí. No es difícil comprobar que para variables aleatorias no correlacionadas entre sí, la varianza se puede representar de la siguiente manera, ya que todos los términos cruzados desaparecen:

Por lo tanto, la varianza del estimador de la media aritmética se calcula de la siguiente manera:

Ahora que conocemos la media y la varianza del estimador de la media aritmética, podemos aplicar la desigualdad de Chebyshev:

Este resultado muestra que la media aritmética es un estimador consistente del valor esperado: converge en probabilidad a la verdadera media. En otras palabras, para muestras grandes, es poco probable que la media esperada μ de la distribución subyacente y la media aritmética de la muestra difieran significativamente.

Teorema central del límite de Lindeberg–Lévy

La ley de los grandes números de Chebyshev establece que, bajo condiciones bastante generales, es muy probable que la media aritmética de una muestra grande se encuentre cerca de la verdadera media de la distribución subyacente. Quizás sorprendentemente, podemos ser bastante específicos sobre cómo se distribuyen los promedios de muestras grandes alrededor de la expectativa verdadera. Este es el mensaje clave del teorema central del límite de Lindeberg–Lévy. Para cualquier números a, b con a < b:

La función integrando en el lado derecho de la ecuación es la función de densidad de probabilidad de la distribución normal estándar: la distribución normal — que tiene la conocida forma de campana — con media nula y varianza unitaria.

En general, se dice que una secuencia de variables aleatorias converge en distribución hacia alguna variable aleatoria si sus funciones de distribución acumulativa convergen puntualmente hacia la distribución de esa variable aleatoria. Por lo tanto, matemáticamente, el teorema central del límite establece que la siguiente secuencia de variables aleatorias siempre converge en distribución a una variable aleatoria distribuida normalmente estándar, sin importar cómo se distribuyen X_1, …, X_N (siempre que sean i.i.d.):

Estadísticamente, el teorema del límite central implica que si recolectamos repetidamente una muestra lo suficientemente grande de la misma población, los valores promedio de esas muestras seguirán una distribución normal. Este teorema tiene un significado práctico porque nos permite hacer afirmaciones precisas sobre la precisión de las estimaciones estadísticas. Existe una idea errónea común de que este teorema es la razón por la cual muchas distribuciones empíricas pueden supuestamente aproximarse a una distribución normal en la práctica. Sin embargo, esto no es cierto.

Aunque la demostración del teorema requiere herramientas analíticas avanzadas que no discutiremos aquí (ver, por ejemplo, [Durrett 2019, Teorema 3.4.1]), podemos entender sus implicaciones prácticas a través de un ejemplo numérico. Consideremos la siguiente función de densidad de probabilidad que asumimos que produce los datos en estudio:

Figura 1: Una función de densidad de probabilidad arbitraria. Imagen del autor.

Para enfatizar que el teorema se cumple para cualquier forma de la distribución subyacente, observe cómo la función de densidad no se asemeja a una curva de campana. Podemos inspeccionar histogramas de un gran número de medias calculadas a partir de muestras de tamaño N extraídas repetidamente de la distribución mediante simulación numérica. Para muestras que consisten en una sola instancia, N = 1, no podemos esperar que se aplique el teorema del límite central, simplemente estamos reproduciendo la distribución subyacente:

Figura 2: Un histograma muestreado de una distribución arbitraria (en el caso N = 1). Imagen del autor.

Sin embargo, incluso para un tamaño de muestra relativamente pequeño N = 5, la distribución de las medias aritméticas — es decir, el muestreo repetido y el cálculo de (x_1 + … + x_5) / 5 — muestra la forma característica de la distribución normal:

Figura 3: Distribución de las medias de muestras de tamaño N = 5. Imagen del autor.

Grant Sanderson, en su canal de YouTube 3Blue1Brown, hizo un video que proporciona una visión intuitiva adicional sobre el teorema del límite central y es encantador de ver.

Estimación de intervalos y pruebas de hipótesis

El teorema del límite central es importante porque nos permite especificar un intervalo de confianza en lugar de solo una estimación puntual al estimar la media de alguna población: en lugar de un único valor estimado, especificamos un intervalo en el que podemos estar razonablemente seguros de que se encuentra la verdadera media. Por ejemplo, supongamos que queremos asegurarnos de que nuestra estimación sea correcta con un 95% de confianza para muestras suficientemente grandes. Esto se puede lograr estableciendo el intervalo de confianza con un nivel de confianza de γ = 0.95:

Hacemos la siguiente suposición con el número z > 0, que aún está por determinarse:

El teorema del límite central nos permite concluir:

Así, z = z(γ) está determinado por los límites de la integral que producen un área de γ bajo la curva normal estándar. Por ejemplo, z(0.95) = 1.96 o z(0.99) = 2.58.

En conclusión, el intervalo estimado de la media con nivel de confianza γ basado en una muestra suficientemente grande (se utilizan comúnmente reglas empíricas de N > 30 o N > 50) se expresa de la siguiente manera:

Para llegar a la fórmula anterior, hemos reemplazado la media μ y la desviación estándar σ con sus estimaciones empíricas x̄ y s(x), respectivamente. Esta es una aproximación razonable para muestras lo suficientemente grandes y se puede justificar mediante el teorema de Slutsky, que establece básicamente que las operaciones aritméticas conmutan con la toma del límite de distribución siempre que al menos uno de los sumandos/factores converja a una constante.

En lugar del nivel de confianza γ, se puede especificar el nivel de significancia o probabilidad de error, α = 1 − γ.

Calculemos un ejemplo práctico. El intervalo de confianza del 99.9% para la altura promedio del cuerpo de los encuestados masculinos en la encuesta del CDC es [177.98 cm, 178.10 cm]. Esta alta precisión estadística se debe al tamaño de la muestra N, que supera los 190,000 hombres que fueron entrevistados. Queremos demostrar cómo funciona la estimación por intervalos para un tamaño de muestra más pequeño. Para ello, tomamos repetidamente una muestra aleatoria de N = 50 valores de altura del cuerpo y calculamos el intervalo de confianza correspondiente al 95%. El resultado se puede ver en la siguiente figura:

Figura 5: Estimación por intervalo de la altura del cuerpo a partir de muestras de tamaño N = 50. Imagen del autor.

Observa que la mayoría de los intervalos de confianza, mostrados como barras de error verticales, también contienen el valor verdadero de 178 cm, representado como una línea horizontal punteada. Sin embargo, algunos no lo contienen, alrededor de cinco de cada cien, esto es esperado por construcción y es consistente con la probabilidad de error especificada α = 5%. Siempre existe la posibilidad de que la estimación por intervalo no capture la verdadera media de la población, especialmente en niveles de confianza bajos.

Otra aplicación importante del teorema del límite central, estrechamente relacionada con la estimación por intervalos, es en las pruebas de hipótesis. Supongamos que tenemos razones para creer que el valor esperado de una variable aleatoria X no es igual a algún valor μ. En ese caso, queremos refutar la hipótesis nula E[X] = μ. Podemos decir que esta hipótesis nula no es consistente con los datos si la media observada no está incluida en el siguiente intervalo:

Volviendo al ejemplo de una moneda posiblemente sesgada mencionado en la introducción. Registramos el resultado de cada lanzamiento de la moneda, lo que nos da una secuencia de valores binarios, donde un valor de uno representa cara y un valor de cero representa cruz. La media aritmética de esa secuencia es igual a la frecuencia relativa de caras, y podemos aplicar lo que hemos aprendido hasta ahora. Supongamos que tenemos razones para creer que la moneda no es justa. La hipótesis nula afirma que la moneda es justa, es decir, E[X] = 0.5. En un primer experimento, observamos que después de diez lanzamientos, la moneda cae con cara en la parte superior siete veces. Con un nivel de confianza de γ = 0.95, el intervalo de hipótesis nula para este experimento es el siguiente: [0.24, 0.76]. La proporción observada en realidad de 0.7 aún está dentro de este intervalo. Por lo tanto, no se puede rechazar la hipótesis nula de una moneda justa en el nivel de confianza dado.

El tamaño de muestra es relativamente pequeño, y se recomienda usar el test t de Student. Un test t corregiría la puntuación crítica estándar z(0.95) = 1.96 a 2.26, y por lo tanto resultaría en un intervalo de confianza aún más amplio.

Si, por otro lado, observamos setenta de cien lanzamientos de monedas con un resultado de cara, el siguiente intervalo de confianza sería el resultado, asumiendo que la hipótesis nula sea verdadera: [0.41, 0.59]. En este caso, la proporción observada de 0.7 no está incluida en el intervalo de confianza. Por lo tanto, la hipótesis nula debería ser rechazada y podemos concluir, con el nivel de confianza dado, que la moneda está sesgada.

También podemos investigar si las medias de dos poblaciones son iguales, basándonos en una muestra de cada una. El test Z de dos lados y dos muestras implica el rechazo de la hipótesis nula de igual media si se cumple la siguiente condición:

Sacar conclusiones a partir de los datos: problemas de la inferencia estadística

Realizar pruebas estadísticas y calcular intervalos de confianza no reemplaza el razonamiento estadístico adecuado: los efectos estadísticamente significativos aún pueden tener poca relevancia práctica, o pueden representar simplemente una relación espuria.

Significado estadístico vs. práctico: tamaño del efecto

Especialmente para muestras muy grandes, puede ser bastante común detectar diferencias estadísticamente significativas en la media u otros tipos de efectos que son considerados significativos según las pruebas estadísticas. Sin embargo, esos efectos aún podrían ser pequeños en magnitud.

Por ejemplo: el conjunto de datos de los CDC permite comparaciones entre diferentes estados de EE. UU. Podemos comparar la altura promedio de los encuestados masculinos en Rhode Island con la de Nueva York. Al aplicar el test Z, obtenemos una puntuación de prueba de 0.33 cm con un nivel de confianza del 95%. Este valor está por debajo de la diferencia observada de 0.44 cm. Por lo tanto, la diferencia es estadísticamente significativa. Sin embargo, es muy pequeña en magnitud y, por lo tanto, se espera que tenga poca relevancia práctica.

En muchos casos, el tamaño del efecto puede ser evaluado adecuadamente especificando el efecto en unidades naturales. En el ejemplo anterior, elegimos unidades métricas de longitud. Otra posibilidad es especificarlo en unidades correspondientes a un múltiplo de la desviación estándar. d de Cohen es una medida de la relevancia práctica de un efecto estadístico. Se define como la diferencia de medias dividida por la varianza conjunta [Cohen 1988, p.67]:

La diferencia de 0.44 cm observada en el ejemplo anterior corresponde a un valor de 0.05 para d de Cohen. Al comparar la altura promedio de los encuestados en Puerto Rico con la de Nueva York, obtenemos un valor de 0.50 para d de Cohen, lo que corresponde a una diferencia en unidades métricas de 4.1 cm.

Las reglas generales para interpretar los valores de d de Cohen se muestran en la siguiente tabla [Sawiloswky 2009]:

Tabla 2: Tamaño del efecto según d de Cohen. Imagen del autor.

Inferencia estadística vs. explicación causal: Paradoja de Simpson

Ciertamente, uno de los errores más frecuentemente citados en la inferencia estadística es el mantra, “la correlación no implica causalidad”. Este concepto a menudo se ilustra utilizando ejemplos de correlaciones que son flagrantemente falsas y a veces cómicas, como atribuir una escasez de piratas al calentamiento global.

Sin embargo, en aplicaciones prácticas, a menudo no es obvio si una asociación estadística es realmente falsa o indicativa de una relación causal. Una fuente de correlación falsa que no es inmediatamente discernible es la presencia de variables de confusión desconocidas. De hecho, la existencia de un confusor desconocido puede llevar a la inversión de una correlación al examinar subpoblaciones específicas, un fenómeno conocido como paradoja de Simpson.

La paradoja de Simpson se puede ilustrar con el siguiente ejemplo (cf. [Blyth 1972], [Bickel et al. 1975] y [Freedman et al. 2007, Cap. 2, Sec. 4]): En los seis departamentos más grandes de una universidad, el p_x = 30% de las 1835 solicitantes mujeres son admitidas, en comparación con el p_y = 45% de las 2691 solicitantes hombres. Podemos utilizar el test Z para concluir que esta diferencia en las tasas de admisión es significativa a un nivel de confianza del 99%.

Estos son los números desglosados por departamento universitario:

Tabla 3: Tasas de admisión universitaria por departamento. Imagen del autor.

Para cada departamento, podemos calcular la puntuación de prueba de dos lados y comparar esa puntuación con el valor absoluto de la diferencia observada en la tasa de admisión, | p_y – p_x |. A partir de los datos disponibles, también podemos calcular la tasa de admisión p para cada departamento, independientemente del género:

Tabla 4: Análisis de las tasas de admisión universitaria. Imagen del autor.

Sólo el departamento A muestra una diferencia significativa en las tasas de admisión. Contrariamente a la comparación entre todos los departamentos, está a favor de las solicitantes mujeres. Los departamentos A y B son los departamentos donde es más probable que los solicitantes tengan éxito en ser admitidos, por un amplio margen. El 51% de los solicitantes hombres eligen estos departamentos para solicitar, pero sólo el 7% de todas las solicitantes mujeres lo hacen. Por lo tanto, los datos son consistentes con la hipótesis de que las solicitantes mujeres tienen más probabilidades de solicitar estudios más competitivos, lo que implica que tienen más probabilidades de ser rechazadas.

Conclusión

La ley de los grandes números proporciona una base sólida para el proceso de estimación estadística, y su validez está rigurosamente respaldada por el teorema del límite central. Las estimaciones estadísticas se vuelven cada vez más precisas a medida que se consideran más datos, y en muchos casos, podemos calcular métricas que cuantifican tanto la precisión como nuestra confianza en los resultados.

Sin embargo, es importante enfatizar que adoptar un enfoque de “cállese y calcule” es insuficiente para un razonamiento estadístico sólido y una ciencia de datos efectiva. En primer lugar, incluso cuando se minimizan los errores aleatorios, los resultados estadísticos aún pueden verse influenciados por una variedad de errores sistemáticos. Estos pueden surgir de factores como el sesgo de respuesta, equipos de medida defectuosos, o un diseño de estudio defectuoso que introduce un sesgo de muestreo. En consecuencia, es imprescindible realizar un examen exhaustivo de las posibles fuentes de sesgo para un análisis estadístico confiable.

En segundo lugar, al interpretar los resultados, es fundamental reconocer que la significancia estadística y la correlación por sí solas son insuficientes para evaluar la importancia práctica o las razones subyacentes detrás de los efectos observados. Los hallazgos estadísticos deben contextualizarse para determinar su importancia en el mundo real y proporcionar explicaciones para los fenómenos observados.

Referencias

[Plaue 2023] Matthias Plaue. “Ciencia de datos: una introducción a la estadística y al aprendizaje automático”. Springer Berlin, Heidelberg. 2023.

[CDC 2018] Centros para el Control y la Prevención de Enfermedades (CDC). Datos de la Encuesta del Sistema de Vigilancia de Factores de Riesgo Conductuales. Atlanta, Georgia: Departamento de Salud y Servicios Humanos de EE. UU., Centros para el Control y la Prevención de Enfermedades. 2018.

Los datos de los CDC están en dominio público y pueden ser reproducidos sin permiso.

[Durrett 2019] Rick Durrett. Probabilidad: teoría y ejemplos. 5ª ed. Cambridge University Press, mayo 2019.

[Cohen 1988] Jacob Cohen. Análisis de potencia estadística para las ciencias del comportamiento. 2ª ed. Nueva Jersey, EE. UU.: Lawrence Earlbaum Associates, 1988.

[Sawilowsky 2009] Shlomo S. Sawilowsky. “Nuevas reglas empíricas para el tamaño del efecto”. En: Journal of Modern Applied Statistical Methods 8.2 (nov. 2009), pp. 597–599.

[Blyth 1972] Colin R. Blyth. “Sobre el Paradox de Simpson y el Principio de la Apuesta Segura”. En: Journal of the American Statistical Association 67.338 (junio 1972), pp. 364–366.

[Bickel et al. 1975] P. J. Bickel, E. A. Hammel y J. W. O’Connell. “Sexo sesgado en las admisiones de posgrado: datos de Berkeley”. En: Science 187.4175 (feb. 1975), pp. 398–404.

[Freedman et al. 2007] David Freedman, Robert Pisani y Roger Purves. Estadística. 4ª ed. W. W. Norton & Company, feb. 2007.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Aprendiendo el lenguaje de las moléculas para predecir sus propiedades

Este sistema de IA solo necesita una pequeña cantidad de datos para predecir propiedades moleculares, lo que podría a...

Inteligencia Artificial

Todas tus publicaciones en línea ahora pertenecen a la IA, afirma Google

En una actualización reciente de su política de privacidad, Google, reconocida a menudo por sus robustas herramientas...

Inteligencia Artificial

Alibaba libera el modelo de IA de código abierto para competir con Meta y potenciar a los desarrolladores

En un desarrollo significativo, Alibaba, el gigante chino del comercio electrónico, ha decidido abrir su potente mode...

Inteligencia Artificial

Las Nuevas Implicaciones Éticas de la Inteligencia Artificial Generativa

El rápido progreso del IA generativa hace necesario implementar urgentemente salvaguardias éticas contra los riesgos ...

Inteligencia Artificial

Un nuevo conjunto de datos de imágenes del Ártico impulsará la investigación en inteligencia artificial

El conjunto de datos, recopilado como parte de una misión científica de la Guardia Costera de Estados Unidos, se publ...

Inteligencia Artificial

Línea Open-Sources ‘japanese-large-lm’ Un modelo de lenguaje japonés con 3.6 mil millones de parámetros

Desde noviembre de 2020, LINE se ha embarcado en un viaje transformador de investigación y desarrollo para crear y ap...