Fundamentos de Estadística para Científicos de Datos y Analistas

Estadística para Científicos de Datos y Analistas

Como Karl Pearson, un matemático británico, dijo una vez, la Estadística es la gramática de la ciencia y esto es especialmente cierto para las Ciencias de la Computación e Información, Ciencias Físicas y Ciencias Biológicas. Cuando estás comenzando tu viaje en Ciencia de Datos o Análisis de Datos, tener conocimientos estadísticos te ayudará a aprovechar mejor los conocimientos obtenidos de los datos.

“La Estadística es la gramática de la ciencia.” Karl Pearson

No se puede subestimar la importancia de la estadística en la ciencia de datos y el análisis de datos. La estadística proporciona herramientas y métodos para encontrar estructura y obtener conocimientos más profundos de los datos. Tanto la Estadística como las Matemáticas aman los hechos y odian las suposiciones. Conocer los fundamentos de estas dos materias importantes te permitirá pensar de manera crítica y ser creativo al utilizar los datos para resolver problemas empresariales y tomar decisiones basadas en datos. En este artículo, cubriré los siguientes temas de estadística para la ciencia de datos y el análisis de datos:

- Variables aleatorias

- Funciones de distribución de probabilidad (PDF)

- Media, Varianza, Desviación Estándar

- Covarianza y correlación

- Teorema de Bayes

- Regresión lineal y Mínimos Cuadrados Ordinarios (OLS)

- Teorema de Gauss-Markov

- Propiedades de los parámetros (sesgo, consistencia, eficiencia)

- Intervalos de confianza

- Prueba de hipótesis

- Significancia estadística

- Errores de Tipo I y Tipo II

- Pruebas estadísticas (prueba t de Student, prueba F)

- Valor p y sus limitaciones

- Estadística inferencial

- Teorema del límite central y Ley de los Grandes Números

- Técnicas de reducción de dimensionalidad (PCA, FA)

Si no tienes conocimientos estadísticos previos y quieres identificar y aprender los conceptos estadísticos esenciales desde cero, para prepararte para tus entrevistas de trabajo, entonces este artículo es para ti. Este artículo también será una buena lectura para cualquiera que quiera actualizar sus conocimientos estadísticos.

Antes de comenzar, ¡bienvenido a LunarTech!

Bienvenido a LunarTech.ai, donde entendemos el poder de las estrategias de búsqueda de empleo en el campo dinámico de la Ciencia de Datos e IA. Nos sumergimos en las tácticas y estrategias necesarias para navegar el competitivo proceso de búsqueda de empleo. Ya sea definir tus metas profesionales, personalizar materiales de solicitud o aprovechar los tableros de empleo y la red de contactos, nuestros conocimientos te brindan la orientación que necesitas para conseguir tu trabajo soñado.

¿Preparándote para entrevistas de ciencia de datos? ¡No temas! Arrojamos luz sobre las complejidades del proceso de entrevista, equipándote con los conocimientos y la preparación necesarios para aumentar tus posibilidades de éxito. Desde las primeras entrevistas telefónicas hasta las evaluaciones técnicas, las entrevistas técnicas y las entrevistas de comportamiento, no dejamos ninguna piedra sin remover.

En LunarTech.ai, vamos más allá de la teoría. Somos tu trampolín hacia un éxito sin precedentes en el ámbito tecnológico y de la ciencia de datos. Nuestro completo viaje de aprendizaje está diseñado para adaptarse perfectamente a tu estilo de vida, permitiéndote encontrar el equilibrio perfecto entre tus compromisos personales y profesionales mientras adquieres habilidades de vanguardia. Con nuestra dedicación a tu crecimiento profesional, que incluye asistencia para la colocación laboral, creación de currículum de expertos y preparación para entrevistas, surgirás como una potencia lista para la industria.

Únete hoy a nuestra comunidad de individuos ambiciosos y embarquemos juntos en este emocionante viaje de ciencia de datos. Con LunarTech.ai, el futuro es brillante y tienes las llaves para desbloquear oportunidades ilimitadas.

Variables Aleatorias

El concepto de variables aleatorias es la base de muchos conceptos estadísticos. Puede ser difícil de digerir su definición matemática formal, pero en pocas palabras, una variable aleatoria es una forma de asignar los resultados de procesos aleatorios, como lanzar una moneda o tirar un dado, a números. Por ejemplo, podemos definir el proceso aleatorio de lanzar una moneda mediante la variable aleatoria X, que toma el valor 1 si el resultado es cara y 0 si el resultado es cruz.

En este ejemplo, tenemos un proceso aleatorio de lanzar una moneda donde este experimento puede producir dos posibles resultados: {0,1}. Este conjunto de todos los posibles resultados se llama el espacio muestral del experimento. Cada vez que se repite el proceso aleatorio, se llama un evento. En este ejemplo, lanzar una moneda y obtener cruz como resultado es un evento. La probabilidad de que ocurra este evento con un resultado particular se llama la probabilidad de ese evento. La probabilidad de un evento es la posibilidad de que una variable aleatoria tome un valor específico x, que puede describirse mediante P(x). En el ejemplo de lanzar una moneda, la probabilidad de obtener cara o cruz es la misma, es decir, 0.5 o 50%. Por lo tanto, tenemos la siguiente configuración:

donde la probabilidad de un evento, en este ejemplo, solo puede tomar valores en el rango [0,1].

No se puede subestimar la importancia de la estadística en la ciencia de datos y el análisis de datos. La estadística proporciona herramientas y métodos para encontrar estructura y obtener una mayor comprensión de los datos.

Media, Varianza, Desviación Estándar

Para comprender los conceptos de media, varianza y muchos otros temas estadísticos, es importante aprender los conceptos de población y muestra. La población es el conjunto de todas las observaciones (individuos, objetos, eventos o procedimientos) y generalmente es muy grande y diversa, mientras que una muestra es un subconjunto de observaciones de la población que idealmente representa fielmente a la población.

Dado que experimentar con una población completa es imposible o simplemente demasiado costoso, los investigadores o analistas utilizan muestras en lugar de la población completa en sus experimentos o pruebas. Para asegurarse de que los resultados experimentales sean confiables y sean válidos para toda la población, la muestra debe ser una representación fiel de la población. Es decir, la muestra debe ser imparcial. Para este propósito, se pueden utilizar técnicas de muestreo estadístico como el muestreo aleatorio, el muestreo sistemático, el muestreo por conglomerados, el muestreo ponderado y el muestreo estratificado.

Media

La media, también conocida como el promedio, es un valor central de un conjunto finito de números. Supongamos que una variable aleatoria X en los datos tiene los siguientes valores:

donde N es el número de observaciones o puntos de datos en el conjunto de muestra o simplemente la frecuencia de los datos. Entonces la media de la muestra definida por ?, que se utiliza con mucha frecuencia para aproximar la media de la población, se puede expresar de la siguiente manera:

La media también se conoce como esperanza, que a menudo se define como E() o variable aleatoria con una barra en la parte superior. Por ejemplo, la esperanza de las variables aleatorias X e Y, es decir, E(X) y E(Y), respectivamente, se puede expresar de la siguiente manera:

import numpy as np
import math
x = np.array([1,3,5,6])
mean_x = np.mean(x)
# en caso de que los datos contengan valores NaN
x_nan = np.array([1,3,5,6, math.nan])
mean_x_nan = np.nanmean(x_nan)

Varianza

La varianza mide cuán dispersos están los puntos de datos con respecto al valor promedio, y es igual a la suma de los cuadrados de las diferencias entre los valores de los datos y el promedio (la media). Además, la varianza de la población se puede expresar de la siguiente manera:

x = np.array([1,3,5,6])
variance_x = np.var(x)

# aquí necesitas especificar los grados de libertad (df), que es el número máximo de puntos de datos lógicamente independientes que tienen libertad para variar
x_nan = np.array([1,3,5,6, math.nan])
mean_x_nan = np.nanvar(x_nan, ddof = 1)

Para obtener expectativas y varianzas de diferentes funciones de distribución de probabilidad populares, consulta este repositorio de Github.

Desviación estándar

La desviación estándar es simplemente la raíz cuadrada de la varianza y mide en qué medida los datos varían respecto a su media. La desviación estándar, definida por sigma, puede expresarse de la siguiente manera:

La desviación estándar se prefiere a menudo sobre la varianza porque tiene la misma unidad que los puntos de datos, lo que significa que se puede interpretar más fácilmente.

x = np.array([1,3,5,6])
variance_x = np.std(x)

x_nan = np.array([1,3,5,6, math.nan])
mean_x_nan = np.nanstd(x_nan, ddof = 1)

Covarianza

La covarianza es una medida de la variabilidad conjunta de dos variables aleatorias y describe la relación entre estas dos variables. Se define como el valor esperado del producto de las desviaciones de las dos variables aleatorias respecto a sus medias. La covarianza entre dos variables aleatorias X y Z puede describirse mediante la siguiente expresión, donde E(X) y E(Z) representan las medias de X y Z, respectivamente.

La covarianza puede tomar valores negativos o positivos, así como el valor 0. Un valor positivo de covarianza indica que dos variables aleatorias tienden a variar en la misma dirección, mientras que un valor negativo sugiere que estas variables varían en direcciones opuestas. Finalmente, el valor 0 significa que no varían juntas.

x = np.array([1,3,5,6])
y = np.array([-2,-4,-5,-6])
#esto devolverá la matriz de covarianza de x,y que contiene la varianza de x, la varianza de y en los elementos diagonales y la covarianza de x,y
cov_xy = np.cov(x,y)

Correlación

La correlación también es una medida de la relación y mide tanto la fuerza como la dirección de la relación lineal entre dos variables. Si se detecta una correlación, significa que hay una relación o un patrón entre los valores de dos variables objetivo. La correlación entre dos variables aleatorias X y Z es igual a la covarianza entre estas dos variables dividida por el producto de las desviaciones estándar de estas variables, lo cual puede describirse mediante la siguiente expresión.

Los valores de los coeficientes de correlación oscilan entre -1 y 1. Ten en cuenta que la correlación de una variable consigo misma siempre es 1, es decir, Cor(X, X) = 1. Otra cosa a tener en cuenta al interpretar la correlación es no confundirla con la causalidad, dado que una correlación no implica causalidad. Incluso si hay una correlación entre dos variables, no se puede concluir que una variable cause un cambio en la otra. Esta relación podría ser coincidencial o un tercer factor podría estar causando cambios en ambas variables.

x = np.array([1,3,5,6])
y = np.array([-2,-4,-5,-6])
corr = np.corrcoef(x,y)

Funciones de Distribución de Probabilidad

Una función que describe todos los posibles valores, el espacio muestral y las probabilidades correspondientes que una variable aleatoria puede tomar dentro de un rango dado, acotado entre los valores mínimos y máximos posibles, se llama una función de distribución de probabilidad (pdf) o densidad de probabilidad. Toda pdf debe cumplir los siguientes dos criterios:

donde el primer criterio establece que todas las probabilidades deben ser números en el rango de [0,1] y el segundo criterio establece que la suma de todas las probabilidades posibles debe ser igual a 1.

Las funciones de probabilidad generalmente se clasifican en dos categorías: discretas y continuas. La función de distribución discreta describe el proceso aleatorio con un espacio muestral contable, como en el caso de lanzar una moneda que tiene solo dos posibles resultados. La función de distribución continua describe el proceso aleatorio con un espacio muestral continuo. Ejemplos de funciones de distribución discreta son Bernoulli, Binomial, Poisson, Uniforme discreta. Ejemplos de funciones de distribución continua son Normal, Uniforme continua, Cauchy.

Distribución Binomial

La distribución binomial es la distribución de probabilidad discreta del número de éxitos en una secuencia de n experimentos independientes, cada uno con un resultado booleano: éxito (con probabilidad p) o fracaso (con probabilidad q = 1 – p). Supongamos que una variable aleatoria X sigue una distribución binomial, entonces la probabilidad de observar k éxitos en n intentos independientes se puede expresar mediante la siguiente función de densidad de probabilidad:

La distribución binomial es útil al analizar los resultados de experimentos independientes repetidos, especialmente si uno está interesado en la probabilidad de alcanzar un umbral específico dado una tasa de error específica.

Media y Varianza de la Distribución Binomial

La figura a continuación visualiza un ejemplo de distribución binomial donde el número de intentos independientes es igual a 8 y la probabilidad de éxito en cada intento es igual al 16%.

Fuente de la imagen: El autor

# Generación aleatoria de 1000 muestras binomiales independientes
import numpy as np
n = 8
p = 0.16
N = 1000
X = np.random.binomial(n,p,N)
# Histograma de la distribución binomial
import matplotlib.pyplot as plt
counts, bins, ignored = plt.hist(X, 20, density = True, rwidth = 0.7, color = 'purple')
plt.title("Distribución binomial con p = 0.16 n = 8")
plt.xlabel("Número de éxitos")
plt.ylabel("Probabilidad")
plt.show()

Distribución de Poisson

La distribución de Poisson es la distribución de probabilidad discreta del número de eventos que ocurren en un período de tiempo especificado, dado el número promedio de veces que ocurre el evento en ese período de tiempo. Supongamos que una variable aleatoria X sigue una distribución de Poisson, entonces la probabilidad de observar k eventos en un período de tiempo se puede expresar mediante la siguiente función de probabilidad:

donde e es el número de Euler y λ, el parámetro de tasa de llegada, es el valor esperado de X. La función de distribución de Poisson es muy popular debido a su uso en el modelado de eventos contables que ocurren dentro de un intervalo de tiempo dado.

Media y Varianza de la Distribución de Poisson

Por ejemplo, la distribución de Poisson se puede utilizar para modelar el número de clientes que llegan a una tienda entre las 7 y las 10 p.m., o el número de pacientes que llegan a una sala de emergencias entre las 11 y las 12 p.m. La figura a continuación visualiza un ejemplo de distribución de Poisson donde contamos el número de visitantes web que llegan al sitio web y asumimos que la tasa de llegada, λ, es igual a 7 minutos.

Fuente de la imagen: El autor

# Generación aleatoria de 1000 muestras independientes de Poisson
import numpy as np
lambda_ = 7
N = 1000
X = np.random.poisson(lambda_,N)

# Histograma de la distribución de Poisson
import matplotlib.pyplot as plt
counts, bins, ignored = plt.hist(X, 50, density = True, color = 'purple')
plt.title("Generación aleatoria de la Distribución de Poisson con lambda = 7")
plt.xlabel("Número de visitantes")
plt.ylabel("Probabilidad")
plt.show()

Distribución Normal

La distribución de probabilidad normal es la distribución de probabilidad continua para una variable aleatoria de valores reales. La distribución normal, también llamada distribución gaussiana, es posiblemente una de las funciones de distribución más populares que se utilizan comúnmente en las ciencias sociales y naturales con fines de modelado, por ejemplo, se utiliza para modelar la altura de las personas o las calificaciones de los exámenes. Supongamos que una variable aleatoria X sigue una distribución normal, entonces su función de densidad de probabilidad puede expresarse de la siguiente manera.

donde el parámetro ? (mu) es la media de la distribución también conocida como el parámetro de ubicación, el parámetro ? (sigma) es la desviación estándar de la distribución también conocida como el parámetro de escala. El número ? (pi) es una constante matemática aproximadamente igual a 3.14.

Media y Varianza de la Distribución Normal

La figura siguiente visualiza un ejemplo de distribución normal con una media de 0 (? = 0) y una desviación estándar de 1 (? = 1), que se conoce como distribución normal estándar que es simétrica.

Fuente de la imagen: El autor

# Generación aleatoria de 1000 muestras independientes de Normal
import numpy as np
mu = 0
sigma = 1
N = 1000
X = np.random.normal(mu,sigma,N)

# Distribución de la población
from scipy.stats import norm
x_values = np.arange(-5,5,0.01)
y_values = norm.pdf(x_values)
#Histograma de muestra con distribución de la población
import matplotlib.pyplot as plt
counts, bins, ignored = plt.hist(X, 30, density = True,color = 'purple',label = 'Distribución de la Muestra')
plt.plot(x_values,y_values, color = 'y',linewidth = 2.5,label = 'Distribución de la Población')
plt.title("Generación aleatoria de 1000 observaciones de la distribución Normal mu = 0 sigma = 1")
plt.ylabel("Probabilidad")
plt.legend()
plt.show()

Teorema de Bayes

El Teorema de Bayes o a menudo llamado Ley de Bayes es posiblemente la regla más poderosa de probabilidad y estadística, nombrada en honor al famoso estadístico y filósofo inglés, Thomas Bayes.

Fuente de la imagen: Wikipedia

El teorema de Bayes es una poderosa ley de probabilidad que introduce el concepto de subjetividad en el mundo de la estadística y las matemáticas donde todo se trata de hechos. Describe la probabilidad de un evento, basándose en la información previa de las condiciones que podrían estar relacionadas con ese evento. Por ejemplo, si se sabe que el riesgo de contraer Coronavirus o Covid-19 aumenta con la edad, entonces el Teorema de Bayes permite determinar el riesgo para un individuo de una edad conocida de manera más precisa al condicionarlo a la edad que simplemente asumir que este individuo es común a toda la población.

El concepto de probabilidad condicional, que desempeña un papel central en la teoría de Bayes, es una medida de la probabilidad de que ocurra un evento, dado que otro evento ya ha ocurrido. El teorema de Bayes se puede describir mediante la siguiente expresión en la que X e Y representan los eventos X e Y, respectivamente:

Pr (X|Y): la probabilidad de que ocurra el evento X dado que el evento o condición Y ha ocurrido o es verdadero
Pr (Y|X): la probabilidad de que ocurra el evento Y dado que el evento o condición X ha ocurrido o es verdadero
Pr (X) & Pr (Y): las probabilidades de observar los eventos X e Y, respectivamente

En el caso del ejemplo anterior, la probabilidad de contraer el Coronavirus (evento X) condicionado a tener cierta edad es Pr (X|Y), que es igual a la probabilidad de tener cierta edad dado que se contrajo el Coronavirus, Pr (Y|X), multiplicado por la probabilidad de contraer el Coronavirus, Pr (X), dividido por la probabilidad de tener cierta edad, Pr (Y).

Regresión Lineal

Anteriormente, se introdujo el concepto de causalidad entre variables, que ocurre cuando una variable tiene un impacto directo en otra variable. Cuando la relación entre dos variables es lineal, la Regresión Lineal es un método estadístico que puede ayudar a modelar el impacto de un cambio unitario en una variable, la variable independiente, en los valores de otra variable, la variable dependiente.

A menudo, las variables dependientes se denominan variables de respuesta o variables explicadas, mientras que las variables independientes se denominan variables de regresión o variables explicativas. Cuando el modelo de Regresión Lineal se basa en una sola variable independiente, se llama Regresión Lineal Simple y cuando el modelo se basa en múltiples variables independientes, se denomina Regresión Lineal Múltiple. La Regresión Lineal Simple se puede describir mediante la siguiente expresión:

donde Y es la variable dependiente, X es la variable independiente que forma parte de los datos, ?0 es la intersección que es desconocida y constante, ?1 es el coeficiente de pendiente o un parámetro correspondiente a la variable X que también es desconocido y constante. Finalmente, u es el término de error que el modelo comete al estimar los valores de Y. La idea principal detrás de la regresión lineal es encontrar la mejor recta de ajuste, la línea de regresión, a través de un conjunto de datos emparejados (X, Y). Un ejemplo de la aplicación de la Regresión Lineal es modelar el impacto de la Longitud de la Aleta en la Masa Corporal de los pingüinos, que se visualiza a continuación.

Fuente de la imagen: El Autor

# Código R para el gráfico
install.packages("ggplot2")
install.packages("palmerpenguins")
library(palmerpenguins)
library(ggplot2)
View(data(penguins))
ggplot(data = penguins, aes(x = flipper_length_mm,y = body_mass_g))+
  geom_smooth(method = "lm", se = FALSE, color = 'purple')+
  geom_point()+
  labs(x="Longitud de la Aleta (mm)",y="Masa Corporal (g)")

La Regresión Lineal Múltiple con tres variables independientes se puede describir mediante la siguiente expresión:

Mínimos Cuadrados Ordinarios

Los mínimos cuadrados ordinarios (OLS) es un método para estimar los parámetros desconocidos como ?0 y ?1 en un modelo de regresión lineal. El modelo se basa en el principio de los mínimos cuadrados que minimiza la suma de los cuadrados de las diferencias entre la variable dependiente observada y sus valores predichos por la función lineal de la variable independiente, a menudo denominados valores ajustados. Esta diferencia entre los valores reales y predichos de la variable dependiente Y se denomina residuo y lo que hace OLS es minimizar la suma de los residuos al cuadrado. Este problema de optimización da como resultado las siguientes estimaciones de OLS para los parámetros desconocidos ?0 y ?1, que también se conocen como estimaciones de coeficientes.

Una vez que se estiman estos parámetros del modelo de Regresión Lineal Simple, los valores ajustados de la variable de respuesta se pueden calcular de la siguiente manera:

Error estándar

Los residuos o los términos de error estimados se pueden determinar de la siguiente manera:

Es importante tener en cuenta la diferencia entre los términos de error y los residuos. Los términos de error nunca se observan, mientras que los residuos se calculan a partir de los datos. La estimación de MCO calcula los términos de error para cada observación, pero no el término de error real. Por lo tanto, la verdadera varianza del error aún es desconocida. Además, estas estimaciones están sujetas a incertidumbre de muestreo. Esto significa que nunca podremos determinar la estimación exacta, el valor real, de estos parámetros a partir de datos de muestra en una aplicación empírica. Sin embargo, podemos estimarlo calculando la varianza residual de la muestra utilizando los residuos de la siguiente manera.

Esta estimación de la varianza de los residuos de la muestra ayuda a estimar la varianza de los parámetros estimados, que a menudo se expresa de la siguiente manera:

La raíz cuadrada de este término de varianza se llama error estándar de la estimación, que es un componente clave para evaluar la precisión de las estimaciones de los parámetros. Se utiliza para calcular estadísticas de prueba e intervalos de confianza. El error estándar se puede expresar de la siguiente manera:

Es importante tener en cuenta la diferencia entre los términos de error y los residuos. Los términos de error nunca se observan, mientras que los residuos se calculan a partir de los datos.

Supuestos de MCO

El método de estimación MCO hace las siguientes suposiciones que deben cumplirse para obtener resultados de predicción confiables:

A1: Suposición de linealidad establece que el modelo es lineal en los parámetros.

A2: Suposición de muestra aleatoria establece que todas las observaciones en la muestra se seleccionan al azar.

A3: Suposición de exogeneidad establece que las variables independientes no están correlacionadas con los términos de error.

A4: Suposición de homocedasticidad establece que la varianza de todos los términos de error es constante.

A5: Suposición de no multicolinealidad perfecta establece que ninguna de las variables independientes es constante y no hay relaciones lineales exactas entre las variables independientes.

def runOLS(Y,X):

   # Estimación MCO Y = Xb + e --> beta_hat = (X'X)^-1(X'Y)
   beta_hat = np.dot(np.linalg.inv(np.dot(np.transpose(X), X)), np.dot(np.transpose(X), Y))

   # Predicción MCO
   Y_hat = np.dot(X,beta_hat)
   residuos = Y-Y_hat
   RSS = np.sum(np.square(residuos))
   sigma_squared_hat = RSS/(N-2)
   TSS = np.sum(np.square(Y-np.repeat(Y.mean(),len(Y))))
   MSE = sigma_squared_hat
   RMSE = np.sqrt(MSE)
   R_squared = (TSS-RSS)/TSS

   # Error estándar de las estimaciones: raíz cuadrada de la varianza de la estimación
   var_beta_hat = np.linalg.inv(np.dot(np.transpose(X),X))*sigma_squared_hat
   
   SE = []
   t_stats = []
   p_values = []
   CI_s = []
   
   for i in range(len(beta)):
       # errores estándar
       SE_i = np.sqrt(var_beta_hat[i,i])
       SE.append(np.round(SE_i,3))

        # estadísticas t
        t_stat = np.round(beta_hat[i,0]/SE_i,3)
        t_stats.append(t_stat)

        # valor p de la estadística t p[|t_stat| >= t-valor umbral a dos colas] 
        p_value = t.sf(np.abs(t_stat),N-2) * 2
        p_values.append(np.round(p_value,3))

        # Intervalos de confianza = beta_hat -+ margen_de_error
        t_critico = t.ppf(q =1-0.05/2, df = N-2)
        margen_de_error = t_critico*SE_i
        IC = [np.round(beta_hat[i,0]-margen_de_error,3), np.round(beta_hat[i,0]+margen_de_error,3)]
        CI_s.append(IC)
        return(beta_hat, SE, t_stats, p_values,CI_s, 
               MSE, RMSE, R_squared)

Propiedades de los parámetros

Bajo la suposición de que se satisfacen los criterios OLS A1 – A5, los estimadores OLS de los coeficientes β0 y β1 son BLUE y Consistentes.

Teorema de Gauss-Markov

Este teorema resalta las propiedades de las estimaciones OLS donde el término BLUE significa Mejor Estimador Lineal Insesgado.

Sesgo

El sesgo de un estimador es la diferencia entre su valor esperado y el valor verdadero del parámetro que se está estimando y se puede expresar de la siguiente manera:

Cuando afirmamos que el estimador es no sesgado, nos referimos a que el sesgo es igual a cero, lo que implica que el valor esperado del estimador es igual al valor verdadero del parámetro, es decir:

La falta de sesgo no garantiza que la estimación obtenida con una muestra particular sea igual o cercana a β. Lo que significa es que, si uno repite continuamente el proceso de seleccionar muestras aleatorias de la población y luego calcula la estimación cada vez, el promedio de estas estimaciones sería igual o muy cercano a β.

Eficiencia

El término mejor en el teorema de Gauss-Markov se relaciona con la varianza del estimador y se denomina eficiencia. Un parámetro puede tener múltiples estimadores, pero el que tiene la varianza más baja se llama eficiente.

Consistencia

El término consistencia va de la mano con los términos tamaño de muestra y convergencia. Si el estimador converge hacia el verdadero parámetro a medida que el tamaño de la muestra se vuelve muy grande, entonces se dice que este estimador es consistente, es decir:

Bajo la suposición de que se satisfacen los criterios OLS A1 – A5, los estimadores OLS de los coeficientes β0 y β1 son BLUE y Consistentes. Teorema de Gauss-Markov

Todas estas propiedades se cumplen para las estimaciones OLS, como se resume en el teorema de Gauss-Markov. En otras palabras, las estimaciones OLS tienen la menor varianza, son no sesgadas, lineales en los parámetros y consistentes. Estas propiedades se pueden demostrar matemáticamente utilizando las suposiciones OLS realizadas anteriormente.

Intervalos de confianza

El intervalo de confianza es el rango que contiene el verdadero parámetro de la población con una cierta probabilidad preespecificada, denominada nivel de confianza del experimento, y se obtiene utilizando los resultados de la muestra y el margen de error.

Margen de error

El margen de error es la diferencia entre los resultados de la muestra y lo que hubiera sido el resultado si se hubiera utilizado toda la población.

Nivel de confianza

El nivel de confianza describe el nivel de certeza en los resultados experimentales. Por ejemplo, un nivel de confianza del 95% significa que si se realiza el mismo experimento repetidamente 100 veces, entonces 95 de esas 100 pruebas conducirían a resultados similares. Tenga en cuenta que el nivel de confianza se define antes del inicio del experimento porque afectará qué tan grande será el margen de error al final del experimento.

Intervalo de confianza para las estimaciones OLS

Como se mencionó anteriormente, las estimaciones OLS de la Regresión Lineal Simple, las estimaciones para la intersección ?0 y el coeficiente de pendiente ?1, están sujetas a incertidumbre de muestreo. Sin embargo, podemos construir intervalos de confianza (CI) para estos parámetros que contendrán el valor verdadero de estos parámetros en el 95% de todas las muestras. Es decir, el intervalo de confianza del 95% para ? se puede interpretar de la siguiente manera:

El intervalo de confianza es el conjunto de valores para los cuales una prueba de hipótesis no puede ser rechazada al nivel del 5%.
El intervalo de confianza tiene un 95% de probabilidad de contener el valor verdadero de ?.

El intervalo de confianza del 95% de las estimaciones OLS se puede construir de la siguiente manera:

que se basa en la estimación del parámetro, el error estándar de esa estimación y el valor 1.96 que representa el margen de error correspondiente a la regla de rechazo del 5%. Este valor se determina utilizando la tabla de Distribución Normal, que se discutirá más adelante en este artículo. Mientras tanto, la siguiente figura ilustra la idea del IC del 95%:

Fuente de la imagen: Wikipedia

Tenga en cuenta que el intervalo de confianza también depende del tamaño de la muestra, dado que se calcula utilizando el error estándar que se basa en el tamaño de la muestra.

El nivel de confianza se define antes de comenzar el experimento porque afectará qué tan grande será el margen de error al final del experimento.

Prueba de hipótesis estadística

Probar una hipótesis en Estadística es una forma de probar los resultados de un experimento o encuesta para determinar cuán significativos son los resultados. Básicamente, se está probando si los resultados obtenidos son válidos al determinar las probabilidades de que los resultados hayan ocurrido por casualidad. Si es así, entonces los resultados no son confiables y tampoco lo es el experimento. La Prueba de Hipótesis es parte de la Inferencia Estadística.

Hipótesis Nula y Alternativa

En primer lugar, debes determinar la tesis que deseas probar, luego debes formular la Hipótesis Nula y la Hipótesis Alternativa. La prueba puede tener dos posibles resultados y, en función de los resultados estadísticos, puedes rechazar o aceptar la hipótesis establecida. Como regla general, los estadísticos tienden a poner la versión o formulación de la hipótesis bajo la Hipótesis Nula que debe ser rechazada, mientras que la versión aceptable y deseada se establece bajo la Hipótesis Alternativa.

Significancia estadística

Veamos el ejemplo mencionado anteriormente donde se utilizó el modelo de Regresión Lineal para investigar si la Longitud de la Aleta de un pingüino, la variable independiente, tiene un impacto en la Masa Corporal, la variable dependiente. Podemos formular este modelo con la siguiente expresión estadística:

Luego, una vez que se estiman las estimaciones OLS de los coeficientes, podemos formular la siguiente Hipótesis Nula y Alternativa para probar si la Longitud de la Aleta tiene un impacto estadísticamente significativo en la Masa Corporal:

donde H0 y H1 representan Hipótesis Nula y Hipótesis Alternativa, respectivamente. Rechazar la Hipótesis Nula significaría que un aumento de una unidad en la Longitud de la Aleta tiene un impacto directo en la Masa Corporal. Dado que la estimación del parámetro ?1 describe este impacto de la variable independiente, Longitud de la Aleta, en la variable dependiente, Masa Corporal. Esta hipótesis se puede reformular de la siguiente manera:

donde H0 establece que la estimación del parámetro de ?1 es igual a 0, es decir, el efecto de la longitud de la aleta sobre la masa corporal es estadísticamente insignificante, mientras que H0 establece que la estimación del parámetro de ?1 no es igual a 0, lo que sugiere que el efecto de la longitud de la aleta sobre la masa corporal es estadísticamente significativo.

Errores de Tipo I y Tipo II

Cuando se realiza una Prueba de Hipótesis Estadística, es necesario considerar dos tipos conceptuales de errores: el error de Tipo I y el error de Tipo II. El error de Tipo I ocurre cuando se rechaza incorrectamente la Hipótesis Nula, mientras que el error de Tipo II ocurre cuando la Hipótesis Nula no se rechaza incorrectamente. Una matriz de confusión puede ayudar a visualizar claramente la gravedad de estos dos tipos de errores.

Como regla general, los estadísticos tienden a poner la versión de la hipótesis bajo la Hipótesis Nula que debe ser rechazada, mientras que la versión aceptable y deseada se establece bajo la Hipótesis Alternativa.

Pruebas Estadísticas

Una vez que se establecen las Hipótesis Nula y Alternativa y se definen las suposiciones de la prueba, el siguiente paso es determinar qué prueba estadística es apropiada y calcular la estadística de prueba. Si se debe rechazar o no la Hipótesis Nula se puede determinar comparando la estadística de prueba con el valor crítico. Esta comparación muestra si la estadística de prueba observada es más extrema que el valor crítico definido y puede tener dos posibles resultados:

La estadística de prueba es más extrema que el valor crítico: se puede rechazar la hipótesis nula
La estadística de prueba no es tan extrema como el valor crítico: no se puede rechazar la hipótesis nula

El valor crítico se basa en un nivel de significancia preespecificado (generalmente elegido para que sea igual al 5%) y el tipo de distribución de probabilidad que sigue la estadística de prueba. El valor crítico divide el área bajo esta curva de distribución de probabilidad en la región(es) de rechazo y región de no rechazo. Hay numerosas pruebas estadísticas utilizadas para probar diversas hipótesis. Ejemplos de pruebas estadísticas son el t-test de Student, la prueba F, la prueba chi-cuadrado, la prueba de endogeneidad de Durbin-Hausman-Wu, la prueba de heterocedasticidad de White. En este artículo, veremos dos de estas pruebas estadísticas.

El error de Tipo I ocurre cuando se rechaza incorrectamente la Hipótesis Nula, mientras que el error de Tipo II ocurre cuando la Hipótesis Nula no se rechaza incorrectamente.

T-test de Student

Una de las pruebas estadísticas más simples y populares es el t-test de Student, que se puede utilizar para probar diversas hipótesis, especialmente cuando se trata de una hipótesis donde el principal ámbito de interés es encontrar evidencia del efecto estadísticamente significativo de una variable única. La estadística de prueba del t-test sigue la distribución t de Student y se puede determinar de la siguiente manera:

donde h0 en el numerador es el valor contra el cual se está probando la estimación del parámetro. Por lo tanto, la estadística de prueba t es igual a la estimación del parámetro menos el valor hipotetizado dividido por el error estándar de la estimación del coeficiente. En la hipótesis establecida anteriormente, donde queríamos probar si la longitud de la aleta tiene un impacto estadísticamente significativo en la masa corporal o no. Esta prueba se puede realizar utilizando un t-test y en ese caso, h0 es igual a 0, ya que se prueba el coeficiente de pendiente contra el valor 0.

Existen dos versiones del t-test: un t-test de dos lados y un t-test de un lado. La versión que necesitas, ya sea la primera o la última, depende por completo de la hipótesis que quieras probar.

El t-test de dos lados o t-test de dos colas se puede utilizar cuando la hipótesis está probando una relación igual versus no igual bajo las Hipótesis Nula y Alternativa, similar al siguiente ejemplo:

La prueba t de dos colas tiene dos regiones de rechazo como se muestra en la figura a continuación:

Fuente de la imagen: Hartmann, K., Krois, J., Waske, B. (2018): Proyecto de aprendizaje electrónico SOGA: Estadísticas y análisis de datos geoespaciales. Departamento de Ciencias de la Tierra, Universidad Libre de Berlín

En esta versión de la prueba t, se rechaza la hipótesis nula si el valor calculado de la estadística t es demasiado pequeño o demasiado grande.

Aquí, las estadísticas de prueba se comparan con los valores críticos basados en el tamaño de la muestra y el nivel de significancia elegido. Para determinar el valor exacto del punto de corte, se puede utilizar la tabla de distribución t de dos colas.

La prueba t de una cola o prueba t unicaudal se puede utilizar cuando la hipótesis está probando una relación positiva/negativa versus una relación negativa/positiva bajo las hipótesis nula y alternativa que son similares a los siguientes ejemplos:

La prueba t unicaudal tiene una sola región de rechazo y dependiendo del lado de la hipótesis, la región de rechazo está en el lado izquierdo o derecho como se muestra en la figura a continuación:

En esta versión de la prueba t, se rechaza la hipótesis nula si la estadística t calculada es menor/mayor que el valor crítico.

Prueba F

La prueba F es otra prueba estadística muy popular que se utiliza a menudo para probar hipótesis que prueban una significancia estadística conjunta de múltiples variables. Esto sucede cuando se quiere probar si múltiples variables independientes tienen un impacto estadísticamente significativo en una variable dependiente. A continuación se muestra un ejemplo de una hipótesis estadística que se puede probar utilizando la prueba F:

donde la hipótesis nula establece que las tres variables correspondientes a estos coeficientes son conjuntamente estadísticamente insignificantes y la hipótesis alternativa establece que estas tres variables son conjuntamente estadísticamente significativas. La estadística de prueba de la prueba F sigue una distribución F y se puede determinar de la siguiente manera:

donde SSRrestringido es la suma de los residuos cuadrados del modelo restringido que es el mismo modelo que excluye de los datos las variables objetivo declaradas como insignificantes bajo la hipótesis nula, SSRunrestringido es la suma de los residuos cuadrados del modelo irrestricto que es el modelo que incluye todas las variables, q representa el número de variables que se están probando conjuntamente para la insignificancia bajo la hipótesis nula, N es el tamaño de la muestra y k es el número total de variables en el modelo irrestricto. Los valores de SSR se proporcionan junto a las estimaciones de los parámetros después de ejecutar la regresión OLS y lo mismo se aplica a las estadísticas F. A continuación se muestra un ejemplo de la salida del modelo MLR donde se marcan los valores de SSR y las estadísticas F.

Fuente de la imagen: Stock and Whatson

La prueba F tiene una sola región de rechazo como se muestra a continuación:

Fuente de la imagen: U de Michigan

Si el estadístico F calculado es mayor que el valor crítico, entonces se puede rechazar la Hipótesis Nula, lo que sugiere que las variables independientes son conjuntamente estadísticamente significativas. La regla de rechazo se puede expresar de la siguiente manera:

Valores P

Otra forma rápida de determinar si se debe rechazar o respaldar la Hipótesis Nula es mediante el uso de valores p. El valor p es la probabilidad de que se cumpla la condición bajo la Hipótesis Nula. Dicho de otra manera, el valor p es la probabilidad, asumiendo que la hipótesis nula es verdadera, de observar un resultado al menos tan extremo como la estadística de prueba. Cuanto menor sea el valor p, más fuerte es la evidencia en contra de la Hipótesis Nula, lo que sugiere que se puede rechazar.

La interpretación de un valor p depende del nivel de significancia elegido. Con mayor frecuencia, se utilizan niveles de significancia del 1%, 5% o 10% para interpretar el valor p. Por lo tanto, en lugar de utilizar la prueba t y la prueba F, se pueden utilizar los valores p de estas estadísticas de prueba para probar las mismas hipótesis.

La siguiente figura muestra una muestra de salida de una regresión OLS con dos variables independientes. En esta tabla, se subraya el valor p de la prueba t, que prueba la significancia estadística de la estimación del parámetro de la variable “class_size”, y el valor p de la prueba F, que prueba la significancia estadística conjunta de las estimaciones de parámetros de las variables “class_size” y “el_pct”.

Fuente de la imagen: Stock and Whatson

El valor p correspondiente a la variable “class_size” es 0.011 y al comparar este valor con los niveles de significancia 1% o 0.01, 5% o 0.05, 10% o 0.1, se pueden hacer las siguientes conclusiones:

0.011 > 0.01 ? No se puede rechazar la Hipótesis Nula de la prueba t a un nivel de significancia del 1%
0.011 < 0.05 ? Se puede rechazar la Hipótesis Nula de la prueba t a un nivel de significancia del 5%
0.011 < 0.10 ? Se puede rechazar la Hipótesis Nula de la prueba t a un nivel de significancia del 10%

Por lo tanto, este valor p sugiere que el coeficiente de la variable “class_size” es estadísticamente significativo a un nivel de significancia del 5% y del 10%. El valor p correspondiente a la prueba F es 0.0000 y dado que 0 es menor que los tres valores de corte; 0.01, 0.05, 0.10, podemos concluir que se puede rechazar la Hipótesis Nula de la prueba F en los tres casos. Esto sugiere que los coeficientes de las variables “class_size” y “el_pct” son conjuntamente estadísticamente significativos a niveles de significancia del 1%, 5% y 10%.

Limitación de los valores p

Aunque el uso de los valores p tiene muchos beneficios, también tiene limitaciones. En particular, el valor p depende tanto de la magnitud de la asociación como del tamaño de la muestra. Si la magnitud del efecto es pequeña y no es estadísticamente significativa, el valor p aún puede mostrar un impacto significativo porque el tamaño de la muestra es grande. Lo contrario también puede ocurrir, un efecto puede ser grande, pero no cumplir con los criterios de p<0.01, 0.05 o 0.10 si el tamaño de la muestra es pequeño.

Estadística Inferencial

La estadística inferencial utiliza datos de muestra para hacer juicios razonables sobre la población de la cual se originaron los datos de muestra. Se utiliza para investigar las relaciones entre variables dentro de una muestra y hacer predicciones sobre cómo estas variables se relacionarán con una población más grande.

Tanto la Ley de los Grandes Números (LLN) como el Teorema del Límite Central (CLM) tienen un papel importante en la estadística inferencial porque muestran que los resultados experimentales se mantienen independientemente de la forma de distribución original de la población cuando los datos son lo suficientemente grandes. Cuantos más datos se recopilen, más precisas serán las inferencias estadísticas y, por lo tanto, se generarán estimaciones de parámetros más precisas.

Ley de los Grandes Números (LLN)

Supongamos que X1, X2, . . . , Xn son todas variables aleatorias independientes con la misma distribución subyacente, también llamadas independientes e idénticamente distribuidas o i.i.d, donde todas las X tienen la misma media ? y desviación estándar ?. A medida que el tamaño de la muestra crece, la probabilidad de que el promedio de todas las X sea igual a la media ? es igual a 1. La Ley de los Grandes Números se puede resumir de la siguiente manera:

Teorema del Límite Central (CLM)

Supongamos que X1, X2, . . . , Xn son todas variables aleatorias independientes con la misma distribución subyacente, también llamadas independientes e idénticamente distribuidas o i.i.d, donde todas las X tienen la misma media ? y desviación estándar ?. A medida que el tamaño de la muestra crece, la distribución de probabilidad de X converge en la distribución en una distribución Normal con media ? y varianza ?-al cuadrado. El Teorema del Límite Central se puede resumir de la siguiente manera:

En otras palabras, cuando tienes una población con media ? y desviación estándar ? y tomas muestras aleatorias suficientemente grandes de esa población con reemplazo, entonces la distribución de las medias de la muestra será aproximadamente normalmente distribuida.

Técnicas de Reducción de Dimensionalidad

La reducción de dimensionalidad es la transformación de datos desde un espacio de alta dimensionalidad a un espacio de baja dimensionalidad de manera que esta representación de baja dimensionalidad de los datos todavía contenga las propiedades significativas de los datos originales tanto como sea posible.

Con el aumento de la popularidad de Big Data, también aumentó la demanda de estas técnicas de reducción de dimensionalidad, reduciendo la cantidad de datos y características innecesarias. Ejemplos de técnicas populares de reducción de dimensionalidad son el Análisis de Componentes Principales, el Análisis de Factores, la Correlación Canónica, el Bosque Aleatorio.

Análisis de Componentes Principales (PCA)

El Análisis de Componentes Principales o PCA es una técnica de reducción de dimensionalidad que se utiliza muy a menudo para reducir la dimensionalidad de conjuntos de datos grandes, transformando un conjunto grande de variables en un conjunto más pequeño que todavía contiene la mayor parte de la información o la variación en el conjunto de datos original.

Supongamos que tenemos un conjunto de datos X con p variables; X1, X2, …., Xp con autovectores e1, …, ep, y autovalores ?1,…, ?p. Los autovalores muestran la varianza explicada por un campo de datos específico de la varianza total. La idea detrás de PCA es crear nuevas variables (independientes), llamadas Componentes Principales, que son una combinación lineal de las variables existentes. La i-ésima componente principal se puede expresar de la siguiente manera:

Luego, utilizando la Regla del Codo o la Regla de Kaiser, puedes determinar el número de componentes principales que resumen de manera óptima los datos sin perder demasiada información. También es importante analizar la proporción de la variación total (PRTV) que es explicada por cada componente principal para decidir si es beneficioso incluirla o excluir. La PRTV para la i-ésima componente principal se puede calcular utilizando los autovalores de la siguiente manera:

Regla del Codo

La regla del codo o el método del codo es un enfoque heurístico que se utiliza para determinar el número de componentes principales óptimas a partir de los resultados del PCA. La idea detrás de este método es trazar la variación explicada como función del número de componentes y elegir el codo de la curva como el número de componentes principales óptimas. A continuación se muestra un ejemplo de tal gráfico de dispersión donde se traza el PRTV (eje Y) en el número de componentes principales (eje X). El codo corresponde al valor del eje X 2, lo que sugiere que el número de componentes principales óptimas es 2.

Fuente de la imagen: Multivariate Statistics Github

Análisis de Factores (AF)

El análisis de factores o AF es otro método estadístico para la reducción de dimensionalidad. Es una de las técnicas de interdependencia más utilizadas y se utiliza cuando el conjunto relevante de variables muestra una interdependencia sistemática y el objetivo es descubrir los factores latentes que crean una comunalidad. Supongamos que tenemos un conjunto de datos X con p variables; X1, X2, …., Xp. El modelo de AF se puede expresar de la siguiente manera:

donde X es una matriz [p x N] de p variables y N observaciones, µ es una matriz de media de población [p x N], A es una matriz de carga de factores comunes [p x k], F [k x N] es la matriz de factores comunes y u [pxN] es la matriz de factores específicos. En resumen, un modelo de factores es una serie de regresiones múltiples, prediciendo cada una de las variables Xi a partir de los valores de los factores comunes no observables fi:

Cada variable tiene k de sus propios factores comunes, y estos están relacionados con las observaciones a través de una matriz de carga de factores para una sola observación de la siguiente manera: En el análisis de factores, los factores se calculan para maximizar la varianza entre grupos mientras minimizan la varianza dentro del grupo. Son factores porque agrupan las variables subyacentes. A diferencia del ACP, en el AF los datos deben normalizarse, dado que el AF asume que el conjunto de datos sigue una distribución normal.

Tatev Karen Aslanyan es una experimentada científica de datos full-stack con enfoque en Aprendizaje Automático e Inteligencia Artificial. También es cofundadora de LunarTech, una plataforma educativa de tecnología en línea, y creadora de The Ultimate Data Science Bootcamp. Tatev Karen, con licenciatura y maestría en Econometría y Ciencia de la Gestión, ha crecido en el campo del Aprendizaje Automático e Inteligencia Artificial, centrándose en los Sistemas de Recomendación y el Procesamiento del Lenguaje Natural (PLN), respaldada por su investigación científica y artículos publicados. Después de cinco años de enseñanza, Tatev ahora está canalizando su pasión en LunarTech, ayudando a dar forma al futuro de la ciencia de datos.

Original. Reposted with permission.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Data Science

Was this article helpful?

93 out of 132 found this helpful