Modelado de Señales EEG utilizando Regresión Polinómica en R

EEG Signal Modeling with Polynomial Regression in R.

Encontrando el mejor modelo de ajuste

Gráfico de series de tiempo de señales EEG de entrada para regresión polinómica en R. Imagen del autor.

Introducción a las señales EEG

EEG significa electroencefalograma, el cual es una señal eléctrica que mide la actividad eléctrica del cerebro [1]. Para obtener el resultado del EEG, se pegan electrodos que consisten en pequeños discos metálicos con cables delgados en el cuero cabelludo. Los electrodos detectan pequeñas cargas eléctricas que provienen de la actividad de las células cerebrales y estas cargas obtenidas se amplifican y aparecen como un gráfico en una pantalla de computadora o como una grabación que se puede imprimir en papel. El objetivo principal del EEG es detectar posibles problemas (encefalitis, hemorragia, epilepsia, enfermedad de Parkinson y otros) con la comunicación de las células cerebrales mediante un método indoloro [2].

Objetivos

Nuestros objetivos son los siguientes:

  1. Evaluar el ajuste del modelo de regresión polinómica a las señales EEG y estimar los parámetros del modelo.
  2. Usar un enfoque basado en simulación para estimar la distribución posterior de los parámetros del modelo, permitiendo la incertidumbre en el modelo y los datos.

Obtenga acceso al código completo en GitHub o vea el libro en RPubs.

GitHub – maladeep/Modeling-EEG-signals-using-polynomial-regression-in-R: Modelado de señales EEG utilizando…

Este repositorio proporciona una implementación de modelado de señales EEG utilizando regresión polinómica. El código y el análisis…

github.com

Conjunto de datos

Utilizaremos el conjunto de datos proporcionado por el Centro Swartz para la Neurociencia Computacional, que contiene tiempo, cuatro señales de entrada (x1, x2, x3 y x4) y una señal de salida (y).

A continuación, se muestra una muestra del conjunto de datos:

Captura de pantalla del conjunto de datos proporcionado por el Centro Swartz para la Neurociencia Computacional. Imagen del autor.

Desafío

Aquí, vamos a explicar la relación entre las señales EEG de entrada y las señales EEG de salida basándonos en la suposición de que la relación se puede expresar como un modelo de regresión polinómica.

Se nos dan cinco modelos de regresión polinómica no lineal diferentes, de los cuales debemos encontrar el más adecuado.

Se nos dan cinco modelos de regresión polinómica no lineal diferentes. Imagen del autor

Para resolver el problema, se tomarían los siguientes pasos:

  1. Usando mínimos cuadrados, estimar los parámetros del modelo
  2. Calcular los errores residuales del modelo (RSS)
  3. Calcular las funciones de verosimilitud
  4. Calcular el criterio de información de Akaike (AIC) y el criterio de información bayesiana (BIC)
  5. Verificar la distribución de los errores de predicción del modelo
  6. Seleccionar el mejor modelo de regresión

Paso 1. Usando mínimos cuadrados, estimar los parámetros del modelo

Cuando no tenemos idea (desconocido) sobre el valor verdadero de la distribución, usamos el concepto de un estimador (variable aleatoria) [3]. En otras palabras, estamos usando la variable del estimador para estimar el valor verdadero de la distribución de datos EEG que relaciona las variables de entrada y salida.

Aquí, la variable del estimador está representada por “θ” y puede tomar múltiples valores como θ1, θ2, …, θbias. Ahora, se utiliza el método de mínimos cuadrados (LSM) para calcular los parámetros del modelo del estimador para diferentes modelos candidatos de datos EEG, y se utiliza LSM (θ̂) para estimar el valor verdadero de la distribución minimizando la suma de los residuos cuadrados entre los valores predichos y reales de la variable de salida [4], que se expresa mediante la siguiente fórmula:

Fórmula para el estimador de mínimos cuadrados. Imagen del autor.

Ahora, para calcular los mínimos cuadrados, primero necesitamos formatear los datos de entrada vinculando las columnas o valores apropiados del conjunto de datos EEG. Con la función cbind(). Una vez que los datos de entrada estén formateados correctamente, podemos usar la fórmula de mínimos cuadrados como se mencionó anteriormente, y utilizando la función de solución de ecuaciones lineales integrada llamada solve(), encontramos el θ̂. Usamos solve() porque es más eficiente y menos propenso a errores [5].

De manera similar, como tenemos 5 modelos, para cada modelo, seguiremos el mismo proceso: creando cbind, calculando los valores estimados de los parámetros del modelo, θ̂, e imprimiendo el valor de theta_hat.

θ̂ para cada uno de los 5 modelos. Imagen del autor.

Paso 2. Calculando errores residuales del modelo (RSS)

La suma residual de cuadrados (RSS), también denominada suma de errores cuadrados de predicción (SSE) o suma de residuos cuadrados (SSR), es una medida de discrepancia entre los datos y un modelo de estimación. Se calcula restando el cuadrado promedio de los valores reales de los valores estimados de la variable dependiente en función de los parámetros del modelo [6].

Por lo general, queremos minimizar el error, por lo que cuanto menor sea el error, mejor será la capacidad de estimación de la regresión y mejor será el ajuste del modelo. Por otro lado, un RSS más grande indica un peor ajuste del modelo a los datos [7]. Vale la pena mencionar que el RSS nunca es negativo porque los cuadrados de los residuos siempre son no negativos [8].

Para calcular RSS, primero tenemos que calcular el error de cada modelo del 1 al 5 con la ayuda de (θ̂) que calculamos en el paso anterior, y RSS se presenta matemáticamente como:

Fórmula para errores residuales del modelo (RSS). Imagen del autor.

Para calcular RSS para el modelo 1, tenemos el siguiente código:

De manera similar, calcularemos el valor RSS para cada modelo.

Entonces, tenemos un valor RSS para cada modelo.

Tabla que muestra el valor RSS de cada modelo. Imagen del autor.

Aquí, el valor RSS más bajo en la tabla es de 2.1355, que está asociado con el modelo 5, seguido del segundo valor RSS más bajo de 2.1398, que está asociado con el modelo 2.

Paso 3. Calculando funciones de log-verosimilitud

Ahora, nuestro objetivo es identificar qué tan bien se ajusta el valor medido a los datos de muestra de un modelo proporcionado cuando los parámetros son desconocidos. Para cumplir nuestro objetivo, vamos a calcular funciones de log-verosimilitud para un modelo de regresión lineal usando el RSS que obtuvimos en el paso 2.

La log-verosimilitud es una forma de medir la bondad de ajuste de un modelo [9] y se utiliza para simplificar el problema de optimización y evitar la subdesbordamiento o el desbordamiento numérico. Se presenta matemáticamente como:

Fórmula para el logaritmo de probabilidad. Imagen del autor.

En esta tarea, nuestro objetivo es encontrar el conjunto de parámetros que maximiza la probabilidad de las observaciones. Como la naturaleza de la función del logaritmo de probabilidad es que aumenta monótonamente (no decreciente) y no tiene máximos locales, es adecuada para identificar cuán bien se ajusta el valor medido [10]. En términos sencillos, monótonamente creciente significa que a medida que el valor de la variable independiente (digamos x) aumenta, también lo hace el valor de la función (digamos y), es decir, a medida que x aumenta, y solo puede aumentar y nunca disminuir.

Por lo tanto, aquí, a medida que aumenta el valor del logaritmo de probabilidad, también aumenta la probabilidad de los datos dados los parámetros del modelo. Por lo tanto, encontrar el máximo de la función del logaritmo de probabilidad es lo mismo que encontrar el máximo de la función de probabilidad, pero si vamos solo con la probabilidad, entonces se pierde la naturaleza cóncava del logaritmo y no podemos obtener el máximo global [11].

Por lo tanto, utilizando la fórmula anterior, primero calcularemos la varianza del modelo utilizando la suma de los cuadrados residuales junto con la longitud de la señal Y y luego calcularemos la función del logaritmo de probabilidad.

Usando la misma fórmula, calculamos el resto de los modelos.

4. Calculando el criterio de información de Akaike (AIC) y los criterios de información bayesiana (BIC)

Ahora que tenemos el RSS y el valor del logaritmo de probabilidad, necesitamos un método de criterio de selección de modelo para el cual trabajaremos con el criterio de información de Akaike (AIC) y los criterios de información bayesiana (BIC). Según [12], la selección de modelo implica estimar el rendimiento de varios modelos candidatos con el único objetivo de elegir el mejor.

Ambos se pueden usar para comparar diferentes modelos y elegir el mejor. Ambos se basan en la probabilidad del modelo dado los datos y el número de parámetros en el modelo. Sin embargo, la principal diferencia entre estos dos métodos de selección de modelo es que AIC da menos penalización a los modelos con más parámetros en comparación con BIC [7].

4.1 Calculando AIC para cada modelo

El criterio de información de Akaike (AIC) es un método estadístico que tiene como objetivo determinar el modelo que explica verdaderamente la varianza en la variable dependiente con el menor número de variables independientes (parámetros) [13]. Con esto, ayuda a seleccionar un modelo más simple que contenga menos parámetros sobre un modelo complejo.

Usando la estimación de máxima verosimilitud (paso 3), se determina el valor de información relativa del modelo y el número de parámetros. La fórmula para AIC se expresa como:

Fórmula para el criterio de información de Akaike (AIC). Imagen del autor.

El objetivo principal de aplicar AIC en esta situación es eliminar el problema del sobreajuste porque AIC penaliza los modelos con más parámetros y equilibra el compromiso entre el ajuste del modelo y la complejidad [14] [7].

Según [15], algo que vale la pena mencionar es que el modelo se ajusta mejor a los datos cuando el valor de AIC es más bajo, y el valor absoluto de AIC podría ser favorable o desfavorable.

Antes de pasar al código de AIC, veamos BIC.

4.2 Calculando BIC para cada modelo

Como se mencionó anteriormente, BIC es similar a AIC, pero BIC dará una penalización mayor a los modelos con más parámetros [16]. Al igual que AIC, los valores más bajos de BIC indican un mejor ajuste del modelo. La fórmula para BIC se expresa de la siguiente manera:

Fórmula para los criterios de información bayesiana (BIC). Imagen del autor.

Usando la fórmula anterior, calculamos el BIC para cada modelo, lo cual es similar al AIC.

Usando la fórmula anterior, los valores de AIC y BIC para cada modelo son:

Valor de AIC y BIC de cada modelo. Imagen del autor.

Como recordamos, los valores de AIC y BIC más bajos son los mejores ajustes, por lo que el modelo 2 con un AIC de -334.6489 y un BIC de -321.4357 es el mejor ajuste entre los modelos listados.

Paso 5. Verificar la distribución de errores de predicción del modelo

Ahora que hemos obtenido los valores de AIC y BIC, estamos interesados en ver la distribución de errores. Después de todo, nuestro objetivo es elegir el que muestre el menor error. Antes de tomar la decisión de graficar la distribución, necesitamos calcular el error de cada modelo. Luego usaremos un gráfico Q-Q (quantile-quantile plot) para visualizar y comparar dos distribuciones de probabilidad usando la función qqnorm(), ya que nuestra suposición es que los datos son independientes e identicamente distribuidos.

Según [17], un gráfico Q-Q se forma trazando dos conjuntos de cuantiles entre sí. En el caso de la misma distribución, ambos conjuntos de cuantiles formarían una línea relativamente recta; sin embargo, en la práctica, esto no significa una regla fija. En el mismo gráfico, vamos a agregar una línea de referencia llamada línea Q-Q, que es la línea de ajuste perfecto para una distribución normal.

La función qqline() toma dos argumentos: el primero es el error de predicción del modelo de datos y el segundo es el color (col), el ancho de línea (lw) y una línea punteada (lty).

El gráfico Q-Q para el modelo 5 muestra que la mayoría de los datos sigue la línea Q-Q (color rojo), por lo que podemos decir que los datos siguen una distribución normal.

Aquí, con el gráfico Q-Q obtenido, simplemente verificamos visualmente si un conjunto de datos sigue una distribución teórica o no. Para probar formalmente si un conjunto de datos sigue una distribución particular, necesitamos ir un paso más allá.

Paso 6. Selección del mejor modelo de regresión

Al completar los pasos 1-5, hemos recopilado toda la información necesaria para seleccionar el mejor modelo candidato. Al calcular el RSS, la función de log-verosimilitud, graficar gráficos de distribución normal y comparar los valores de AIC y BIC, tenemos toda la información para identificar el mejor modelo para nuestros datos. El mejor ajuste del modelo basado en AIC y BIC sería el modelo 2, ya que tiene el valor más bajo. Para verificar que el modelo 2 seleccionado es un buen candidato, veremos el gráfico Q-Q.

Mirando el gráfico Q-Q, excepto el modelo 3, todos los modelos parecen tener la misma naturaleza; sin embargo, mirando la posición de la línea Q-Q, el modelo 2 parece ser el más adecuado.

Para obtener más inclinación hacia la decisión de elegir el modelo 2, nos gustaría trazar un histograma para mostrar la distribución de residuos. Para una visualización fácil, trazaremos todo el histograma en 3 filas y 2 columnas usando par(mfrow = c(3, 2)).

Distribución de errores de predicción utilizando histograma. Imagen del autor.

Mirando la distribución de cada modelo, los modelos 2, 5 y 6 parecen tener una distribución normal.

Además, iremos un paso más allá y veremos si el modelo 2 es más adecuado que el resto. Considerar factores adicionales nos ayudará a determinar el mejor modelo en este escenario. Compararemos el número de parámetros en cada modelo en función de la interpretabilidad del modelo, es decir, un modelo más simple con menos parámetros es más fácil de interpretar y entender [18].

Al mirar la longitud de cada parámetro, la más baja es la del modelo 3, con 3 números de parámetros, pero no sigue una distribución normal y está sesgada, y la siguiente es la del modelo 4, con 4 parámetros, pero su AIC y BIC son mayores que los del modelo 2.

Como conclusión de AIC, BIC, gráficos Q-Q y mayor interpretabilidad, hemos elegido el modelo 2 como el mejor ajuste.

Revelando al campeón: el modelo 2 emerge como el ajuste óptimo para el modelado de señales EEG utilizando regresión polinómica en R. Imagen del autor.

Entonces, mediante el uso de mínimos cuadrados, estimando los parámetros del modelo, los errores residuales del modelo (RSS), las funciones de log-verosimilitud, el Criterio de Información de Akaike (AIC) y el Criterio de Información Bayesiano (BIC), y visualizando los errores de predicción con gráficos Q-Q, revelamos al campeón: el Modelo 2 emerge como el ajuste óptimo para el modelado de señales EEG utilizando regresión polinómica en R.

Esto completa nuestra regresión polinómica en R.

Mi repositorio de GitHub tiene todo el código de trabajo disponible, o puede acceder a RPubs para verlo en línea.

¿Le ha gustado el artículo? Desbloquee un aprendizaje ilimitado convirtiéndose en miembro de Zepes. Usando el siguiente enlace, puede apoyarme al unirse, sin costo adicional.

Póngase en contacto conmigo en LinkedIn si tiene alguna pregunta sobre el artículo o está interesado en colaborar.

Referencias

[1] St, E.K., Frey, L.C., Britton, J.W., Frey, L.C., Hopp, J.L., Pearce Korb, Koubeissi, M.Z., Lievens, W.E., Pestana-Knight, E.M. y St, E.K. (2016). Introduction Electroencephalography (EEG): An Introductory Text and Atlas of Normal and Abnormal Findings in Adults, Children, and Infants [Internet]. [en línea] Nih.gov. Disponible en: https://www.ncbi.nlm.nih.gov/books/NBK390346/ .

[2] Healthline (2012). EEG (Electroencephalogram): Purpose, Procedure, and Risks. [en línea] Healthline. Disponible en: https://www.healthline.com/health/eeg

[3] Peterka, V. (1981). Chapter 8 — Bayesian Approach To System Identification. [en línea] ScienceDirect. Disponible en: https://www.sciencedirect.com/science/article/pii/B9780080256832500132 [Accedido el 31 de enero de 2023].

[4] Björck, Å. (1990). Least squares methods. [en línea] ScienceDirect. Disponible en: https://www.sciencedirect.com/science/article/abs/pii/S1570865905800365 [Accedido el 4 de octubre de 2022].

[5] Schork, J. (s.f.). Solve System of Equations in R (3 Examples) | Using solve() Function. [en línea] Statistics Globe. Disponible en: https://statisticsglobe.com/solve-system-of-equations-in-r/

[6] Allen, D.M. (1971). Mean Square Error of Prediction as a Criterion for Selecting Variables. Technometrics, 13(3), pp.469–475. doi:10.1080/00401706.1971.10488811

[7] Brownlee, J. (2019). Probabilistic Model Selection with AIC, BIC, and MDL. [en línea] Machine Learning Mastery. Disponible en: https://machinelearningmastery.com/probabilistic-model-selection-measures/

[8] Valchanov, I. (2018). Sum of Squares: SST, SSR, SSE. [en línea] 365 Data Science. Disponible en: https://365datascience.com/tutorials/statistics-tutorials/sum-squares/

[9] Zach (2021a). How to Interpret Log-Likelihood Values (With Examples). [en línea] Statology. Disponible en:

[10] Stephanie (2021). Log Likelihood Function. [en línea] Statistics How To. Disponible en: https://www.statisticshowto.com/log-likelihood-function/

[11] Music, A. (2020). Gaussian Distribution and Maximum Likelihood Estimate Method (Step-by-Step). [en línea] The Startup. Disponible en: https://medium.com/swlh/gaussian-distribution-and-maximum-likelihood-estimate-method-step-by-step-e4f6014fa83e [Accedido el 31 de enero de 2023].

[12] Trevor Hastie, Tibshirani, R. y Friedman, J. (2009). Los Elementos del Aprendizaje Estadístico. Editorial: Nueva York, Ny Springer Nueva York.

[13] Manikantan, A. (2021). Criterio de Información de Akaike: Selección de modelos. [en línea] Cultura Geek. Disponible en: https://medium.com/geekculture/akaike-information-criterion-model-selection-c47df96ee9a8

[14] Bevans, R. (2020). Criterio de Información de Akaike | Cuándo y cómo usarlo (Ejemplo). [en línea] Scribbr. Disponible en: https://www.scribbr.com/statistics/akaike-information-criterion/ :~:text=It%20penalizes%20models%20which%20use [Accedido 31 de enero de 2023].

[15] Zach (2021b). Cómo interpretar valores negativos de AIC. [en línea] Statology. Disponible en: https://www.statology.org/negative-aic

[16] Datacadamia (2014). Estadística – Criterio de Información Bayesiano (BIC). [en línea] Datacadamia – Datos y Co. Disponible en: https://datacadamia.com/data_mining/bic [Accedido 31 de enero de 2023].

[17] Clay Ford (2015). Comprensión de gráficos Q-Q | Servicios de datos e investigación de la biblioteca de la Universidad de Virginia. [en línea] Virginia.edu. Disponible en: https://data.library.virginia.edu/understanding-q-q-plots/

[18] De’ath, G. y Fabricius, K.E. (2000). Árboles de Clasificación y Regresión: Una Técnica Poderosa pero Simple para el Análisis de Datos Ecológicos. Ecología, 81(11), pp.3178–3192. doi:10.1890/0012–9658(2000)081%5B3178:cartap%5D2.0.co;2

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Este documento de IA desbloquea el secreto del aprendizaje en contexto cómo los modelos de lenguaje codifican funciones en la magia de vectores

En los modelos de lenguaje transformadores autoregresivos, se identifica un mecanismo neuronal que representa una fun...

Inteligencia Artificial

Investigadores de Google y del MIT presentan StableRep Revolucionando el entrenamiento de IA con imágenes sintéticas para un aprendizaje automático mejorado

Los investigadores han explorado el potencial de utilizar imágenes sintéticas generadas por modelos de texto a imagen...

Inteligencia Artificial

Tesla retira 2 millones de autos con controles de seguridad de 'autoguiado' insuficientes

Tesla está retirando más de 2 millones de vehículos para solucionar los sistemas de Autopilot que los reguladores gub...

Inteligencia Artificial

Plataforma moderna de MLOps para la Inteligencia Artificial Generativa

Una plataforma MLOps moderna para la IA generativa integra de manera perfecta las prácticas de operaciones de aprendi...

Ciencia de Datos

Introducción al análisis de datos El Método Google

Los datos son frecuentemente esquivos, escondidos en varios rincones de la empresa, requiriendo habilidades blandas y...

Ciencia de Datos

Proyecto de Ciencia de Datos de Predicción de Calificación de Películas de Rotten Tomatoes Primer Enfoque

Prediciendo el estado de una película basado en características numéricas y categóricas.