Diagnóstico de la enfermedad de Parkinson utilizando análisis de datos de muestras de voz selección de características

Diagnóstico de Parkinson usando análisis de datos de voz

Figura: Mohammad Ali también sufrió de la enfermedad de Parkinson. Fuente de la imagen en https://www.greenleft.org.au/content/muhammad-ali-%E2%80%94-free-black-man

Resumen

Una condición neurológica conocida como enfermedad de Parkinson (EP) se caracteriza por la presencia de anormalidades en el movimiento que dañan el sistema nervioso. A pesar de su amplia prevalencia, la enfermedad no tiene una cura reconocida. Debido a la falta de diagnósticos precisos y la invasividad de las técnicas existentes, el diagnóstico de la EP es difícil. Se está investigando el procesamiento de datos de muestra de habla como un método de diagnóstico no invasivo. El objetivo de nuestro estudio es identificar rasgos vocales distintivos en las personas con EP y las personas sin ella para poder hacer esta distinción. Examinar estos signos auditivos puede ayudar en el desarrollo de una herramienta de diagnóstico de la EP simple y confiable, que es el objetivo de este estudio.

Este estudio utiliza el conjunto de datos, que contiene muestras de habla tanto de pacientes con EP como de personas sanas. Los participantes grabaron 26 muestras de habla, que incluyen palabras, frases, vocales sostenidas y dígitos. La investigación se basa en parámetros acústicos obtenidos utilizando el software de análisis acústico gratuito Praat. El objetivo de esta investigación es ayudar en la creación de una herramienta de diagnóstico de la EP confiable y práctica.

Los datos llamados po1_data.txt se pueden encontrar en este repositorio de GitHub y el código Python Parkinson_Diseaase_Feature_Selection.py.

Comprensión de los datos

El conjunto de datos tiene 1039 entradas y 29 columnas con diversos elementos acústicos. Los datos se cargaron y se preprocesaron. Afortunadamente, no contiene valores nulos ni entradas duplicadas. El conjunto de datos se divide en dos subconjuntos de datos: aquellos sin enfermedad de Parkinson (sanos) y aquellos con la enfermedad (afectados). La proporción de personas con y sin EP es casi igual. Los subconjuntos se utilizarán para análisis comparativos y visualización con el fin de explorar las diferencias entre personas sanas y personas afectadas por la EP. Los nombres de las columnas actualizados brindan información sobre los atributos acústicos que representan.

Análisis descriptivo

Se analizaron dos subconjuntos de datos de personas con y sin enfermedad de Parkinson (EP) en el estudio para comprender mejor las variaciones en las tendencias centrales y la variabilidad. Utilizando el método .describe(), se calcularon estadísticas resumidas omitiendo campos irrelevantes como “subject_id”. Para obtener información sobre cómo la EP afecta estos rasgos, se calcularon diferencias en estadísticas importantes, centrándose en la media, la mediana y la desviación estándar.

Figura: Diferencia en las tendencias centrales entre los datos con EP y sin EP.

La selección de características indicó variaciones sustanciales en los conjuntos de datos con y sin enfermedad de Parkinson, siendo “MaxPitch” la que mostró la mayor diferencia con 33.81. Además, el estudio reveló disparidades en las calificaciones de gravedad, características del patrón de habla y valores medios y medianos de “MeanPitch”, “MedianPitch” y “StdDevPitch”. Estos hallazgos arrojan luz sobre características importantes que deben distinguirse entre los pacientes con enfermedad de Parkinson y las personas sanas.

Histograma

En este estudio se comparó la distribución de características numéricas de participantes sanos y enfermos utilizando histogramas lado a lado.

Figura: Histograma con trama

En cuanto a características como las medidas de jitter, los histogramas revelan discrepancias en las distribuciones de características entre los dos grupos. Las características de variabilidad vocal muestran diferentes grados de dispersión y asimetría, siendo “Shimmer” la que muestra una distribución “APQ5”. Mientras que “NHR” tiene una distribución asimétrica positiva, lo que sugiere asimetría de los datos hacia valores más altos, la armonía tiene una media de 0.85 y una desviación estándar de 0.09 en comparación con estos valores. Características fuertemente asimétricas positivas como “NumPulses” y “NumPeriods” indican posibles valores atípicos o variabilidad. Las distribuciones de atributos como “MeanPeriod” y “StdDevPeriod” están cerca de cero, lo que indica una varianza limitada. ‘UPDRS’ muestra una distribución asimétrica hacia la derecha, lo que sugiere la gravedad de la enfermedad de Parkinson.

Trama de Cajas

Las propiedades de grabación de voz incluyen variaciones de tono, cambios de intensidad vocal, relaciones armónicas-ruido y patrones temporales que muestran valores atípicos, los cuales pueden significar una modulación de tono atípica, cambios rápidos en la intensidad de la voz, desviaciones de las armónicas o cambios en la velocidad del habla. La interpretación de estos valores atípicos depende del contexto y requiere conocimiento en la materia. Es importante manejar estos valores atípicos con cuidado, ya que revelan detalles importantes sobre los rasgos y comportamientos subyacentes de la voz en las grabaciones.

Análisis Estadístico Inferencial

Diferencias Medias e Intervalos de Confianza

Figura: Diferencias medias e intervalos de confianza

El valor promedio de MaxPitch para el grupo de personas con enfermedad de Parkinson es 33.810 Hz más bajo que el valor promedio de MaxPitch para el grupo de control en este estudio, según la diferencia media para la característica de MaxPitch, que es -33.810. Podemos estar 95% seguros de que la diferencia real en los valores promedio de MaxPitch se encuentra entre -44.17996795243055 Hz y -23.4409801756263 Hz, ya que el intervalo de confianza para esta diferencia es (-44.17996795243055, -23.4409801756263).

Prueba de Hipótesis

El estudio comparó las características acústicas, las mediciones relacionadas con el tono y las clasificaciones clínicas de personas sanas y enfermas. Se observaron diferencias significativas en los resultados en varias dimensiones. Sin embargo, algunas características no alcanzaron los valores z necesarios, lo que indica que no hay suficiente evidencia para afirmar que las personas sanas y enfermas difieren significativamente entre sí. No obstante, estas características ayudan a desarrollar una imagen completa de la diferencia entre los dos grupos.

Figura: Características donde se rechaza la hipótesis nula.

Se demostraron diferencias significativas entre personas sanas y enfermas mediante características que refutaron la hipótesis nula (H0). Por ejemplo, “FractionUnvoicedFrames” obtuvo un valor z de -3.923, mientras que “DegreeVoiceBreaks” tuvo un valor z de -4.073. El valor z para características como “Harmony” fue de 2.601, resaltando la diferencia entre los dos grupos. Otras medidas, como las métricas de “Jitter”, “MaxPitch”, “MeanPeriod”, “MeanPitch”, “MedianPitch”, “Shimmer(APQ11)”, “StdDevPitch” y las puntuaciones de “UPDRS”, mostraron valores z que superaron notablemente los valores necesarios, enfatizando la importancia de estas desviaciones.

Selección de Características

El estudio utiliza una combinación de prueba de hipótesis y clasificación de características para identificar las características más importantes para detectar la enfermedad de Parkinson (PD). Se prueba la hipótesis nula y se registra en el archivo “reject_results.csv”, seguido de la clasificación de las características con diferencias medias e intervalos de confianza. Utilizando el método np.intersect1d() de NumPy, el estudio identifica características que indican consistentemente relevancia a través de pruebas de hipótesis. Esta estrategia simplifica el proceso analítico al enfocarse en características que constantemente señalan significancia y características distintivas.

La estrategia de selección de características incluye DegreeVoiceBreaks, FractionUnvoicedFrames, MaxPitch, MeanPitch, MedianPitch, Shimmer(APQ11), StandardDevPitch y UPDRS. Estas características se seleccionan en función de sus tendencias centrales como la media, mediana y desviación estándar. Se eligió StdDevPitch debido a su intervalo de confianza bajo y su asociación con la diferenciación entre personas sanas y enfermas. Se eligió UPDRS debido a su intervalo de confianza estrecho y sus altas diferencias medias. FractionUnvoicedFrames y DegreeVoiceBreaks se excluyen ya que parecen similares en el Histograma.

Jitter(%), Jitter(Abs), Jitter(DDP), Jitter(PPQ5) y Jitter(RAP) se identifican como características interesantes para detectar PD. Jitter(%) se elige como la siguiente característica debido a las diferencias medias significativas entre Jitter(%) y Jitter(DDP). La elección entre Jitter(%) y Jitter(DDP) se basó en el Histograma, ya que se cree que ayuda a detectar PD con mayor certeza.

El análisis y las visualizaciones del proyecto revelaron diferencias significativas en las características auditivas entre aquellos sin enfermedad de Parkinson (PD) y aquellos sin ella. Estos resultados muestran promesa para el desarrollo de una herramienta de diagnóstico no invasiva para la enfermedad de Parkinson (PD), lo que puede permitir tratamientos más tempranos y mejores resultados para los pacientes.

Las columnas finales después de todo el análisis son:

  • MaxPitch
  • StdDevPitch
  • UPDRS
  • Jitter(%)
  • Indicador de PD

Conclusión

Para descubrir indicaciones auditivas discretas para el diagnóstico de la enfermedad de Parkinson (PD), analizamos minuciosamente los datos de muestra de voz utilizando análisis descriptivos, pruebas estadísticas inferenciales y experiencia en el campo. A través de una selección cuidadosa, ayudada por pruebas de hipótesis, cálculos de diferencia de medias y visualizaciones de distribución de características, descubrimos que MaxPitch, StdDevPitch, UPDRS, Jitter(%) y el indicador de PD mostraron una consistente significancia al diferenciar a las personas afectadas por PD de las personas sanas. Nuestro estudio resalta la promesa del análisis del habla como una técnica viable para detectar la enfermedad de Parkinson (PD) en etapas tempranas, incluso si se requieren pruebas adicionales y modelos de aprendizaje automático. Esta opción sugiere el potencial para desarrollar un instrumento de diagnóstico no invasivo.

Referencias

  1. Instituto Nacional de Trastornos Neurológicos y Accidentes Cerebrovasculares. (2023). Página de Información sobre la Enfermedad de Parkinson. https://www.ninds.nih.gov/healthinformation/disorders/parkinsons-disease
  2. Fundación Parkinson. (2023). Figuras Notables. https://www.parkinson.org/understanding-parkinsons/statistics/notable-figures

SÍGUEME para ser parte de mi Viaje como Analista de Datos en VoAGI.

Conéctate conmigo en Twitter o puedes enviarme un correo electrónico para colaborar en proyectos, compartir conocimientos o recibir orientación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Los robots de IA podrían desempeñar un papel futuro como compañeros en hogares de cuidado

Los robots sociales impulsados por inteligencia artificial podrían ayudar a cuidar a los enfermos y ancianos en el fu...

Inteligencia Artificial

Stability AI presenta StableChat una vista previa de investigación de un asistente de IA conversacional similar a ChatGPT o Claude.

I had trouble accessing your link so I’m going to try to continue without it. Stability AI ha presentado Stable...

Inteligencia Artificial

Drones Protegen los Aerogeneradores del Hielo

Los investigadores desarrollaron un método para proteger los aerogeneradores del hielo utilizando drones.

Inteligencia Artificial

Construyendo un Agente Conversacional con un Microservicio de Memoria con OpenAI y FastAPI

Desbloqueando Posibilidades Desarrolla Agentes Potenciados por IA con Python para Experiencias Personalizadas. Aprend...

Inteligencia Artificial

Real AI gana el proyecto para construir el modelo de lenguaje abierto de Europa de inteligencia artificial

Durante la Conferencia de Ciencia de Datos 2023 en Belgrado, el jueves 23 de noviembre, se anunció que Real AI ganó e...