Aprendizaje automático con efectos mixtos para datos longitudinales y de panel con GPBoost (Parte III)

Aprendizaje automático con GPBoost para datos longitudinales y de panel (Parte III)

Una demostración de GPBoost en Python y R utilizando datos del mundo real

Ilustración de datos longitudinales: gráficos de series temporales para diferentes sujetos (idcode) - Imagen del autor — **Ilustración de datos longitudinales**: gráficos de series temporales para diferentes sujetos (idcode) – Imagen del autor

En la Parte I y Parte II de esta serie, mostramos cómo se pueden utilizar efectos aleatorios para modelar variables categóricas de alta cardinalidad en modelos de aprendizaje automático, y dimos una introducción a la biblioteca GPBoost que implementa el algoritmo GPBoost que combina el impulso de árbol con efectos aleatorios. En este artículo, demostramos cómo se pueden utilizar los paquetes de Python y R de la biblioteca GPBoost para datos longitudinales (también conocidos como medidas repetidas o datos de panel). Puede ser útil leer primero la Parte II de esta serie, ya que brinda una primera introducción a la biblioteca GPBoost. En esta demostración se utiliza la versión 1.2.1 de GPBoost.

Tabla de contenidos

∘ 1 Datos: descripción, carga y división de muestra∘ 2 Opciones de modelado para datos longitudinales en GPBoost · · 2.1 Efectos aleatorios agrupados por sujeto · · 2.2 Solo efectos fijos · · 2.3 Efectos aleatorios agrupados por sujeto y tiempo · · 2.4 Efectos aleatorios por sujeto con pendientes aleatorias temporales · · 2.5 Modelos AR(1) / de proceso gaussiano específicos por sujeto · · 2.6 Efectos aleatorios agrupados por sujeto y modelo AR(1) conjunto∘ 3 Entrenamiento de un modelo GPBoost∘ 4 Selección de parámetros de ajuste∘ 5 Predicción∘ 6 Conclusión y referencias

1 Datos: descripción, carga y división de muestra

Los datos utilizados en esta demostración son los datos salariales que ya se utilizaron en la Parte II. Se pueden descargar desde aquí. El conjunto de datos contiene un total de 28,013 muestras para 4,711 personas para las cuales se midieron los datos durante varios años. Estos datos se llaman datos longitudinales o datos de panel, ya que para cada sujeto (ID de persona = idcode), se recopilaron datos repetidamente a lo largo del tiempo (años = t). En otras palabras, las muestras para cada nivel de la variable categórica idcode son mediciones repetidas a lo largo del tiempo. La variable de respuesta es el salario real logarítmico (ln_wage), y los datos incluyen varias variables predictoras como edad, trabajo total…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Aprendizaje automático con efectos mixtos para datos longitudinales y de panel con GPBoost (Parte III)

Una demostración de GPBoost en Python y R utilizando datos del mundo real

Tabla de contenidos

1 Datos: descripción, carga y división de muestra

Was this article helpful?

Explora el poder de las imágenes dinámicas con Text2Cinemagraph una nueva herramienta de IA para la generación de cinemagraphs a partir de indicaciones de texto

Optimiza eficazmente tu modelo de regresión con ajuste de hiperparámetros bayesianos

Inteligencia Artificial

Conoce a los razonadores RAP y LLM Dos marcos basados en conceptos similares para el razonamiento avanzado con LLMs

La mano biónica se integra con los nervios, huesos y músculos de la mujer

Este artículo de IA presenta un modelo de aprendizaje profundo para clasificar las etapas de la degeneración macular relacionada con la edad utilizando escaneos OCT de retina del mundo real.

Las GPUs NVIDIA H100 ahora están disponibles en la nube de AWS

Después de Amazon, una ambición por acelerar la fabricación estadounidense.

Cómo diseñar un sensor confiable de $1 para agua potable segura