Aprendizaje automático con efectos mixtos para datos longitudinales y de panel con GPBoost (Parte III)

Aprendizaje automático con GPBoost para datos longitudinales y de panel (Parte III)

Una demostración de GPBoost en Python y R utilizando datos del mundo real

Ilustración de datos longitudinales: gráficos de series temporales para diferentes sujetos (idcode) - Imagen del autor

En la Parte I y Parte II de esta serie, mostramos cómo se pueden utilizar efectos aleatorios para modelar variables categóricas de alta cardinalidad en modelos de aprendizaje automático, y dimos una introducción a la biblioteca GPBoost que implementa el algoritmo GPBoost que combina el impulso de árbol con efectos aleatorios. En este artículo, demostramos cómo se pueden utilizar los paquetes de Python y R de la biblioteca GPBoost para datos longitudinales (también conocidos como medidas repetidas o datos de panel). Puede ser útil leer primero la Parte II de esta serie, ya que brinda una primera introducción a la biblioteca GPBoost. En esta demostración se utiliza la versión 1.2.1 de GPBoost.

Tabla de contenidos

∘ 1 Datos: descripción, carga y división de muestra∘ 2 Opciones de modelado para datos longitudinales en GPBoost · · 2.1 Efectos aleatorios agrupados por sujeto · · 2.2 Solo efectos fijos · · 2.3 Efectos aleatorios agrupados por sujeto y tiempo · · 2.4 Efectos aleatorios por sujeto con pendientes aleatorias temporales · · 2.5 Modelos AR(1) / de proceso gaussiano específicos por sujeto · · 2.6 Efectos aleatorios agrupados por sujeto y modelo AR(1) conjunto∘ 3 Entrenamiento de un modelo GPBoost∘ 4 Selección de parámetros de ajuste∘ 5 Predicción∘ 6 Conclusión y referencias

1 Datos: descripción, carga y división de muestra

Los datos utilizados en esta demostración son los datos salariales que ya se utilizaron en la Parte II. Se pueden descargar desde aquí. El conjunto de datos contiene un total de 28,013 muestras para 4,711 personas para las cuales se midieron los datos durante varios años. Estos datos se llaman datos longitudinales o datos de panel, ya que para cada sujeto (ID de persona = idcode), se recopilaron datos repetidamente a lo largo del tiempo (años = t). En otras palabras, las muestras para cada nivel de la variable categórica idcode son mediciones repetidas a lo largo del tiempo. La variable de respuesta es el salario real logarítmico (ln_wage), y los datos incluyen varias variables predictoras como edad, trabajo total…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce a los razonadores RAP y LLM Dos marcos basados en conceptos similares para el razonamiento avanzado con LLMs

Cada día que pasa trae un progreso notable en los Modelos de Lenguaje Grandes (LLMs), lo que lleva a herramientas y a...

Inteligencia Artificial

La mano biónica se integra con los nervios, huesos y músculos de la mujer

Un equipo internacional de investigación informó que una mano robótica adjunta a una mujer sueca en 2017 se ha integr...

Inteligencia Artificial

Las GPUs NVIDIA H100 ahora están disponibles en la nube de AWS

Los usuarios de AWS ahora pueden acceder al rendimiento líder demostrado en los benchmarks de la industria del entren...

Noticias de Inteligencia Artificial

Después de Amazon, una ambición por acelerar la fabricación estadounidense.

Jeff Wilke SM '93, ex CEO del negocio de Consumidores Mundiales de Amazon, lleva su estrategia de LGO a su nueva misi...

Inteligencia Artificial

Cómo diseñar un sensor confiable de $1 para agua potable segura

Ingenieros de la Universidad de Chicago y de la Universidad de Wisconsin-Milwaukee han desarrollado un sensor potenci...