Referencia de Benchmark temporal

Referencia de Estilo y Tendencias Actuales

Conjuntos de datos desafiantes y realistas para el aprendizaje de gráficos temporales

En los últimos años, se han logrado avances significativos en el aprendizaje automático en gráficos estáticos, acelerados por la disponibilidad de conjuntos de datos públicos y protocolos de evaluación estandarizados, como el ampliamente adoptado Open Graph Benchmark (OGB). Sin embargo, muchos sistemas del mundo real, como redes sociales, redes de transporte y redes de transacciones financieras, evolucionan con el tiempo con nodos y aristas que se agregan o eliminan constantemente. A menudo, se modelan como gráficos temporales. Hasta ahora, el progreso en el aprendizaje de gráficos temporales se ha visto obstaculizado por la falta de conjuntos de datos grandes y de alta calidad, así como la falta de evaluación adecuada, lo que lleva a un rendimiento excesivamente optimista.

Las redes del mundo real evolucionan con el tiempo. Crédito de la imagen: Armand Khoury en Unsplash.

Para abordar esto, presentamos Temporal Graph Benchmark (TGB), una colección de conjuntos de datos de referencia desafiantes y diversos para evaluaciones realistas, reproducibles y robustas para el aprendizaje automático en gráficos temporales. Inspirado por el éxito de OGB, TGB automatiza la descarga y el procesamiento de conjuntos de datos, así como los protocolos de evaluación, y permite a los usuarios comparar el rendimiento del modelo utilizando una tabla de clasificación. Esperamos que TGB se convierta en un punto de referencia estandarizado para la comunidad de gráficos temporales y facilite el desarrollo de nuevos métodos y mejore la comprensión de las grandes redes temporales.

Desafío y Referencia Realista para el Aprendizaje de Gráficos Temporales

Esta publicación se basa en nuestro artículo Temporal Graph Benchmark para el Aprendizaje Automático en Gráficos Temporales (NeurIPS 2023 Datasets and Benchmarks Track) y fue coescrito con Emanuele Rossi. Encuentra más trabajos sobre gráficos temporales en mi sitio web. ¿Quieres aprender más sobre gráficos temporales? Únete al Grupo de Lectura de Gráficos Temporales y al Taller de Aprendizaje de Gráficos Temporales @ NeurIPS 2023 para conocer más sobre la investigación avanzada en GT.

Tabla de contenidos:

  1. Motivación
  2. Establecimiento del problema
  3. Detalles del conjunto de datos
  4. Predicción de propiedades de enlaces dinámicos
  5. Predicción de propiedades de nodos dinámicos
  6. Empezar con TGB
  7. Conclusión y trabajo futuro

Motivación

En los últimos años, el campo del aprendizaje automático para grafos estáticos ha experimentado un impulso significativo, en gran parte debido a la aparición de conjuntos de datos públicos y benchmarks establecidos como el Open Graph Benchmark (OGB), el Long Range Graph Benchmark y el TDC Benchmark. Sin embargo, muchos sistemas del mundo real, como las redes sociales, las redes de transporte y las redes de transacciones financieras, son temporales: evolucionan con el tiempo. Hasta ahora, el avance en los grafos temporales ha sido significativamente obstaculizado por la falta de conjuntos de datos grandes y de alta calidad y de marcos de evaluación exhaustivos. Esta escasez, junto con las limitaciones de evaluación, ha resultado en puntajes de AP o AUROC casi perfectos en modelos aplicados a conjuntos de datos populares como Wikipedia y Reddit, lo que lleva a una evaluación excesivamente optimista del rendimiento del modelo y un desafío para diferenciar entre modelos competidores.

Falta de conjuntos de datos. Los conjuntos de datos de grafos temporales comunes solo contienen unos pocos millones de aristas, significativamente más pequeños que la escala vista en las redes temporales reales. Además, estos conjuntos de datos están en su mayoría restringidos al dominio de las redes sociales y de interacción. Dado que las propiedades de la red a menudo varían significativamente entre dominios, es importante evaluar en una variedad de dominios también. Por último, hay una falta de conjuntos de datos para tareas a nivel de nodo, lo que hace que la mayoría de los métodos se centren solo en la predicción de enlaces. Para resolver este desafío, TGB contiene nueve conjuntos de datos de cinco dominios distintos que son órdenes de magnitud más grandes en términos del número de nodos, aristas y marcas de tiempo. Además, TGB propone cuatro conjuntos de datos para la nueva tarea de predicción de afinidad de nodos.

Los conjuntos de datos de TGB son significativamente más grandes que los conjuntos de datos de grafos temporales comunes

Evaluación simplista. La predicción de enlaces dinámicos se suele enmarcar como una tarea de clasificación binaria: las aristas positivas (verdaderas) tienen una etiqueta de uno, mientras que las aristas negativas (que no existen) tienen una etiqueta de cero. Al evaluar, se muestrea una arista negativa por cada arista positiva al mantener el nodo fuente fijo y elegir el nodo de destino de forma uniforme al azar. Esta evaluación solo considera una pequeña cantidad de aristas negativas fáciles de predecir, lo que lleva a un rendimiento inflado del modelo con muchos modelos que obtienen un AP>95% en Wikipedia y Reddit (Poursafaei et al. 2022, Rossi et al. 2020, Wang et al. 2021, Souza et al. 2022). En TGB, tratamos la tarea de predicción de enlaces como un problema de clasificación y realizamos una evaluación más robusta. Mostramos que la evaluación mejorada resulta en un rendimiento más realista y resalta brechas claras entre diferentes modelos.

Configuración del problema

En TGB, nos centramos en los grafos temporales de tiempo continuo, como se define en Kazemi et al. 2020. En este contexto, denominamos grafos temporales a secuencias de aristas con marcas de tiempo compuestas por tripletes de (fuente, destino, marca de tiempo). Tenga en cuenta que las aristas temporales pueden tener peso, estar dirigidas, mientras que los nodos y las aristas pueden tener características opcionalmente.

Además, consideramos la configuración de transmisión, donde un modelo puede incorporar nueva información en el momento de inferencia. En particular, al predecir una arista de prueba en el momento t, el modelo puede acceder[1] a todas las aristas ocurridas antes de t, incluyendo las aristas de prueba. Sin embargo, no se permite la retropropagación ni las actualizaciones de pesos con la información de prueba.

Detalles del conjunto de datos

TGB contiene nueve conjuntos de datos, siete de los cuales se han curado para este trabajo, mientras que dos provienen de literatura previa. Los conjuntos de datos se dividen temporalmente en conjuntos de entrenamiento, validación y prueba con una proporción de 70/15/15. Los conjuntos de datos se clasifican según su número de aristas: pequeños (<5 millones), VoAGI (5–25 millones) y grandes (> 25 millones).

estadísticas del conjunto de datos para conjuntos de datos de TGB

Los conjuntos de datos de TGB también tienen dominios y escalas de tiempo distintos (desde marca de tiempo UNIX hasta anualmente). Por último, las estadísticas del conjunto de datos son muy diversas. Por ejemplo, el Índice de Sorpresa, definido por la proporción de aristas de prueba que nunca se observaron en el conjunto de entrenamiento, varía significativamente entre los conjuntos de datos. Muchos conjuntos de datos de TGB también contienen muchos nodos nuevos en el conjunto de prueba, lo cual requiere razonamiento inductivo.

Los conjuntos de datos de TGB también están vinculados a tareas del mundo real. Por ejemplo, el conjunto de datos tgbl-flight es una red de vuelos internacionales generada por la multitud desde 2019 hasta 2022, donde los aeropuertos se modelan como nodos mientras que las aristas representan vuelos entre aeropuertos en un día determinado. La tarea consiste en predecir si habrá un vuelo entre dos aeropuertos específicos en una fecha futura. Esto es útil para predecir posibles interrupciones de vuelos, como cancelaciones y retrasos. Por ejemplo, durante la pandemia de COVID-19, muchas rutas de vuelo se cancelaron para combatir la propagación del virus. La predicción de la red de vuelos globales también es importante para estudiar y predecir la propagación de enfermedades como el COVID-19 a nuevas regiones, como se muestra en Ding et al. 2021. Se proporcionan descripciones detalladas de los conjuntos de datos y las tareas en la Sección 4 del artículo.

El objetivo de la predicción de propiedades de enlaces dinámicos es predecir la propiedad (a menudo la existencia) de un enlace entre un par de nodos en un momento futuro.

Muestreo de Aristas Negativas. En aplicaciones reales, las aristas verdaderas no se conocen de antemano. Por lo tanto, se consultan un gran número de pares de nodos y solo se consideran como aristas aquellos pares con las puntuaciones más altas. Motivados por esto, planteamos la tarea de predicción de enlaces como un problema de clasificación y muestreamos múltiples aristas negativas por cada arista positiva. En particular, para una arista positiva dada (s, d, t), fijamos el nodo fuente s y el momento t y muestreamos q nodos destino diferentes. Para cada conjunto de datos, q se selecciona en función del equilibrio entre la completitud de la evaluación y el tiempo de inferencia del conjunto de pruebas. De las q muestras negativas, la mitad se seleccionan de forma uniforme al azar, mientras que la otra mitad son aristas negativas históricas (aristas que se observaron en el conjunto de entrenamiento pero no están presentes en el momento t).

Métrica de rendimiento. Utilizamos la Reciprocal Mean Rank (MRR) filtrada como métrica para esta tarea, ya que está diseñada para problemas de clasificación. El MRR calcula el rango recíproco del nodo destino verdadero entre los destinos negativos o falsos y se utiliza comúnmente en sistemas de recomendación y en la literatura de grafos de conocimiento.

Rendimiento MRR en los conjuntos de datos tgbl-wiki y tgbl-review

Resultados en conjuntos de datos pequeños. En los conjuntos de datos pequeños tgbl-wiki y tgbl-review, observamos que los modelos con mejor rendimiento son bastante diferentes. Además, los modelos con mejor rendimiento en tgbl-wiki como CAWN y NAT tienen una reducción significativa en su rendimiento en tgbl-review. Una posible explicación es que el conjunto de datos tgbl-review tiene un índice de sorpresa mucho más alto en comparación con el conjunto de datos tgbl-wiki. El alto índice de sorpresa muestra que una alta proporción de aristas en el conjunto de prueba nunca se observó en el conjunto de entrenamiento, por lo que tgbl-review requiere más razonamiento inductivo. En tgbl-review, los modelos con mejor rendimiento son GraphMixer y TGAT. Debido a su menor tamaño, podemos muestrear todos los posibles negativos para tgbl-wiki y cien negativos para tgbl-review por cada arista positiva.

Rendimiento MRR en los conjuntos de datos tgbl-coin, tgbl-comment y tgbl-flight.

La mayoría de los métodos se quedan sin memoria de GPU para estos conjuntos de datos, por lo tanto, comparamos TGN, DyRep y Edgebank en estos conjuntos de datos debido a su menor requerimiento de memoria de GPU. Tenga en cuenta que algunos conjuntos de datos, como tgbl-comment o tgbl-flight, abarcan varios años, lo que podría resultar en un cambio en la distribución a lo largo de su largo período de tiempo.

efecto del número de muestras negativas en tgbl-wiki

Observaciones. Como se muestra arriba en tgbl-wiki, el número de muestras negativas utilizadas para la evaluación puede afectar significativamente el rendimiento del modelo: observamos una caída significativa en el rendimiento de la mayoría de los métodos cuando el número de muestras negativas aumenta de 20 a todas las posibles destinaciones. Esto verifica que, de hecho, se requieren más muestras negativas para una evaluación robusta. Curiosamente, métodos como CAWN y Edgebank tienen una disminución relativamente menor en el rendimiento, y dejamos en manos del trabajo futuro investigar por qué ciertos métodos se ven menos afectados.

tiempo total de entrenamiento y validación de los modelos TG

A continuación, observamos una diferencia de hasta dos órdenes de magnitud en el tiempo de entrenamiento y validación de los métodos TG, siendo Edgebank el más rápido siempre (ya que está implementado simplemente como una tabla hash). Esto muestra que mejorar la eficiencia y escalabilidad del modelo es una dirección futura importante para que los modelos nuevos y existentes puedan ser probados en grandes conjuntos de datos proporcionados en TGB.

Predicción de Propiedad Dinámica de Nodos

El objetivo de la predicción de propiedad dinámica de nodos es predecir la propiedad de un nodo en cualquier momento dado t. Dado que hay una falta de grandes conjuntos de datos públicos de TG con etiquetas de nodo dinámicas, introducimos la tarea de predicción de afinidad de nodos para investigar tareas a nivel de nodo en grafos temporales. Si desea contribuir con un conjunto de datos nuevo con etiquetas de nodo, por favor contáctenos.

Predicción de afinidad de nodos. Esta tarea considera la afinidad de un subconjunto de nodos (por ejemplo, usuarios) hacia otros nodos (por ejemplo, elementos) como su propiedad, y cómo la afinidad cambia naturalmente con el tiempo. Esta tarea es relevante, por ejemplo, en los sistemas de recomendación, donde es importante proporcionar recomendaciones personalizadas para un usuario modelando su preferencia hacia diferentes elementos a lo largo del tiempo. Aquí, utilizamos el Ganancia Acumulativa Descontada Normalizada de los 10 primeros elementos (NDCG@10) para comparar el orden relativo de los elementos predichos con el de la verdad absoluta. La etiqueta se genera contando la frecuencia de interacción del usuario con diferentes elementos durante un período futuro.

resultados empíricos para la tarea de predicción de afinidad de nodos.

Resultados. En esta tarea, comparamos modelos TG con dos heurísticas simples: pronóstico de persistencia, que predice la etiqueta de nodo más reciente observada para el tiempo actual, y media móvil, la media de las etiquetas de los nodos en los pasos anteriores. La observación clave aquí es que, en esta tarea, las heurísticas simples como el pronóstico de persistencia y la media móvil son competidores fuertes de los métodos TG y en la mayoría de los casos, los superan. Esto subraya la necesidad de desarrollar más métodos TG para tareas a nivel de nodo en el futuro.

Empezar con TGB

flujograma de ML para TGB

¿Cómo usar TGB? Lo anterior muestra el flujograma de aprendizaje automático en TGB. Puede descargar automáticamente conjuntos de datos y procesarlos en formatos de datos compatibles con numpy, PyTorch y PyG. Los usuarios solo necesitan diseñar sus propios modelos TG que pueden ser fácilmente probados a través de los evaluadores de TGB para estandarizar la evaluación. Por último, los rankings públicos y en línea de TGB ayudan a los investigadores a seguir el progreso reciente en el campo de los grafos temporales. Puede instalar el paquete fácilmente:

pip install py-tgb

Finalmente, puedes enviar el rendimiento de tu modelo al leaderboard de TGB. Te pedimos que proporciones un enlace a tu código y un documento que describa tu enfoque para la reproducibilidad. Para enviarlo, por favor completa el formulario de Google.

Conclusión y Trabajo Futuro

Para permitir una evaluación realista, reproducible y robusta del aprendizaje automático en grafos temporales, presentamos el Temporal Graph Benchmark, una colección de conjuntos de datos desafiantes y diversos. Con los conjuntos de datos y evaluación de TGB, encontramos que el rendimiento del modelo varía significativamente entre los conjuntos de datos, demostrando así la necesidad de evaluar en una amplia gama de dominios de grafos temporales. Además, en la tarea de predicción de afinidad de nodos, las heurísticas simples superan a los métodos de TG, lo que motiva el desarrollo de modelos de TG a nivel de nodo en el futuro.

Integración en PyG. Matthias Fey (Kumo.AI), líder principal de PyG, anunció en el Taller de Aprendizaje de Grafos en Stanford 2023 que TGB se integrará en futuras versiones de PyG. ¡Mantente atento!

Biblioteca TGX. Actualmente estamos desarrollando una biblioteca de utilidades y visualización en Python para grafos temporales, llamada TGX. TGX admite 20 conjuntos de datos de grafos temporales incorporados de TGB y Poursafaei et al. 2022.

Opiniones de la comunidad y contribuciones de conjuntos de datos. TGB es un proyecto impulsado por la comunidad y nos gustaría agradecer a todos los miembros de la comunidad que nos enviaron sugerencias por correo electrónico o problemas en Github. Si tienes alguna sugerencia o deseas contribuir con nuevos conjuntos de datos a TGB, por favor contáctanos por correo electrónico o crea un problema en Github. Estamos buscando conjuntos de datos a gran escala, especialmente aquellos para tareas de clasificación de nodos o grafos dinámicos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Transmisión de respuestas de modelos de lenguaje amplios en Amazon SageMaker JumpStart

Estamos emocionados de anunciar que Amazon SageMaker JumpStart ahora puede transmitir respuestas de inferencia de mod...

Inteligencia Artificial

Conoce a AnomalyGPT Un nuevo enfoque de IAD basado en Modelos de Visión-Lenguaje de Gran Escala (LVLM) para detectar anomalías industriales

En varias tareas de Procesamiento del Lenguaje Natural (NLP), los Modelos de Lenguaje de Gran Tamaño (LLMs) como GPT-...

Inteligencia Artificial

Confrontación de modelos de chat GPT-4 vs GPT-3.5 vs LLaMA-2 en un debate simulado - Parte 1

Con Meta revelando recientemente planes para construir un modelo de chat que competirá con GPT-4, y el lanzamiento de...

Inteligencia Artificial

Los modelos base Llama 2 de Meta ahora están disponibles en Amazon SageMaker JumpStart

Hoy, nos complace anunciar que los modelos base Llama 2 desarrollados por Meta están disponibles para los clientes a ...