Investigadores de CMU y NYU proponen LLMTime un método de inteligencia artificial para la predicción de series temporales de cero disparo con modelos de lenguaje grandes (LLMs)
CMU y NYU proponen LLMTime un método de IA para predecir series temporales de cero disparo mediante potentes modelos de lenguaje (LLMs)
A pesar de tener ciertos paralelos con otros problemas de modelado de secuencias, como texto, audio o video, las series de tiempo tienen dos características que las hacen particularmente difíciles. Los conjuntos de datos de series de tiempo agregadas frecuentemente incluyen secuencias de fuentes drásticamente variadas, a veces con valores faltantes, a diferencia de los videos o audios, que normalmente tienen escalas de entrada uniformes y tasas de muestreo uniformes. Además, muchas aplicaciones de pronóstico de series de tiempo, como las de datos meteorológicos o financieros, requieren extrapolar a partir de observaciones que solo contienen una pequeña parte de la información disponible. Esto hace que los pronósticos puntuales precisos sean increíblemente difíciles, lo que hace que las estimaciones de incertidumbre sean aún más cruciales.
La preentrenamiento no se usa frecuentemente para modelar series de tiempo porque no hay un objetivo no supervisado consensuado y los conjuntos de datos preentrenados grandes y cohesionados no son fácilmente accesibles. Sin embargo, el preentrenamiento a gran escala se ha convertido en un componente clave para entrenar grandes redes neuronales en visión y texto, lo que permite que el rendimiento aumente directamente con la disponibilidad de datos. Por lo tanto, los enfoques básicos de series de tiempo, como ARIMA y modelos lineales, frecuentemente superan a las técnicas de aprendizaje profundo en benchmarks comunes. Los autores muestran cómo los modelos de lenguaje grandes (LLM) podrían cerrar la brecha de manera ingenua entre los sesgos simples de los enfoques convencionales y las capacidades intrincadas de aprendizaje representacional y generativo de la comprensión profunda contemporánea.
Para utilizar LLM preentrenados en aplicaciones de predicción de series de tiempo continuas, los investigadores del presente artículo presentan el enfoque muy sencillo LLMTIME2, que se describe a un alto nivel en la Figura 1. Esta técnica, que considera el pronóstico de series de tiempo como una predicción de token siguiente en texto y fundamentalmente representa la serie de tiempo como una cadena de dígitos numéricos, permite aplicar modelos preentrenados robustos y capacidades probabilísticas como la evaluación de probabilidad y el muestreo. Proporcionan métodos para (1) codificar eficientemente la serie de tiempo como una cadena de dígitos numéricos y (2) convertir las distribuciones discretas de LLM en densidades continuas que pueden describir distribuciones multimodales complejas para lograr un alto rendimiento. Utilizando estas estrategias, descubren que LLMTIME se puede aplicar sin modificar los datos de propagación utilizados por otros modelos para superar o igualar a los métodos especializados construidos específicamente para series de tiempo en diversos problemas.
- Jugabilidad Reinventada La Revolución de la Inteligencia Artificial
- ¿Cómo mantener actualizados los modelos de fundación con los últimos datos? Investigadores de Apple y CMU presentan el primer benchmark web-scale Time-Continual (TiC) con 12.7 mil millones de pares de imágenes y texto con marcas de tiempo para el
- Utilice AWS PrivateLink para configurar acceso privado a Amazon Bedrock
Figura 1: Utilizando modelos de lenguaje grandes (LLMs), los investigadores presentan LLMTIME, un método para pronóstico de series de tiempo que implica codificar números como texto y seleccionar extrapolaciones potenciales como completaciones de texto. Sin ningún entrenamiento en el conjunto de datos objetivo (es decir, sin adaptación), LLMTIME puede superar a una serie de algoritmos de series de tiempo bien conocidos. La capacidad del modelo base subyacente escala con el rendimiento de LLMTIME también. Es destacable señalar que los modelos que pasan por alineamientos (como RLHF) no siguen la tendencia de escalabilidad.
Por ejemplo, en la Sección 6 se muestra que GPT-4 tiene un rendimiento peor que GPT-3.
La propiedad de no adaptación de LLMTIME tiene los siguientes beneficios inherentes: (1) facilita la aplicación sencilla de LLMs, eliminando la necesidad de conocimientos especializados en procedimientos de afinación fina y los importantes recursos computacionales requeridos para estos procedimientos. (2) Es adecuada para escenarios con disponibilidad limitada de datos, con poca información para el entrenamiento o la afinación fina. (3) Evita el considerable tiempo, esfuerzo y experiencia específica del dominio generalmente necesarios para crear modelos de series de tiempo especializados mediante el uso de las amplias habilidades de extrapolación de patrones de LLMs preentrenados extensivamente. Se analiza cómo los LLMs muestran preferencias por secuencias sencillas o repetitivas y se demuestra que estos sesgos son consistentes con las características importantes de las series de tiempo, como la estacionalidad, para comprender las razones detrás del excelente rendimiento de LLMTIME. Además de estos sesgos, los LLMs también pueden representar distribuciones multimodales y acomodar fácilmente datos faltantes, lo que es especialmente útil para las series de tiempo.
También se demuestra cómo los LLMs hacen posible incorporar características atractivas como solicitar información adicional y pedir al LLM que justifique sus predicciones. Finalmente, se demuestra que el rendimiento tiende a aumentar con el tamaño y que la calidad de los pronósticos puntuales también aumenta con la calidad de la representación de la incertidumbre, además de un rendimiento generalmente atractivo en el pronóstico. También descubrieron que GPT-4 tiene una calibración de incertidumbre peor que GPT-3, probablemente debido a intervenciones como RLHF (aprendizaje por refuerzo con retroalimentación humana).
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Silicon Volley Los diseñadores utilizan la IA generativa para obtener un asistente de Chip
- “Cómo la IA está cambiando los gemelos digitales en 2024”
- ‘De Aprendizaje Biológico a Red Neuronal Artificial ¿Qué Sigue?’
- Biden emite orden ejecutiva de inteligencia artificial, requiriendo evaluaciones de seguridad, orientación de derechos civiles, investigación sobre el impacto en el mercado laboral
- Una Guía Completa para el Análisis de las Partes Interesadas en la Gobernanza de la Inteligencia Artificial (Parte 1)
- Scott Stevenson, Cofundador y CEO de Spellbook – Serie de entrevistas
- Transformadores de Gráficos de Conocimiento Arquitectura de Razonamiento Dinámico para el Conocimiento en Evolución