Investigadores de CMU y NYU proponen LLMTime un método de inteligencia artificial para la predicción de series temporales de cero disparo con modelos de lenguaje grandes (LLMs)

CMU y NYU proponen LLMTime un método de IA para predecir series temporales de cero disparo mediante potentes modelos de lenguaje (LLMs)

A pesar de tener ciertos paralelos con otros problemas de modelado de secuencias, como texto, audio o video, las series de tiempo tienen dos características que las hacen particularmente difíciles. Los conjuntos de datos de series de tiempo agregadas frecuentemente incluyen secuencias de fuentes drásticamente variadas, a veces con valores faltantes, a diferencia de los videos o audios, que normalmente tienen escalas de entrada uniformes y tasas de muestreo uniformes. Además, muchas aplicaciones de pronóstico de series de tiempo, como las de datos meteorológicos o financieros, requieren extrapolar a partir de observaciones que solo contienen una pequeña parte de la información disponible. Esto hace que los pronósticos puntuales precisos sean increíblemente difíciles, lo que hace que las estimaciones de incertidumbre sean aún más cruciales.

La preentrenamiento no se usa frecuentemente para modelar series de tiempo porque no hay un objetivo no supervisado consensuado y los conjuntos de datos preentrenados grandes y cohesionados no son fácilmente accesibles. Sin embargo, el preentrenamiento a gran escala se ha convertido en un componente clave para entrenar grandes redes neuronales en visión y texto, lo que permite que el rendimiento aumente directamente con la disponibilidad de datos. Por lo tanto, los enfoques básicos de series de tiempo, como ARIMA y modelos lineales, frecuentemente superan a las técnicas de aprendizaje profundo en benchmarks comunes. Los autores muestran cómo los modelos de lenguaje grandes (LLM) podrían cerrar la brecha de manera ingenua entre los sesgos simples de los enfoques convencionales y las capacidades intrincadas de aprendizaje representacional y generativo de la comprensión profunda contemporánea.

Para utilizar LLM preentrenados en aplicaciones de predicción de series de tiempo continuas, los investigadores del presente artículo presentan el enfoque muy sencillo LLMTIME2, que se describe a un alto nivel en la Figura 1. Esta técnica, que considera el pronóstico de series de tiempo como una predicción de token siguiente en texto y fundamentalmente representa la serie de tiempo como una cadena de dígitos numéricos, permite aplicar modelos preentrenados robustos y capacidades probabilísticas como la evaluación de probabilidad y el muestreo. Proporcionan métodos para (1) codificar eficientemente la serie de tiempo como una cadena de dígitos numéricos y (2) convertir las distribuciones discretas de LLM en densidades continuas que pueden describir distribuciones multimodales complejas para lograr un alto rendimiento. Utilizando estas estrategias, descubren que LLMTIME se puede aplicar sin modificar los datos de propagación utilizados por otros modelos para superar o igualar a los métodos especializados construidos específicamente para series de tiempo en diversos problemas.

Figura 1: Utilizando modelos de lenguaje grandes (LLMs), los investigadores presentan LLMTIME, un método para pronóstico de series de tiempo que implica codificar números como texto y seleccionar extrapolaciones potenciales como completaciones de texto. Sin ningún entrenamiento en el conjunto de datos objetivo (es decir, sin adaptación), LLMTIME puede superar a una serie de algoritmos de series de tiempo bien conocidos. La capacidad del modelo base subyacente escala con el rendimiento de LLMTIME también. Es destacable señalar que los modelos que pasan por alineamientos (como RLHF) no siguen la tendencia de escalabilidad.

Por ejemplo, en la Sección 6 se muestra que GPT-4 tiene un rendimiento peor que GPT-3.

La propiedad de no adaptación de LLMTIME tiene los siguientes beneficios inherentes: (1) facilita la aplicación sencilla de LLMs, eliminando la necesidad de conocimientos especializados en procedimientos de afinación fina y los importantes recursos computacionales requeridos para estos procedimientos. (2) Es adecuada para escenarios con disponibilidad limitada de datos, con poca información para el entrenamiento o la afinación fina. (3) Evita el considerable tiempo, esfuerzo y experiencia específica del dominio generalmente necesarios para crear modelos de series de tiempo especializados mediante el uso de las amplias habilidades de extrapolación de patrones de LLMs preentrenados extensivamente. Se analiza cómo los LLMs muestran preferencias por secuencias sencillas o repetitivas y se demuestra que estos sesgos son consistentes con las características importantes de las series de tiempo, como la estacionalidad, para comprender las razones detrás del excelente rendimiento de LLMTIME. Además de estos sesgos, los LLMs también pueden representar distribuciones multimodales y acomodar fácilmente datos faltantes, lo que es especialmente útil para las series de tiempo.

También se demuestra cómo los LLMs hacen posible incorporar características atractivas como solicitar información adicional y pedir al LLM que justifique sus predicciones. Finalmente, se demuestra que el rendimiento tiende a aumentar con el tamaño y que la calidad de los pronósticos puntuales también aumenta con la calidad de la representación de la incertidumbre, además de un rendimiento generalmente atractivo en el pronóstico. También descubrieron que GPT-4 tiene una calibración de incertidumbre peor que GPT-3, probablemente debido a intervenciones como RLHF (aprendizaje por refuerzo con retroalimentación humana).

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Los ingenieros están en una misión de encontrar fallas

Un algoritmo desarrollado por investigadores del Instituto de Tecnología de Massachusetts tiene como objetivo identif...

Inteligencia Artificial

Una guía para principiantes sobre LLMOps para ingeniería de aprendizaje automático

Introducción El lanzamiento de ChatGPT de OpenAI ha generado mucho interés en los grandes modelos de lenguaje (LLMs, ...

Inteligencia Artificial

Investigadores de Amazon presentan Fortuna una biblioteca de IA para la cuantificación de la incertidumbre en el aprendizaje profundo

Los recientes avances en los campos de Inteligencia Artificial y Aprendizaje Automático han hecho la vida más fácil p...

Inteligencia Artificial

Conoce FlexGen un motor de generación de alto rendimiento para ejecutar grandes modelos de lenguaje (LLM) con memoria limitada de GPU.

Recientemente, los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han mostrado un rendimiento impresion...

Inteligencia Artificial

Este boletín de inteligencia artificial es todo lo que necesitas #61

En los últimos meses hemos seguido viendo avances significativos en los modelos de lenguaje (LLM) y una introducción ...

Inteligencia Artificial

Meta lanza Code Llama la última herramienta de IA para programar

En un increíble salto tecnológico, Meta ha lanzado su última creación, Code Llama, una herramienta impulsada por IA c...