Meet TableGPT Un marco unificado ajustado que permite a los LLM comprender y operar en tablas utilizando comandos funcionales externos

TableGPT es un marco ajustado para permitir a los LLM trabajar con tablas mediante comandos externos.

Las tablas se utilizan con frecuencia para representar el vasto y complejo mundo de los datos y sirven como base para la toma de decisiones basada en datos en diversos contextos, como el análisis financiero, la gestión de la cadena de suministro y la analítica de la salud. Los interesados pueden utilizarlas para analizar tendencias, patrones y relaciones, lo que les ayuda a tomar decisiones empresariales bien fundamentadas y optimizar procesos y recursos. Los científicos de datos han luchado durante mucho tiempo con el procesamiento de tablas mediante fórmulas de Excel complicadas o programas personalizados. Como resultado, ha habido una demanda apremiante de una comprensión e interpretación más efectivas de los datos tabulares. Los Modelos de Lenguaje Grande (LLM) o Transformadores Preentrenados Generativos (GPT) han revolucionado el paradigma de la minería de datos de lenguaje en el procesamiento del lenguaje natural.

En consonancia con estos estudios, los investigadores han investigado modelos extensos para la voz y la visión, entre otras modalidades. Su capacidad para producir texto que se asemeja al habla humana ha abierto nuevas vías para el manejo de datos tabulares. Sin embargo, es difícil utilizar el modelo estándar de ChatGPT en el área tabular por dos razones: (i) Comprensión global de tablas: Es bien sabido que los GPT tienen una limitación en la longitud de los tokens, lo que dificulta el escaneo de tablas enormes y la comprensión de la información que contienen. (ii) Sus procedimientos de entrenamiento están diseñados para lenguajes naturales, por lo que son menos generalizables cuando se trabaja con datos tabulares. Se han creado varios trabajos para incluir el lenguaje natural en el análisis de datos tabulares.

El lenguaje natural a SQL (NL2SQL) es un área de investigación bien establecida que traduce el lenguaje natural en instrucciones SQL que controlan bases de datos relacionales. Para utilizar una amplia gama de funciones de software de hoja de cálculo, SheetCopilot investigó recientemente los lenguajes para controlar VBA (Visual Basic for Applications, un lenguaje de script incrustado para Microsoft Excel). Sin embargo, descubrieron que ninguna de las alternativas funciona satisfactoriamente. Creen que estos tipos de código informático inherentemente no estructurados añaden complejidad, lo que hace que el postprocesamiento automatizado sea casi imposible. En este estudio, los investigadores de la Universidad de Zhejiang crearon TableGPT, empujando los límites de lo que es posible al utilizar enfoques de LLM para analizar datos. Este es un avance significativo en su búsqueda de hacer que los datos sean más fáciles de acceder y comprender. Su sistema TableGPT combina tablas, instrucciones habladas y lenguaje sencillo en un modelo GPT unificado, mejorando la facilidad de uso y la intuición en la interpretación de datos.

Combina muchos elementos clave en TableGPT al reimaginar cómo interactúan las tablas, el lenguaje hablado y las instrucciones:

• Representación global de tablas: Hacen el primer intento de crear un paradigma de aprendizaje para representaciones globales de tablas que codifiquen la tabla completa en un solo vector. Equipan al codificador de la tabla para capturar de manera efectiva la información global de la tabla de entrada mediante el entrenamiento simultáneo del LLM y el codificador en volúmenes enormes de datos de texto y tablas. De esta manera, se proporciona una comprensión más completa y mejorada de las tablas, ya que el LLM puede ver y comprender mejor los datos de la tabla.

• Cadena de comandos: Utilizan esta noción para resaltar la importancia de un enfoque organizado y jerárquico para la ejecución de tareas. TableGPT sigue la misma secuencia de comandos, dividiendo tareas difíciles en tareas más simples y llevándolas a cabo paso a paso, al igual que una organización bien coordinada donde cada dirección se transmite desde un nivel superior a su equivalente inferior. Además, fomenta la capacidad de rechazar instrucciones ambiguas o incorrectas, al igual que lo haría un científico de datos real, en lugar de adherirse ciegamente a cualquier instrucción potencialmente incorrecta, mejorando así la comunicación entre personas y sistemas LLM en el contexto de la ciencia de datos. Su conjunto de comandos sugerido es más fácil de usar y reduce la ambigüedad que a menudo se produce al utilizar técnicas convencionales para manejar datos tabulares.

• Ajuste fino consciente del dominio: Para mejorar la comprensión del modelo de los datos de la tabla de un dominio particular, el ajuste fino consciente del dominio implica adaptar el entrenamiento de modo que el modelo produzca texto que contenga elementos estilísticos y lógicos similares a los que se encuentran en el dominio dado. Esto fomenta la capacidad de adaptarse a diferentes dominios de tablas y materiales de texto correspondientes. También se ha creado una tubería de procesamiento de datos para hacer que esta estrategia sea práctica y escalable. El código no estructurado generado por NL2SQL presenta dificultades importantes para las comprobaciones previas y las reparaciones de errores en entornos de producción del mundo real. Como resultado, apoyan el uso de secuencias de comandos estructuradas para facilitar el postprocesamiento.

Con la autoinstrucción, Data-Copilot también adopta esta metodología basada en comandos. Sin embargo, su dependencia de los LLM nativos, una API utilizada para comprender la lógica de procesamiento y análisis de datos tabulares directamente, tiene desventajas. Creen que una solución exitosa debe diseñarse específicamente para datos tabulares al tiempo que mantiene una amplia aplicabilidad a actividades downstream más grandes debido a la imprevisibilidad inherente de los datos y la especificidad de las tareas de los datos tabulares. Esta convicción enfatiza lo crucial que es implementar un LLM especialmente preentrenado para datos tabulares. En conclusión, este estudio propone un marco revolucionario de TableGPT, una solución integral, integrada y basada en el lenguaje natural que permite el procesamiento, análisis y visualización eficaces de datos tabulares.

Enumeran algunos beneficios significativos de TableGPT:

• EDA impulsado por lenguaje: Utilizando lenguaje sencillo, TableGPT analiza la intención del usuario, desglosa las acciones requeridas y ejecuta comandos externos en la tabla. Luego, se proporcionan al usuario los resultados procesados en forma de explicaciones escritas y tabulares. El Análisis Exploratorio de Datos (EDA) se vuelve más intuitivo gracias a esta técnica innovadora, lo que facilita la interacción del usuario con los datos tabulares.

• Marco unificado de modalidad cruzada: Desarrollan creativamente un codificador de tablas global para comprender la tabla completa. Debido a la capacidad de TableGPT para comprender por completo las consultas del usuario, el metacocimiento y los datos tabulares completos, los comandos de ejecución de manipulación de tablas son significativamente más confiables.

• Generalización y privacidad: TableGPT puede manejar de manera más efectiva la heterogeneidad de datos en las tablas y generalizar a muchos dominios gracias al ajuste fino consciente del dominio. Además, su sistema permite la implementación privada y brinda una sólida protección de la privacidad de los datos. En la actualidad, donde la privacidad y protección de datos son esenciales, esta característica es crucial.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Nueva York planea invertir 1.000 millones de dólares para expandir la investigación de chips

La medida tiene como objetivo atraer $9 mil millones de inversión corporativa, ya que Nueva York lucha por ser sede d...

Inteligencia Artificial

Clave maestra para la separación de fuentes de audio Presentamos AudioSep para separar cualquier cosa que describas

La Análisis de Escena Auditiva Computacional (CASA, por sus siglas en inglés) es un campo dentro del procesamiento de...

Inteligencia Artificial

Investigadores de UC Berkeley presentan Gorilla un modelo basado en LLaMA afinado que supera a GPT-4 en la escritura de llamadas a la API.

Un avance reciente en el campo de la Inteligencia Artificial es la introducción de los Modelos de Lenguaje Grandes (L...