¿Son realmente buenos los modelos de lenguaje grandes para generar datos estructurados complejos? Este artículo de IA presenta Struc-Bench Evaluando las capacidades de los LLM e introduciendo una solución de ajuste fino con conciencia de estructura.

¿Los LLM grandes son buenos para generar datos estructurados complejos? Este artículo presenta Struc-Bench evaluando sus capacidades e introduciendo una solución de ajuste fino con conciencia de estructura.

Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han logrado un progreso significativo en tareas de creación de texto, entre otras tareas de procesamiento de lenguaje natural. Uno de los componentes fundamentales de la capacidad generativa, la capacidad para generar datos estructurados, ha recibido mucha atención en investigaciones anteriores. Sin embargo, los LLMs siguen teniendo dificultades para producir salidas estructuradas complicadas, una habilidad crucial para diversas aplicaciones, desde la redacción automática de informes hasta la ayuda en la codificación. Además, se ha realizado relativamente poca investigación para evaluar la capacidad de los LLMs para producir salidas estructuradas; la mayoría de las evaluaciones de los LLMs se han centrado en texto espontáneo o desarrollo de código. Esto plantea la pregunta de qué tan bien pueden los LLMs generar datos estructurados complicados. 

Investigadores de la Universidad de Yale, la Universidad de Zhejiang, la Universidad de Nueva York y la ETH de Zúrich tienen como objetivo realizar un análisis exhaustivo y abordar estas cuestiones abiertas en su trabajo. En primer lugar, se debe realizar una investigación más completa sobre la capacidad de los LLMs para crear datos estructurados complejos. Los intentos anteriores de evaluar los LLMs en datos estructurados se concentraron en tareas simples de Extracción de Información (IE, por sus siglas en inglés), como extraer relaciones, reconocer eventos e identificar entidades nombradas. En este caso, el objetivo de las tareas de IE es recopilar los datos extraídos de manera ordenada. El trabajo anterior fue significativamente más centrado en la tarea en comparación con el trabajo centrado en los LLMs. Utilizando modelos preentrenados como BART y T5, que producen datos estructurados a partir de texto, el enfoque principal se centró en problemas de texto a datos. En segundo lugar, se necesitan evaluaciones o métricas exhaustivas del rendimiento de los LLMs. 

Los benchmarks existentes suelen utilizar métricas objetivas simples como la superposición de palabras para evaluar qué tan bien el contenido producido por la máquina está clasificando la información. Podría ser necesario tener más para determinar si los LLMs pueden proporcionar una salida estructurada, ya que una medida de evaluación adecuada también debe tener en cuenta el formato de la información que se está produciendo. En tercer lugar, ¿pueden los LLMs actuales funcionar mejor para seguir entradas de lenguaje natural humanas de manera más precisa y proporcionar salidas con formatos precisos y contenido sin errores? Este estudio intenta llenar estas lagunas en la literatura y mejorar los conjuntos de datos de entrenamiento y los criterios de evaluación para los LLMs que producen salidas estructuradas. 

La siguiente lista muestra sus contribuciones: (1) Crearon un benchmark llamado STRUCBENCH que se centra en producir textos estructurados en forma de texto sin formato, HTML y LaTeX. También evalúan cuidadosamente las capacidades de LLMs conocidos, identificando problemas significativos con la corrección del contenido, el formato, el razonamiento numérico y la gestión de tablas extensas. (2) Realizan evaluaciones empíricas de LLMs conocidos en su benchmark de generación de texto estructurado, incorporando conjuntos de datos notables y extendiéndose a áreas variadas, lo que proporciona un conocimiento más profundo sobre los tipos comunes de errores y las dimensiones de las fallas. Sus hallazgos sugieren que GPT-3.5 y GPT-4 necesitan ayuda para producir salidas precisamente correctas, con problemas que surgen principalmente por el contenido incorrecto, el formato deficiente, las habilidades insuficientes de razonamiento numérico y su incapacidad para gestionar tablas extensas. (3) Utilizan la afinación de instrucciones con conocimiento de la estructura para resolver estos problemas, entrenando el modelo LLaMA para adherirse a estos formatos después de utilizar ChatGPT para crear instrucciones de formato. Los resultados positivos en datos visibles y ocultos sugieren que esto podría mejorar significativamente la capacidad de los LLMs para proporcionar salidas estructuradas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Noticias de Inteligencia Artificial

Escanee y compruebe estos geniales códigos QR generados por IA.

En el ámbito del arte de inteligencia artificial (IA), hemos sido testigos de avances impresionantes, desde videos de...

Aprendizaje Automático

Google AI presenta Imagen Editor y EditBench para mejorar y evaluar el rellenado de imágenes guiado por texto.

Ha habido un reciente aumento en la curiosidad sobre los convertidores de texto a imagen. Estos modelos generativos s...

Inteligencia Artificial

Ajustando la Tela de la IA Generativa FABRIC es un enfoque de IA que personaliza los modelos de difusión con retroalimentación iterativa

La inteligencia artificial generativa es un término con el que todos estamos familiarizados en la actualidad. Han ava...

Aprendizaje Automático

CEO de NVIDIA Los creadores serán potenciados por la IA generativa.

La inteligencia artificial generativa “potenciará” a los creadores en todas las industrias y tipos de con...

Inteligencia Artificial

Hitos alcanzados en la nueva arquitectura de la computación cuántica

Los científicos han extendido el tiempo de coherencia para una clase única de bit cuántico (qubit) a 0.1 milisegundos...