AI generativa en documentos de investigación utilizando el modelo Nougat

Generative AI in research documents using the Nougat model

¡Haciendo cosas geniales con los datos!

Foto de Dan Dimmock en Unsplash

Introducción

Los avances recientes en modelos de lenguaje grandes (LLMs, por sus siglas en inglés) como GPT-4 han demostrado impresionantes capacidades para generar texto coherente. Sin embargo, el análisis y comprensión precisa de los artículos de investigación sigue siendo una tarea extremadamente desafiante para la inteligencia artificial (IA). Los artículos de investigación contienen formatos complejos, ecuaciones matemáticas, tablas, figuras y un lenguaje específico del dominio. La densidad de información es muy alta y las semánticas importantes están codificadas en el formato.

En este artículo, demostraré cómo un nuevo modelo llamado Nougat de Meta puede ayudar a analizar de manera precisa los artículos de investigación. Luego lo combinaremos con un flujo de trabajo de LLM que extrae y resume todas las tablas del artículo.

El potencial aquí es inmenso. Hay mucha información/datos encerrados en artículos de investigación y libros que no han sido analizados correctamente. Un análisis preciso permite utilizarlos en muchas aplicaciones diferentes, incluida la reentrenamiento de LLM.

Modelo Nougat

Nougat es un modelo de transformador visual desarrollado por investigadores de Meta AI que puede convertir imágenes de páginas de documentos en texto estructurado [1]. Toma una imagen rasterizada de una página de documento como entrada y produce texto en un lenguaje de marcado ligero.

La ventaja clave de Nougat es que se basa únicamente en la imagen del documento y no necesita ningún texto OCR. Esto le permite recuperar la estructura semántica adecuada, como las ecuaciones matemáticas. Está entrenado con millones de artículos académicos de arXiv y PubMed para aprender los patrones de formato y lenguaje de los artículos de investigación.

La siguiente figura de [1] muestra cómo se reproducen y renderizan correctamente las ecuaciones matemáticas escritas en PDF.

Fuente: Fig5 del artículo de Nougat — https://arxiv.org/pdf/2308.13418.pdf

Nougat utiliza una arquitectura codificador-decodificador de transformador visual. El codificador utiliza un Transformador Swin para codificar la imagen del documento en vectores latentes. El Transformador Swin procesa la imagen de manera jerárquica utilizando ventanas desplazadas. El decodificador genera los tokens de texto de salida de manera autoregresiva utilizando autoatención sobre el codificador…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de DeepMind redefinen el Aprendizaje Reforzado Continuo con una precisa definición matemática

Los avances recientes en el aprendizaje profundo por refuerzo (RL) han demostrado un rendimiento sobrehumano por part...

Ciencias de la Computación

Europa avanza en la regulación de la IA, desafiando el poder de los gigantes tecnológicos.

Bruselas presentó un nuevo desafío antimonopolio contra Google el mismo día en que los legisladores europeos votaron ...

Inteligencia Artificial

Conoce a BLIVA un modelo de lenguaje multimodal grande para manejar mejor preguntas visuales ricas en texto

Recientemente, los Modelos de Lenguaje Grande (LLMs) han desempeñado un papel crucial en el campo de la comprensión d...

Inteligencia Artificial

Aumento de personal de TI Cómo la IA está cambiando la industria del desarrollo de software.

Se trata de cómo los asistentes de IA están ayudando a los equipos a ser más eficientes y cómo también pueden ser ben...