AI generativa en documentos de investigación utilizando el modelo Nougat

Generative AI in research documents using the Nougat model

¡Haciendo cosas geniales con los datos!

Introducción

Los avances recientes en modelos de lenguaje grandes (LLMs, por sus siglas en inglés) como GPT-4 han demostrado impresionantes capacidades para generar texto coherente. Sin embargo, el análisis y comprensión precisa de los artículos de investigación sigue siendo una tarea extremadamente desafiante para la inteligencia artificial (IA). Los artículos de investigación contienen formatos complejos, ecuaciones matemáticas, tablas, figuras y un lenguaje específico del dominio. La densidad de información es muy alta y las semánticas importantes están codificadas en el formato.

En este artículo, demostraré cómo un nuevo modelo llamado Nougat de Meta puede ayudar a analizar de manera precisa los artículos de investigación. Luego lo combinaremos con un flujo de trabajo de LLM que extrae y resume todas las tablas del artículo.

El potencial aquí es inmenso. Hay mucha información/datos encerrados en artículos de investigación y libros que no han sido analizados correctamente. Un análisis preciso permite utilizarlos en muchas aplicaciones diferentes, incluida la reentrenamiento de LLM.

Modelo Nougat

Nougat es un modelo de transformador visual desarrollado por investigadores de Meta AI que puede convertir imágenes de páginas de documentos en texto estructurado [1]. Toma una imagen rasterizada de una página de documento como entrada y produce texto en un lenguaje de marcado ligero.

La ventaja clave de Nougat es que se basa únicamente en la imagen del documento y no necesita ningún texto OCR. Esto le permite recuperar la estructura semántica adecuada, como las ecuaciones matemáticas. Está entrenado con millones de artículos académicos de arXiv y PubMed para aprender los patrones de formato y lenguaje de los artículos de investigación.

La siguiente figura de [1] muestra cómo se reproducen y renderizan correctamente las ecuaciones matemáticas escritas en PDF.

Fuente: Fig5 del artículo de Nougat — https://arxiv.org/pdf/2308.13418.pdf

Nougat utiliza una arquitectura codificador-decodificador de transformador visual. El codificador utiliza un Transformador Swin para codificar la imagen del documento en vectores latentes. El Transformador Swin procesa la imagen de manera jerárquica utilizando ventanas desplazadas. El decodificador genera los tokens de texto de salida de manera autoregresiva utilizando autoatención sobre el codificador…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

AI generativa en documentos de investigación utilizando el modelo Nougat

¡Haciendo cosas geniales con los datos!

Introducción

Modelo Nougat

Was this article helpful?

15 Mejores Inicios de ChatGPT para Twitter (X)

Google PaLM 2 Revolucionando los modelos de lenguaje

Inteligencia Artificial

Investigadores de ETH Zurich presentan la arquitectura Fast Feedforward (FFF) un par de la arquitectura Feedforward (FF) que accede a bloques de sus neuronas en tiempo logarítmico.

Investigadores de DeepMind redefinen el Aprendizaje Reforzado Continuo con una precisa definición matemática

Europa avanza en la regulación de la IA, desafiando el poder de los gigantes tecnológicos.

Una nueva investigación de Inteligencia Artificial de Stanford muestra cómo las explicaciones pueden reducir la dependencia excesiva en los sistemas de IA durante la toma de decisiones

Conoce a BLIVA un modelo de lenguaje multimodal grande para manejar mejor preguntas visuales ricas en texto

Aumento de personal de TI Cómo la IA está cambiando la industria del desarrollo de software.