AI generativa en documentos de investigación utilizando el modelo Nougat
Generative AI in research documents using the Nougat model
¡Haciendo cosas geniales con los datos!
![Foto de Dan Dimmock en Unsplash](https://miro.medium.com/v2/resize:fit:640/format:webp/1*sSgG2gU8jPbk35yBr8YX3Q.jpeg)
Introducción
Los avances recientes en modelos de lenguaje grandes (LLMs, por sus siglas en inglés) como GPT-4 han demostrado impresionantes capacidades para generar texto coherente. Sin embargo, el análisis y comprensión precisa de los artículos de investigación sigue siendo una tarea extremadamente desafiante para la inteligencia artificial (IA). Los artículos de investigación contienen formatos complejos, ecuaciones matemáticas, tablas, figuras y un lenguaje específico del dominio. La densidad de información es muy alta y las semánticas importantes están codificadas en el formato.
En este artículo, demostraré cómo un nuevo modelo llamado Nougat de Meta puede ayudar a analizar de manera precisa los artículos de investigación. Luego lo combinaremos con un flujo de trabajo de LLM que extrae y resume todas las tablas del artículo.
El potencial aquí es inmenso. Hay mucha información/datos encerrados en artículos de investigación y libros que no han sido analizados correctamente. Un análisis preciso permite utilizarlos en muchas aplicaciones diferentes, incluida la reentrenamiento de LLM.
Modelo Nougat
Nougat es un modelo de transformador visual desarrollado por investigadores de Meta AI que puede convertir imágenes de páginas de documentos en texto estructurado [1]. Toma una imagen rasterizada de una página de documento como entrada y produce texto en un lenguaje de marcado ligero.
- 15 Mejores Inicios de ChatGPT para Twitter (X)
- En el Omniverso el lanzamiento alfa de Blender 4.0 sienta las bases para una nueva era de la artesanía de OpenUSD
- ¿Ejecutar IA en tu PC? Los usuarios de GeForce están por delante de la curva.
La ventaja clave de Nougat es que se basa únicamente en la imagen del documento y no necesita ningún texto OCR. Esto le permite recuperar la estructura semántica adecuada, como las ecuaciones matemáticas. Está entrenado con millones de artículos académicos de arXiv y PubMed para aprender los patrones de formato y lenguaje de los artículos de investigación.
La siguiente figura de [1] muestra cómo se reproducen y renderizan correctamente las ecuaciones matemáticas escritas en PDF.
![Fuente: Fig5 del artículo de Nougat — https://arxiv.org/pdf/2308.13418.pdf](https://miro.medium.com/v2/resize:fit:640/format:webp/1*TyIIeT7yfH74R6g9B2p7rA.png)
Nougat utiliza una arquitectura codificador-decodificador de transformador visual. El codificador utiliza un Transformador Swin para codificar la imagen del documento en vectores latentes. El Transformador Swin procesa la imagen de manera jerárquica utilizando ventanas desplazadas. El decodificador genera los tokens de texto de salida de manera autoregresiva utilizando autoatención sobre el codificador…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Capturando Carbono
- Filántropo James Dooley invierte en Uniplay Markings
- GTX vs RTX ¿Cuál es mejor para aplicaciones de ciencia de datos?
- Seguridad de la información seguridad de la IA dentro de la industria IoT
- Análisis de Datos Conversacionales Cortando a través del ruido para encontrar la verdadera información
- IA generativa para series de tiempo
- Cómo la IA generativa está perturbando las prácticas de datos