Meta AI lanza Nougat un modelo de transformador visual que realiza OCR para procesar documentos científicos en un lenguaje de marcado.

Meta AI lanza Nougat, un modelo de transformador visual para procesar documentos científicos en un lenguaje de marcado mediante OCR.

Con los crecientes avances en el campo de la Inteligencia Artificial, sus subcampos, incluyendo el Procesamiento de Lenguaje Natural, la Generación de Lenguaje Natural, la Visión por Computadora, etc., han ganado rápidamente mucha popularidad debido a sus amplios casos de uso. El Reconocimiento Óptico de Caracteres (OCR) es un área bien establecida y ampliamente investigada de la visión por computadora. Tiene varios usos, como la digitalización de documentos, el reconocimiento de escritura a mano y la identificación de texto en escenas. El reconocimiento de expresiones matemáticas es un área de OCR que ha recibido mucho interés en los estudios académicos.

El Formato de Documento Portátil (PDF) es uno de los formatos más ampliamente utilizados para el conocimiento científico, el cual a menudo se preserva en libros o se publica en revistas académicas. El segundo formato de datos más utilizado en Internet, que representa el 2.4% de la información, los PDF se utilizan con frecuencia para la entrega de documentos. A pesar de su amplio uso, extraer información de archivos PDF puede ser difícil, especialmente cuando se trata de materiales altamente especializados como artículos de investigación científica. En particular, cuando estos documentos se convierten al formato PDF, a menudo se pierde la información semántica de las expresiones matemáticas.

Para abordar estos desafíos, un equipo de investigadores de Meta AI ha presentado una solución llamada Nougat, que significa “Neural Optical Understanding for Academic Documents” (Entendimiento Óptico Neural para Documentos Académicos). Con el fin de hacer Reconocimiento Óptico de Caracteres (OCR) en textos científicos, Nougat es un modelo de Transformador Visual. Su objetivo es transformar estos archivos en un lenguaje de marcado para que puedan ser más fácilmente accesibles y legibles por máquina.

Para mostrar la eficacia de la metodología, el equipo también ha producido un nuevo conjunto de datos de artículos académicos. Este método ofrece una respuesta viable para mejorar la accesibilidad del conocimiento científico en la era digital. Llena el vacío entre los materiales escritos que son fáciles de leer para las personas y el texto que las computadoras pueden procesar y analizar. Investigadores, educadores y cualquier persona interesada en la literatura científica pueden acceder y manejar los artículos científicos de manera más efectiva utilizando Nougat. Nougat es básicamente un modelo basado en transformadores diseñado para convertir imágenes de páginas de documentos, especialmente aquellas de PDFs, en texto con formato de marcado.

El equipo ha resumido sus principales contribuciones de la siguiente manera:

  1. Publicación de un Modelo Pre-entrenado: El equipo ha creado un modelo pre-entrenado que puede transformar PDFs en un lenguaje de marcado simple. Este modelo pre-entrenado está disponible públicamente en GitHub, donde la comunidad de investigación y cualquier persona puede acceder a él, junto con el código relacionado.
  1. Proceso de Creación de Conjunto de Datos: Se describe un método para construir conjuntos de datos que emparejan documentos PDF con su código fuente asociado en el estudio. Este método de desarrollo de conjuntos de datos es crucial para probar y refinar el modelo Nougat y puede ser útil para futuras investigaciones y aplicaciones de análisis de documentos.
  1. Dependencia solo de la Imagen de la Página: Una de las características destacadas de Nougat es su capacidad para operar solo en la Imagen de la Página. Esto lo convierte en una herramienta flexible para extraer contenido de diversas fuentes, incluso cuando los documentos originales no están disponibles en formatos de texto digital. Puede procesar documentos y libros escaneados.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

Descubriendo los efectos perjudiciales de la IA en la comunidad trans

Cómo la inteligencia artificial está fallando a las personas transgénero. Los peligros del software de reconocimiento...

Inteligencia Artificial

Google AI presenta Visually Rich Document Understanding (VRDU) un conjunto de datos para un mejor seguimiento del progreso de la tarea de comprensión de documentos

Cada vez se crean y almacenan más documentos por parte de las empresas en la era digital de hoy en día. Aunque estos ...

Ciencia de Datos

12 Modelos Mentales para la Ciencia de Datos

En el campo en constante evolución de la ciencia de datos, las habilidades técnicas para manejar y analizar datos son...

Inteligencia Artificial

Esta investigación de IA revela el LSS Transformer Un enfoque revolucionario de IA para el entrenamiento eficiente de secuencias largas en los Transformers.

Una nueva investigación de IA ha presentado el Long Short-Sequence Transformer (LSS Transformer), un método eficiente...

Inteligencia Artificial

Red de robots monitoriza tuberías utilizando sensores de ondas acústicas

Investigadores demostraron que los sensores de ondas acústicas guiadas pueden permitir que redes de robots independie...