Meta AI lanza Nougat un modelo de transformador visual que realiza OCR para procesar documentos científicos en un lenguaje de marcado.

Meta AI lanza Nougat, un modelo de transformador visual para procesar documentos científicos en un lenguaje de marcado mediante OCR.

Con los crecientes avances en el campo de la Inteligencia Artificial, sus subcampos, incluyendo el Procesamiento de Lenguaje Natural, la Generación de Lenguaje Natural, la Visión por Computadora, etc., han ganado rápidamente mucha popularidad debido a sus amplios casos de uso. El Reconocimiento Óptico de Caracteres (OCR) es un área bien establecida y ampliamente investigada de la visión por computadora. Tiene varios usos, como la digitalización de documentos, el reconocimiento de escritura a mano y la identificación de texto en escenas. El reconocimiento de expresiones matemáticas es un área de OCR que ha recibido mucho interés en los estudios académicos.

El Formato de Documento Portátil (PDF) es uno de los formatos más ampliamente utilizados para el conocimiento científico, el cual a menudo se preserva en libros o se publica en revistas académicas. El segundo formato de datos más utilizado en Internet, que representa el 2.4% de la información, los PDF se utilizan con frecuencia para la entrega de documentos. A pesar de su amplio uso, extraer información de archivos PDF puede ser difícil, especialmente cuando se trata de materiales altamente especializados como artículos de investigación científica. En particular, cuando estos documentos se convierten al formato PDF, a menudo se pierde la información semántica de las expresiones matemáticas.

Para abordar estos desafíos, un equipo de investigadores de Meta AI ha presentado una solución llamada Nougat, que significa “Neural Optical Understanding for Academic Documents” (Entendimiento Óptico Neural para Documentos Académicos). Con el fin de hacer Reconocimiento Óptico de Caracteres (OCR) en textos científicos, Nougat es un modelo de Transformador Visual. Su objetivo es transformar estos archivos en un lenguaje de marcado para que puedan ser más fácilmente accesibles y legibles por máquina.

Para mostrar la eficacia de la metodología, el equipo también ha producido un nuevo conjunto de datos de artículos académicos. Este método ofrece una respuesta viable para mejorar la accesibilidad del conocimiento científico en la era digital. Llena el vacío entre los materiales escritos que son fáciles de leer para las personas y el texto que las computadoras pueden procesar y analizar. Investigadores, educadores y cualquier persona interesada en la literatura científica pueden acceder y manejar los artículos científicos de manera más efectiva utilizando Nougat. Nougat es básicamente un modelo basado en transformadores diseñado para convertir imágenes de páginas de documentos, especialmente aquellas de PDFs, en texto con formato de marcado.

El equipo ha resumido sus principales contribuciones de la siguiente manera:

Publicación de un Modelo Pre-entrenado: El equipo ha creado un modelo pre-entrenado que puede transformar PDFs en un lenguaje de marcado simple. Este modelo pre-entrenado está disponible públicamente en GitHub, donde la comunidad de investigación y cualquier persona puede acceder a él, junto con el código relacionado.

Proceso de Creación de Conjunto de Datos: Se describe un método para construir conjuntos de datos que emparejan documentos PDF con su código fuente asociado en el estudio. Este método de desarrollo de conjuntos de datos es crucial para probar y refinar el modelo Nougat y puede ser útil para futuras investigaciones y aplicaciones de análisis de documentos.

Dependencia solo de la Imagen de la Página: Una de las características destacadas de Nougat es su capacidad para operar solo en la Imagen de la Página. Esto lo convierte en una herramienta flexible para extraer contenido de diversas fuentes, incluso cuando los documentos originales no están disponibles en formatos de texto digital. Puede procesar documentos y libros escaneados.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Meta AI lanza Nougat un modelo de transformador visual que realiza OCR para procesar documentos científicos en un lenguaje de marcado.

Was this article helpful?

El CEO de NVIDIA se reúne con el Primer Ministro de India, Narendra Modi

6 Errores de Pandas que Silenciosamente Revelan que Eres un Novato

Inteligencia Artificial

Descubriendo los efectos perjudiciales de la IA en la comunidad trans

Google AI presenta Visually Rich Document Understanding (VRDU) un conjunto de datos para un mejor seguimiento del progreso de la tarea de comprensión de documentos

Desarrollo en Nano-Arrays utilizando Aprendizaje Profundo Un nuevo método de IA que podría diseñar matrices de nanohuecos que pueden producir un color estructural específico

12 Modelos Mentales para la Ciencia de Datos

Esta investigación de IA revela el LSS Transformer Un enfoque revolucionario de IA para el entrenamiento eficiente de secuencias largas en los Transformers.

Red de robots monitoriza tuberías utilizando sensores de ondas acústicas