Meta AI lanza Nougat un modelo de transformador visual que realiza OCR para procesar documentos científicos en un lenguaje de marcado.
Meta AI lanza Nougat, un modelo de transformador visual para procesar documentos científicos en un lenguaje de marcado mediante OCR.
Con los crecientes avances en el campo de la Inteligencia Artificial, sus subcampos, incluyendo el Procesamiento de Lenguaje Natural, la Generación de Lenguaje Natural, la Visión por Computadora, etc., han ganado rápidamente mucha popularidad debido a sus amplios casos de uso. El Reconocimiento Óptico de Caracteres (OCR) es un área bien establecida y ampliamente investigada de la visión por computadora. Tiene varios usos, como la digitalización de documentos, el reconocimiento de escritura a mano y la identificación de texto en escenas. El reconocimiento de expresiones matemáticas es un área de OCR que ha recibido mucho interés en los estudios académicos.
El Formato de Documento Portátil (PDF) es uno de los formatos más ampliamente utilizados para el conocimiento científico, el cual a menudo se preserva en libros o se publica en revistas académicas. El segundo formato de datos más utilizado en Internet, que representa el 2.4% de la información, los PDF se utilizan con frecuencia para la entrega de documentos. A pesar de su amplio uso, extraer información de archivos PDF puede ser difícil, especialmente cuando se trata de materiales altamente especializados como artículos de investigación científica. En particular, cuando estos documentos se convierten al formato PDF, a menudo se pierde la información semántica de las expresiones matemáticas.
Para abordar estos desafíos, un equipo de investigadores de Meta AI ha presentado una solución llamada Nougat, que significa “Neural Optical Understanding for Academic Documents” (Entendimiento Óptico Neural para Documentos Académicos). Con el fin de hacer Reconocimiento Óptico de Caracteres (OCR) en textos científicos, Nougat es un modelo de Transformador Visual. Su objetivo es transformar estos archivos en un lenguaje de marcado para que puedan ser más fácilmente accesibles y legibles por máquina.
- El CEO de NVIDIA se reúne con el Primer Ministro de India, Narendra Modi
- Navegando la IA Específica de la Industria De Héroes Transitorios a Soluciones a Largo Plazo
- Explained Meta-Heurísticas Optimización de Colonia de Hormigas
Para mostrar la eficacia de la metodología, el equipo también ha producido un nuevo conjunto de datos de artículos académicos. Este método ofrece una respuesta viable para mejorar la accesibilidad del conocimiento científico en la era digital. Llena el vacío entre los materiales escritos que son fáciles de leer para las personas y el texto que las computadoras pueden procesar y analizar. Investigadores, educadores y cualquier persona interesada en la literatura científica pueden acceder y manejar los artículos científicos de manera más efectiva utilizando Nougat. Nougat es básicamente un modelo basado en transformadores diseñado para convertir imágenes de páginas de documentos, especialmente aquellas de PDFs, en texto con formato de marcado.
El equipo ha resumido sus principales contribuciones de la siguiente manera:
- Publicación de un Modelo Pre-entrenado: El equipo ha creado un modelo pre-entrenado que puede transformar PDFs en un lenguaje de marcado simple. Este modelo pre-entrenado está disponible públicamente en GitHub, donde la comunidad de investigación y cualquier persona puede acceder a él, junto con el código relacionado.
- Proceso de Creación de Conjunto de Datos: Se describe un método para construir conjuntos de datos que emparejan documentos PDF con su código fuente asociado en el estudio. Este método de desarrollo de conjuntos de datos es crucial para probar y refinar el modelo Nougat y puede ser útil para futuras investigaciones y aplicaciones de análisis de documentos.
- Dependencia solo de la Imagen de la Página: Una de las características destacadas de Nougat es su capacidad para operar solo en la Imagen de la Página. Esto lo convierte en una herramienta flexible para extraer contenido de diversas fuentes, incluso cuando los documentos originales no están disponibles en formatos de texto digital. Puede procesar documentos y libros escaneados.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Cómo crear personas utilizando IA generativa como ChatGPT
- De Oppenheimer a la IA generativa Valiosas lecciones para las empresas de hoy
- Investigadores de Corea del Sur proponen VITS2 un avance en los modelos de síntesis de voz de una sola etapa para una mayor naturalidad y eficiencia.
- Principales documentos importantes de Visión por Computadora para la semana del 28/8 al 3/9
- Este artículo de IA presenta un estudio sobre las pruebas de AIS (Síndrome de Insensibilidad a los Andrógenos) utilizando modelos de aprendizaje profundo
- ¿Deberías iniciar tu carrera en FAANG o en una startup? (Parte 1)
- SHAP para variables objetivo binarias y de múltiples clases