Extracción de datos de documentos sin OCR con Transformers (2/2)

Extracción de datos sin OCR con Transformers (2/2)

Donut versus Pix2Struct en datos personalizados

Imagen del autor (con)

¿Qué tan bien entienden estos dos modelos transformadores los documentos? En esta segunda parte te mostraré cómo entrenarlos y comparar sus resultados para la tarea de extracción de índices clave.

Ajuste fino de Donut

Entonces retomemos desde la parte 1, donde explico cómo preparar los datos personalizados. Comprimí las dos carpetas del conjunto de datos y las subí a un nuevo conjunto de datos de huggingface aquí. El cuaderno de Colab que utilicé se puede encontrar aquí. Descargará el conjunto de datos, configurará el entorno, cargará el modelo Donut y lo entrenará.

Después de ajustar fino durante 75 minutos, lo detuve cuando la métrica de validación (que es la distancia de edición) alcanzó 0.116:

Imagen del autor

En el nivel de campo, obtengo estos resultados para el conjunto de validación:

Imagen del autor

Cuando observamos el Doctype, vemos que Donut siempre identifica correctamente los documentos como una patente o una hoja de datos. Por lo tanto, podemos decir que la clasificación alcanza una precisión del 100%. También hay que tener en cuenta que aunque tengamos una clase de hoja de datos, no es necesario que esta palabra exacta esté en el documento para clasificarlo como tal. No le importa a Donut, ya que se ajustó fino para reconocerlo así.

Otros campos también tienen una puntuación bastante buena, pero es difícil decir solo con este gráfico qué sucede internamente. Me gustaría ver dónde el modelo acierta y falla en casos específicos. Así que creé una rutina en mi cuaderno para generar una tabla de informe con formato HTML. Para cada documento en mi conjunto de validación, tengo una entrada de fila como esta:

Imagen del autor

En el lado izquierdo está el dato reconocido (inferido) junto con su verdad absoluta. En el lado derecho está la imagen. También utilicé códigos de color para tener una vista general rápida:

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La IA multimodal conecta los puntos digitales

Al unir múltiples componentes y flujos de datos, la IA multimodal ofrece la promesa de sistemas más inteligentes y si...

Inteligencia Artificial

Jugando ¿Dónde está Wally? en 3D OpenMask3D es un modelo de IA que puede segmentar instancias en 3D con consultas de vocabulario abierto.

La segmentación de imágenes ha avanzado mucho en la última década, gracias al avance de las redes neuronales. Ahora e...

Noticias de Inteligencia Artificial

Traje de Realidad Virtual podría ayudarte a 'sentir' cosas en el Metaverso.

Los ingenieros en la ETH Zurich de Suiza construyeron un traje táctil de cuerpo completo para amplificar las experien...

Inteligencia Artificial

Investigadores de NVIDIA y la Universidad de Tel Aviv presentan Perfusion una red neuronal compacta de 100 KB con un tiempo de entrenamiento eficiente.

Los modelos de texto a imagen (T2I) han inaugurado una nueva era de flexibilidad tecnológica, otorgando a los usuario...

Aprendizaje Automático

NODO Árboles Neuronales Centrados en Tablas

En los últimos años, el Aprendizaje Automático ha explotado en popularidad, y los modelos de Aprendizaje Profundo Neu...

Inteligencia Artificial

Rastreador web de OpenAI y errores de la FTC

OpenAI lanza un rastreador predeterminado de opt-in para raspar Internet, mientras que la FTC lleva a cabo una invest...