Prediciendo el pasado con Ithaca

'Predicting the past with Ithaca'

Restauración, colocación y datación de textos antiguos a través de la colaboración entre la inteligencia artificial y los historiadores

El nacimiento de la escritura humana marcó el amanecer de la Historia y es crucial para nuestra comprensión de las civilizaciones pasadas y el mundo en el que vivimos hoy en día. Por ejemplo, hace más de 2.500 años, los griegos comenzaron a escribir en piedra, cerámica y metal para documentar desde contratos de arrendamiento y leyes hasta calendarios y oráculos, brindando una visión detallada de la región mediterránea. Desafortunadamente, es un registro incompleto. Muchas de las inscripciones que han sobrevivido han sido dañadas a lo largo de los siglos o han sido trasladadas de su ubicación original. Además, las técnicas modernas de datación, como la datación por radiocarbono, no se pueden utilizar en estos materiales, lo que dificulta e consume mucho tiempo interpretar las inscripciones.

En línea con la misión de DeepMind de resolver la inteligencia para avanzar en la ciencia y la humanidad, colaboramos con el Departamento de Humanidades de la Universidad Ca’ Foscari de Venecia, la Facultad de Clásicos de la Universidad de Oxford y el Departamento de Informática de la Universidad de Economía y Negocios de Atenas para explorar cómo el aprendizaje automático puede ayudar a los historiadores a interpretar mejor estas inscripciones, brindando una comprensión más rica de la historia antigua y desbloqueando el potencial de cooperación entre la inteligencia artificial y los historiadores.

En un artículo publicado hoy en Nature, introducimos conjuntamente a Ithaca, la primera red neuronal profunda que puede restaurar el texto faltante de inscripciones dañadas, identificar su ubicación original y ayudar a establecer la fecha en que fueron creadas. Ithaca lleva el nombre de la isla griega en la Odisea de Homero y se basa en y extiende a Pythia, nuestro sistema anterior que se centraba en la restauración textual. Nuestras evaluaciones muestran que Ithaca logra un 62% de precisión en la restauración de textos dañados, un 71% de precisión en la identificación de su ubicación original y puede datar textos dentro de un rango de 30 años de su fecha real. Los historiadores ya han utilizado la herramienta para reevaluar períodos significativos de la historia griega.

Para poner nuestra investigación a disposición de investigadores, educadores, personal de museos y otros, nos asociamos con Google Cloud y Google Arts & Culture para lanzar una versión interactiva y gratuita de Ithaca. Y para ayudar a futuras investigaciones, también hemos publicado nuestro código, el modelo preentrenado y un cuaderno interactivo de Colaboratory.

Figura 1. Esta inscripción restaurada (IG I3 4B) registra un decreto relacionado con la Acrópolis de Atenas y data del 485/4 a.C. (CC BY-SA 3.0, WikiMedia).
Figura 2. Arquitectura de Ithaca. Las partes dañadas de un texto se representan con un guion "-". Aquí, corrompimos artificialmente los caracteres "δημ.". Provistos con estas entradas, Ithaca restaura el texto e identifica el momento y el lugar en que se escribió el texto.

Herramientas colaborativas

Ithaca se entrena con el conjunto de datos digitales más grande de inscripciones griegas del Packard Humanities Institute. Los modelos de procesamiento del lenguaje natural se suelen entrenar utilizando palabras porque el orden en que aparecen en las oraciones y las relaciones entre ellas proporcionan contexto y significado adicionales. Por ejemplo, “érase una vez” tiene más significado que cada carácter o palabra visto por separado. Sin embargo, muchas de las inscripciones que los historiadores están interesados en analizar con Ithaca están dañadas y a menudo faltan fragmentos de texto. Para asegurarnos de que nuestro modelo siga funcionando cuando se le presente uno de estos, lo entrenamos utilizando tanto palabras como los caracteres individuales como entradas. El mecanismo de autoatención dispersa en el núcleo del modelo evalúa estas dos entradas en paralelo, lo que permite a Ithaca evaluar las inscripciones según sea necesario.

Para maximizar el valor de Ithaca como herramienta de investigación, también creamos varios recursos visuales para asegurar que los resultados de Ithaca sean fácilmente interpretables por los historiadores:

  • Hipótesis de restauración: Ithaca genera varias hipótesis de predicción para la tarea de restauración de texto, para que los historiadores elijan utilizando su experiencia.
  • Atribución geográfica: Ithaca muestra su incertidumbre al dar a los historiadores una distribución de probabilidad sobre todas las posibles predicciones, en lugar de solo un resultado único. Como resultado, devuelve probabilidades para 84 regiones antiguas diferentes, lo que representa su nivel de certeza. Visualiza estos resultados en un mapa para arrojar luz sobre posibles conexiones geográficas subyacentes en el mundo antiguo.
  • Atribución cronológica: Al fechar un texto, Ithaca produce una distribución de fechas predichas a lo largo de todas las décadas desde el 800 a.C. hasta el 800 d.C. Esto puede permitir a los historiadores visualizar la confianza del modelo para rangos de fechas específicos, lo que puede ofrecer valiosos conocimientos históricos.
  • Mapas de saliencia: Para transmitir los resultados a los historiadores, Ithaca utiliza una técnica comúnmente utilizada en visión por computadora que identifica qué secuencias de entrada contribuyen más a una predicción. El resultado resalta las palabras en diferentes intensidades de color que llevaron a las predicciones de Ithaca para el texto, la ubicación y las fechas faltantes.

Contribuir a los debates históricos

Nuestra evaluación experimental muestra cómo las decisiones de diseño de Ithaca y los recursos de visualización facilitan la interpretación de los resultados por parte de los investigadores. Los historiadores expertos con los que trabajamos lograron una precisión del 25% al trabajar solos para restaurar textos antiguos. Sin embargo, al usar Ithaca, su rendimiento aumenta al 72%, superando el rendimiento individual del modelo y demostrando el potencial de la cooperación entre humanos y máquinas para avanzar en la interpretación histórica, establecer dataciones relativas para eventos históricos e incluso contribuir a los debates metodológicos actuales.

Por ejemplo, actualmente los historiadores no están de acuerdo sobre la fecha de una serie de decretos importantes de Atenas que se hicieron en un momento en el que figuras destacadas como Sócrates y Pericles vivían. Se creía desde hace mucho tiempo que los decretos habían sido escritos antes del 446/445 a.C., aunque nuevas evidencias sugieren una fecha de los años 420 a.C. Aunque puede parecer una diferencia pequeña, estos decretos son fundamentales para nuestra comprensión de la historia política de la Atenas Clásica.

Nuestro conjunto de datos de entrenamiento contiene la cifra anterior de 446/445 a.C. Para probar las predicciones de Ithaca, lo volvimos a entrenar con un conjunto de datos que no contenía las inscripciones fechadas y luego enviamos estos textos retenidos para su análisis. Sorprendentemente, la fecha promedio predicha por Ithaca para los decretos es el 421 a.C., en línea con los avances de datación más recientes y mostrando cómo el aprendizaje automático puede contribuir a los debates en torno a uno de los momentos más significativos de la historia griega.

Figura 5. Predicciones de Ithaca vs verdades fundamentales del conjunto de datos del Packard Humanities Institute (PHI) en comparación con reevaluaciones históricas recientes. Las etiquetas PHI están, en promedio, 27 años desfasadas de las reevaluaciones, mientras que las predicciones de Ithaca están, en promedio, solo 5 años desfasadas de las nuevas verdades fundamentales propuestas.

Creemos que esto es solo el comienzo para herramientas como Ithaca y el potencial de colaboración entre el aprendizaje automático y las humanidades. La antigua Grecia juega un papel fundamental en nuestra comprensión del mundo mediterráneo, pero aún es solo una parte de una vasta imagen global de civilizaciones. Con ese fin, actualmente estamos trabajando en versiones de Ithaca entrenadas en otros idiomas antiguos y los historiadores ya pueden utilizar sus conjuntos de datos en la arquitectura actual para estudiar otros sistemas de escritura antiguos, desde el acadio hasta el demótico y el hebreo hasta el maya. Esperamos que modelos como Ithaca puedan desbloquear el potencial cooperativo entre la inteligencia artificial y las humanidades, impactando de manera transformadora la forma en que estudiamos y escribimos sobre algunos de los períodos más significativos de la historia humana.

  • Leer el artículo
  • Explorar la versión interactiva de Ithaca
  • Obtener el código fuente abierto
  • Leer una traducción al griego de esta publicación de blog

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

Lo que aprendí al llevar la Ingeniería de Prompt al límite

Pasé los últimos dos meses construyendo una aplicación impulsada por un modelo de lenguaje grande (LLM). Fue una expe...

Aprendizaje Automático

Conoce a FastSAM La solución revolucionaria en tiempo real que logra una segmentación de alto rendimiento con una carga computacional mínima.

El Modelo Segment Anything (SAM) es una propuesta más reciente en el campo. Es un concepto fundamental en la visión q...

Aprendizaje Automático

Más allá de NeRFs (Parte Dos)

En el ámbito de la representación y el renderizado de escenas 3D, los campos de radiance neural (NeRFs) proporcionaro...

Inteligencia Artificial

¡Atención Industria del Gaming! No más espejos extraños con Mirror-NeRF

Las NeRF o Campos de Radiancia Neurales utilizan una combinación de RNN y CNN para capturar las características físic...

Inteligencia Artificial

Energía Solar da un nuevo giro

Centrándonos en el uso de la fotosíntesis artificial a través de tecnologías de hojas solares.

Inteligencia Artificial

DreamBooth Difusión estable para imágenes personalizadas

Introducción Bienvenido al mundo de las técnicas de Difusión Estable para crear imágenes personalizadas, donde la cre...