Identificación Lingüística con Python

Identificación Lingüística con Python

Atribuir autoría con mapas de calor de puntuación

Una única huella dactilar forense en tonos amarillos con punto y coma azules (imagen de DALL-E2 y autor)

La estilometría es el estudio cuantitativo del estilo literario a través del análisis computacional de textos. Se basa en la idea de que todos tenemos un estilo único, consistente y reconocible en nuestra escritura. Esto incluye nuestro vocabulario, nuestro uso de la puntuación, la longitud promedio de nuestras palabras y frases, y así sucesivamente.

Una aplicación típica de la estilometría es la atribución de autoría. Este es el proceso de identificar al autor de un documento, como cuando se investiga el plagio o se resuelven disputas sobre el origen de un documento histórico.

En este proyecto de Ciencia de Datos de Éxito Rápido, utilizaremos Python, seaborn y Natural Language Toolkit (NLTK) para ver si Sir Arthur Conan Doyle dejó una huella lingüística en su novela, El Mundo Perdido. Más específicamente, utilizaremos los punto y coma para determinar si Sir Arthur o su contemporáneo, H.G. Wells, es el autor probable del libro.

El Sabueso, La Guerra y El Mundo Perdido

Sir Arthur Conan Doyle (1859–1930) es más conocido por las historias de Sherlock Holmes. H. G. Wells (1866–1946) es famoso por varias novelas de ciencia ficción innovadoras, como El Hombre Invisible.

En 1912, la revista Strand publicó El Mundo Perdido, una versión serializada de una novela de ciencia ficción. Aunque se conoce al autor, vamos a suponer que está en disputa y que nuestro trabajo es resolver el misterio. Los expertos han reducido el campo a dos autores: Doyle y Wells. Wells tiene una ligera ventaja porque El Mundo Perdido es una obra de ciencia ficción e incluye trogloditas similares a los Morlocks en su libro de 1895, La Máquina del Tiempo.

Para resolver este problema, necesitaremos obras representativas de cada autor. Para Doyle, utilizaremos El Sabueso de los Baskerville, publicado en 1901. Para Wells, utilizaremos La Guerra de los Mundos, publicado en 1898.

Afortunadamente para nosotros, las tres novelas están en dominio público y están disponibles a través de Proyecto Gutenberg. Por conveniencia, las he descargado a este Gist y he eliminado la información de licencia.

El Proceso

La atribución de autoría requiere la aplicación del Procesamiento del Lenguaje Natural (NLP por sus siglas en inglés). NLP es un…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Red de robots monitoriza tuberías utilizando sensores de ondas acústicas

Investigadores demostraron que los sensores de ondas acústicas guiadas pueden permitir que redes de robots independie...

Inteligencia Artificial

Destaques y Contribuciones de NeurIPS 2023

La conferencia de Sistemas de Procesamiento de Información Neuronal, NeurIPS 2023, se erige como la cima de la búsque...

Inteligencia Artificial

Aumente la productividad del agente con la integración de Salesforce para el análisis de llamadas en vivo.

Como agente de un centro de contacto, ¿preferirías enfocarte en tener conversaciones productivas con los clientes o d...

Inteligencia Artificial

El Cuadro de Búsqueda de Google Cambió el Significado de la Información

La búsqueda en la web prometía resolver preguntas. En cambio, trajo consigo un apocalipsis suave de la verdad.