Identificación Lingüística con Python
Identificación Lingüística con Python
Atribuir autoría con mapas de calor de puntuación
![Una única huella dactilar forense en tonos amarillos con punto y coma azules (imagen de DALL-E2 y autor)](https://miro.medium.com/v2/resize:fit:640/format:webp/1*Pi1hM2EinMg5dDPGkXFNgg.png)
La estilometría es el estudio cuantitativo del estilo literario a través del análisis computacional de textos. Se basa en la idea de que todos tenemos un estilo único, consistente y reconocible en nuestra escritura. Esto incluye nuestro vocabulario, nuestro uso de la puntuación, la longitud promedio de nuestras palabras y frases, y así sucesivamente.
Una aplicación típica de la estilometría es la atribución de autoría. Este es el proceso de identificar al autor de un documento, como cuando se investiga el plagio o se resuelven disputas sobre el origen de un documento histórico.
En este proyecto de Ciencia de Datos de Éxito Rápido, utilizaremos Python, seaborn y Natural Language Toolkit (NLTK) para ver si Sir Arthur Conan Doyle dejó una huella lingüística en su novela, El Mundo Perdido. Más específicamente, utilizaremos los punto y coma para determinar si Sir Arthur o su contemporáneo, H.G. Wells, es el autor probable del libro.
El Sabueso, La Guerra y El Mundo Perdido
Sir Arthur Conan Doyle (1859–1930) es más conocido por las historias de Sherlock Holmes. H. G. Wells (1866–1946) es famoso por varias novelas de ciencia ficción innovadoras, como El Hombre Invisible.
- Análisis de acordes de jazz con Transformers
- Principales artículos de Visión por Computadora durante la semana del 24/7 al 31/7
- 10 Mejores Herramientas de Intercambio de Caras de IA (Agosto 2023)
En 1912, la revista Strand publicó El Mundo Perdido, una versión serializada de una novela de ciencia ficción. Aunque se conoce al autor, vamos a suponer que está en disputa y que nuestro trabajo es resolver el misterio. Los expertos han reducido el campo a dos autores: Doyle y Wells. Wells tiene una ligera ventaja porque El Mundo Perdido es una obra de ciencia ficción e incluye trogloditas similares a los Morlocks en su libro de 1895, La Máquina del Tiempo.
Para resolver este problema, necesitaremos obras representativas de cada autor. Para Doyle, utilizaremos El Sabueso de los Baskerville, publicado en 1901. Para Wells, utilizaremos La Guerra de los Mundos, publicado en 1898.
Afortunadamente para nosotros, las tres novelas están en dominio público y están disponibles a través de Proyecto Gutenberg. Por conveniencia, las he descargado a este Gist y he eliminado la información de licencia.
El Proceso
La atribución de autoría requiere la aplicación del Procesamiento del Lenguaje Natural (NLP por sus siglas en inglés). NLP es un…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- API de Pronóstico Un Ejemplo con Django y Google Trends
- ChatGPT y la ingeniería avanzada de instrucciones impulsando la evolución de la IA
- Detecta cualquier cosa que desees con UniDetector
- Investigadores de la Universidad Nacional de Singapur proponen Mind-Video una nueva herramienta de IA que utiliza datos de fMRI del cerebro para recrear imágenes de video
- Investigadores de UT Austin y UC Berkeley presentan Ambient Diffusion un marco de inteligencia artificial para entrenar/ajustar modelos de difusión dados solo datos corruptos como entrada.
- Conoce a QLORA Un enfoque de ajuste eficiente que reduce el uso de memoria lo suficiente como para ajustar un modelo de 65B parámetros en una sola GPU de 48GB, preservando al mismo tiempo el rendimiento completo de la tarea de ajuste fino de 16 bits.
- LLMs superan al aprendizaje por refuerzo Conozca SPRING un innovador marco de trabajo de sugerencias para LLMs diseñado para permitir la planificación y el razonamiento en cadena de pensamiento en contexto.