CountVectorizer para extraer características de textos en Python, en detalle
CountVectorizer para extraer características detalladas de textos en Python
Todo lo que necesitas saber para utilizar CountVectorizer de manera eficiente en Sklearn
El procesamiento de datos más básico que cualquier proyecto de Procesamiento de Lenguaje Natural (PLN) requiere es convertir los datos de texto en datos numéricos. Mientras los datos estén en forma de texto no podemos realizar ninguna acción de computación sobre ellos.
Existen múltiples métodos disponibles para esta conversión de datos de texto a números. Este tutorial explicará uno de los vectorizadores más básicos, el método CountVectorizer de la biblioteca scikit-learn.
Este método es muy simple. Toma la frecuencia de aparición de cada palabra como valor numérico. Un ejemplo lo aclarará.
En el siguiente bloque de código:
- ¡Oh, ¿Querías decir Gestionar el cambio?
- El Lado No Contado de RAG Abordando sus Desafíos en Búsquedas Específicas de Dominio
- Comprendiendo la retención con Gradio
- Importaremos el método CountVectorizer.
- Llamaremos al método.
- Ajustaremos los datos de texto al método CountVectorizer y los convertiremos en un arreglo.
import pandas as pd from sklearn.feature_extraction.text import CountVectorizer #Este es el texto que se va a vectorizartext = ["¡Hola a todos! Soy Lilly. Mi tía también se llama Lilly. Amo a mi tía.\ Estoy tratando de aprender cómo usar el vectorizador de frecuencia."]cv= CountVectorizer() count_matrix = cv.fit_transform(text)cnt_arr = count_matrix.toarray()cnt_arr
Resultado:
array([[1, 1, 2, 1, 1, 1, 1, 2, 1, 2, 1, 2, 1, 1, 2, 1, 1, 1]], dtype=int64)
Aquí tengo los valores numéricos que representan los datos de texto anteriores.
¿Cómo sabemos qué valores representan qué palabras en el texto?
Para aclarar eso, será útil convertir el arreglo en un DataFrame donde los nombres de las columnas sean las propias palabras.
cnt_df = pd.DataFrame(data = cnt_arr, columns = cv.get_feature_names())cnt_df
Ahora, se muestra con claridad. El valor de la palabra ‘también’ es 1, lo que significa que ‘también’ apareció solo una vez en la prueba. La palabra ‘tía’ apareció dos veces en el texto. Entonces, el valor de la palabra ‘tía’ es 2.
En el último ejemplo, todas las oraciones estaban en una sola cadena. Por lo tanto, obtuvimos solo una fila de datos para las cuatro oraciones. Rearreglemos el texto y…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Reformando la memoria del modelo sin necesidad de volver a entrenarlo
- QLoRA Entrenando un Modelo de Lenguaje Grande en una GPU de 16GB.
- Objetivo De la pesadilla de Metaverso al éxito de la IA
- Integrando la IA generativa y el aprendizaje por refuerzo para el auto-mejoramiento
- 10 Mejores Herramientas de Administrador de Contraseñas (Octubre 2023)
- Gobernando el ciclo de vida de ML a gran escala, Parte 1 Un marco para arquitecturar cargas de trabajo de ML utilizando Amazon SageMaker
- Investigadores de KAIST proponen SyncDiffusion un módulo plug-and-play que sincroniza múltiples difusiones a través del descenso del gradiente desde una pérdida de similitud perceptual.