CountVectorizer para extraer características de textos en Python, en detalle

CountVectorizer para extraer características detalladas de textos en Python

Foto de Towfiqu barbhuiya en Unsplash

Todo lo que necesitas saber para utilizar CountVectorizer de manera eficiente en Sklearn

El procesamiento de datos más básico que cualquier proyecto de Procesamiento de Lenguaje Natural (PLN) requiere es convertir los datos de texto en datos numéricos. Mientras los datos estén en forma de texto no podemos realizar ninguna acción de computación sobre ellos.

Existen múltiples métodos disponibles para esta conversión de datos de texto a números. Este tutorial explicará uno de los vectorizadores más básicos, el método CountVectorizer de la biblioteca scikit-learn.

Este método es muy simple. Toma la frecuencia de aparición de cada palabra como valor numérico. Un ejemplo lo aclarará.

En el siguiente bloque de código:

  • Importaremos el método CountVectorizer.
  • Llamaremos al método.
  • Ajustaremos los datos de texto al método CountVectorizer y los convertiremos en un arreglo.
import pandas as pd from sklearn.feature_extraction.text import CountVectorizer #Este es el texto que se va a vectorizartext = ["¡Hola a todos! Soy Lilly. Mi tía también se llama Lilly. Amo a mi tía.\        Estoy tratando de aprender cómo usar el vectorizador de frecuencia."]cv= CountVectorizer() count_matrix = cv.fit_transform(text)cnt_arr = count_matrix.toarray()cnt_arr

Resultado:

array([[1, 1, 2, 1, 1, 1, 1, 2, 1, 2, 1, 2, 1, 1, 2, 1, 1, 1]],      dtype=int64)

Aquí tengo los valores numéricos que representan los datos de texto anteriores.

¿Cómo sabemos qué valores representan qué palabras en el texto?

Para aclarar eso, será útil convertir el arreglo en un DataFrame donde los nombres de las columnas sean las propias palabras.

cnt_df = pd.DataFrame(data = cnt_arr, columns = cv.get_feature_names())cnt_df

Ahora, se muestra con claridad. El valor de la palabra ‘también’ es 1, lo que significa que ‘también’ apareció solo una vez en la prueba. La palabra ‘tía’ apareció dos veces en el texto. Entonces, el valor de la palabra ‘tía’ es 2.

En el último ejemplo, todas las oraciones estaban en una sola cadena. Por lo tanto, obtuvimos solo una fila de datos para las cuatro oraciones. Rearreglemos el texto y…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La incorporación del smartphone podría aumentar la equidad racial en la detección neurológica

Un nuevo accesorio para teléfonos inteligentes podría ser utilizado para realizar pruebas neurológicas de bajo costo,...

Inteligencia Artificial

Papel de los Contratos de Datos en la Canalización de Datos

¿Qué son los Contratos de Datos? Un contrato de datos es un acuerdo o conjunto de reglas que define cómo debe estruct...

Inteligencia Artificial

Hacia la IA General el papel de LLMs y Modelos Fundamentales en la Revolución del Aprendizaje de por Vida

En la última década y especialmente con el éxito del aprendizaje profundo, se ha formado una discusión continua en to...

Inteligencia Artificial

Conoce GPTCache una biblioteca para desarrollar una caché semántica de consultas LLM.

ChatGPT y los modelos de lenguaje grandes (LLMs) son extremadamente flexibles, lo que permite la creación de numeroso...

Inteligencia Artificial

Douglas Lenat, quien intentó hacer que la inteligencia artificial fuera más humana, fallece a los 72 años

Pasó décadas trabajando en inteligencia artificial, esforzándose por crear computadoras que pudieran replicar el sent...