CountVectorizer para extraer características de textos en Python, en detalle

CountVectorizer para extraer características detalladas de textos en Python

Todo lo que necesitas saber para utilizar CountVectorizer de manera eficiente en Sklearn

El procesamiento de datos más básico que cualquier proyecto de Procesamiento de Lenguaje Natural (PLN) requiere es convertir los datos de texto en datos numéricos. Mientras los datos estén en forma de texto no podemos realizar ninguna acción de computación sobre ellos.

Existen múltiples métodos disponibles para esta conversión de datos de texto a números. Este tutorial explicará uno de los vectorizadores más básicos, el método CountVectorizer de la biblioteca scikit-learn.

Este método es muy simple. Toma la frecuencia de aparición de cada palabra como valor numérico. Un ejemplo lo aclarará.

En el siguiente bloque de código:

Importaremos el método CountVectorizer.
Llamaremos al método.
Ajustaremos los datos de texto al método CountVectorizer y los convertiremos en un arreglo.

import pandas as pd from sklearn.feature_extraction.text import CountVectorizer #Este es el texto que se va a vectorizartext = ["¡Hola a todos! Soy Lilly. Mi tía también se llama Lilly. Amo a mi tía.\        Estoy tratando de aprender cómo usar el vectorizador de frecuencia."]cv= CountVectorizer() count_matrix = cv.fit_transform(text)cnt_arr = count_matrix.toarray()cnt_arr

Resultado:

array([[1, 1, 2, 1, 1, 1, 1, 2, 1, 2, 1, 2, 1, 1, 2, 1, 1, 1]],      dtype=int64)

Aquí tengo los valores numéricos que representan los datos de texto anteriores.

¿Cómo sabemos qué valores representan qué palabras en el texto?

Para aclarar eso, será útil convertir el arreglo en un DataFrame donde los nombres de las columnas sean las propias palabras.

cnt_df = pd.DataFrame(data = cnt_arr, columns = cv.get_feature_names())cnt_df

Ahora, se muestra con claridad. El valor de la palabra ‘también’ es 1, lo que significa que ‘también’ apareció solo una vez en la prueba. La palabra ‘tía’ apareció dos veces en el texto. Entonces, el valor de la palabra ‘tía’ es 2.

En el último ejemplo, todas las oraciones estaban en una sola cadena. Por lo tanto, obtuvimos solo una fila de datos para las cuatro oraciones. Rearreglemos el texto y…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

CountVectorizer para extraer características de textos en Python, en detalle

Todo lo que necesitas saber para utilizar CountVectorizer de manera eficiente en Sklearn

Was this article helpful?

Comprendiendo la retención con Gradio

Python para Ingenieros de Datos

Inteligencia Artificial

La incorporación del smartphone podría aumentar la equidad racial en la detección neurológica

Papel de los Contratos de Datos en la Canalización de Datos

¿Te sientes arriesgado al entrenar tu modelo de lenguaje con datos restringidos? Conoce a SILO Un nuevo modelo de lenguaje que gestiona los compromisos entre riesgo y rendimiento durante la inferencia.

Hacia la IA General el papel de LLMs y Modelos Fundamentales en la Revolución del Aprendizaje de por Vida

Conoce GPTCache una biblioteca para desarrollar una caché semántica de consultas LLM.

Douglas Lenat, quien intentó hacer que la inteligencia artificial fuera más humana, fallece a los 72 años