¿Tu conjunto de datos tiene valores faltantes? ¡No hagas nada!

¿Tu conjunto de datos tiene valores faltantes? ¡No te preocupes!

Los modelos pueden manipular valores faltantes de manera más efectiva de forma nativa que los métodos de imputación. Una prueba empírica

[Imagen por Autor]

Los valores faltantes son muy comunes en conjuntos de datos reales. A lo largo del tiempo, se han propuesto muchos métodos para lidiar con este problema. Por lo general, consisten en eliminar datos que contienen valores faltantes o en imputarlos con algunas técnicas.

En este artículo, probaré una tercera alternativa:

No hacer nada.

De hecho, los mejores modelos para conjuntos de datos tabulares (es decir, XGBoost, LightGBM y CatBoost) pueden manipular nativamente los valores faltantes. Entonces, la pregunta que intentaré responder es:

¿Estos modelos pueden manejar valores faltantes de manera efectiva, o obtendríamos un mejor resultado con una imputación preliminar?

¿Quién dijo que debemos preocuparnos por los nulos?

Parece haber una creencia generalizada de que debemos hacer algo con los valores faltantes. Por ejemplo, le pregunté a ChatGPT qué debería hacer si mi conjunto de datos contiene valores faltantes, y sugirió 10 formas diferentes de deshacerse de ellos (puedes leer la respuesta completa aquí).

Pero, ¿de dónde proviene esta creencia?

Por lo general, este tipo de opiniones provienen de modelos históricos, especialmente de la regresión lineal. Este también es el caso. Veamos por qué.

Supongamos que tenemos este conjunto de datos:

Un conjunto de datos con valores faltantes. [Imagen por Autor]

Si intentamos entrenar una regresión lineal con estas características, obtendríamos un error. De hecho, para poder hacer predicciones, la regresión lineal necesita multiplicar cada característica por un coeficiente numérico. Si una o más características están ausentes, es imposible hacer una predicción para esa fila.

Por eso se han propuesto muchos métodos de imputación. Por ejemplo, una de las posibilidades más simples es reemplazar los nulos con la media de la característica.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce AnyLoc El último método universal para el reconocimiento visual de lugares (VPR)

A medida que el campo de la Inteligencia Artificial avanza constantemente, ha encontrado su camino en numerosos casos...

Noticias de Inteligencia Artificial

Productores de alimentos se unen frente a amenazas cibernéticas.

Los ejecutivos de empresas de alimentos y agricultura de EE. UU. dicen que están formalizando colaborativamente el in...

Inteligencia Artificial

¿Por qué los humanos temen a la inteligencia artificial AI?

El ritmo de innovación en la Inteligencia Artificial (IA) es asombroso. La IA es ahora la fuerza impulsora detrás de ...

Inteligencia Artificial

Google AI presenta STUDY Un sistema recomendador consciente socialmente y causal-temporal para audiolibros en un entorno educativo

La lectura beneficia enormemente a los estudiantes jóvenes, desde una mejora en las habilidades lingüísticas y de vid...