¿Tu conjunto de datos tiene valores faltantes? ¡No hagas nada!
¿Tu conjunto de datos tiene valores faltantes? ¡No te preocupes!
Los modelos pueden manipular valores faltantes de manera más efectiva de forma nativa que los métodos de imputación. Una prueba empírica
Los valores faltantes son muy comunes en conjuntos de datos reales. A lo largo del tiempo, se han propuesto muchos métodos para lidiar con este problema. Por lo general, consisten en eliminar datos que contienen valores faltantes o en imputarlos con algunas técnicas.
En este artículo, probaré una tercera alternativa:
No hacer nada.
De hecho, los mejores modelos para conjuntos de datos tabulares (es decir, XGBoost, LightGBM y CatBoost) pueden manipular nativamente los valores faltantes. Entonces, la pregunta que intentaré responder es:
- Preguntas visuales y respuestas con modelos de lenguaje grandes congelados
- De-codificado Transformers explicados en un lenguaje sencillo
- Revisión de Lovo.ai ¿El mejor generador de voz AI en octubre de 2023?
¿Estos modelos pueden manejar valores faltantes de manera efectiva, o obtendríamos un mejor resultado con una imputación preliminar?
¿Quién dijo que debemos preocuparnos por los nulos?
Parece haber una creencia generalizada de que debemos hacer algo con los valores faltantes. Por ejemplo, le pregunté a ChatGPT qué debería hacer si mi conjunto de datos contiene valores faltantes, y sugirió 10 formas diferentes de deshacerse de ellos (puedes leer la respuesta completa aquí).
Pero, ¿de dónde proviene esta creencia?
Por lo general, este tipo de opiniones provienen de modelos históricos, especialmente de la regresión lineal. Este también es el caso. Veamos por qué.
Supongamos que tenemos este conjunto de datos:
Si intentamos entrenar una regresión lineal con estas características, obtendríamos un error. De hecho, para poder hacer predicciones, la regresión lineal necesita multiplicar cada característica por un coeficiente numérico. Si una o más características están ausentes, es imposible hacer una predicción para esa fila.
Por eso se han propuesto muchos métodos de imputación. Por ejemplo, una de las posibilidades más simples es reemplazar los nulos con la media de la característica.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Tu propia LLaMa personal
- Salesforce Einstein Construye tus relaciones con los clientes, la IA ayuda a mantenerlas automáticamente.
- IA generativa en la mira la batalla de los CISOs por la ciberseguridad
- IA y software de código abierto ¿Separados al nacer?
- Mejorando los Modelos de Lenguaje con Indicaciones Analógicas para Mejorar el Razonamiento
- Cómo construir tu primer agente de IA con LangChain y OpenAI GPT.
- Investigadores de la Universidad Northwestern desarrollaron el primer sistema de inteligencia artificial (IA) hasta la fecha que puede diseñar robots inteligentemente desde cero