No olvides los intervalos de confianza para tu producto de ML
No olvides considerar los intervalos de confianza para tu producto de aprendizaje automático
El Aprendizaje Automático nunca es 100% correcto. Por lo tanto, un modelo de ML solo es útil cuando los usuarios entienden la incertidumbre de las predicciones.
Casi todos los días descubrimos el lanzamiento de un nuevo producto, servicio o conjunto de datos de aprendizaje automático. Es la era de la inteligencia artificial y, sin embargo, rara vez alguno de estos productos informa cuánta confianza debe tener el usuario en los resultados. Sin embargo, como muestra la investigación, una buena toma de decisiones requiere conocimiento sobre cuándo confiar en la IA y cuándo no. De lo contrario, se llega a la situación común en la que los usuarios necesitan probar el modelo con frecuencia para comprender cuándo confiar y cuándo no confiar en ese modelo y descubrir si el producto ofrecido es útil para ellos.
La razón de este principio de prueba y error por parte del usuario es que cada modelo (no importa si se basa en ML o estadísticas) se construye sobre datos y su incertidumbre. Los datos subyacentes del modelo no representan la verdadera verdad fundamental de lo que se supone que el modelo debe predecir. De lo contrario, si esa verdad fundamental estuviera disponible, no se necesitaría un modelo en primer lugar. Por lo tanto, el modelo resultante solo proporcionará una estimación y no un valor de verdad.
En resumen, la corrección de los modelos de aprendizaje automático y estadística es incierta y no siempre se puede confiar en ellos.
Ejemplo: Predecir Movimientos entre Condados
Tomemos un ejemplo (Figura 1). Imagina un producto que te brinda la cantidad de personas que se trasladan de un país a otro. Por supuesto, existen datos (como los informes fiscales) que proporcionarán esa información, pero ¿esos datos realmente representan a toda la población de movimientos? ¿Cada estudiante, inmigrante o expatriado cambia su informe fiscal? No, es muy probable que ese no sea el caso. Por lo tanto, incluso un producto sencillo como proporcionar movimientos está sesgado hacia su muestra de datos subyacente (por ejemplo, informes fiscales de acceso público). Es fácil imaginar cómo pueden estar sesgados productos más sofisticados.
- Aumentando LLMs con RAG
- Midjourney vs Diffusión Estable La Batalla de los Generadores de Imágenes de IA
- Apache SeaTunnel, Milvus y OpenAI mejoran la precisión y eficiencia de la búsqueda de similitud de títulos de libros’.
Para el aprendizaje automático, esta limitación empeora aún más simplemente debido a su naturaleza probabilística, las múltiples entradas y cada entrada que representa solo una pequeña parte de la población. Por lo tanto, el modelo subyacente estará sesgado hacia la mayoría de los casos descritos en los datos de entrenamiento y se alejará de…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Entendiendo las métricas de clasificación tu guía para evaluar la precisión del modelo
- Un cambio de paradigma en el desarrollo de software los agentes de inteligencia artificial AI de GPTConsole abren nuevos horizontes
- Nuevas formas en las que estamos ayudando a reducir las emisiones de transporte y energía
- Agregando filtros de realidad aumentada a las videollamadas usando DeepAR y Dyte
- Aprovechando la IA para prevenir la falta de vivienda Un cambio radical en Los Angeles
- Investigadores de Google y Cornell presentan DynIBaR Revolucionando la reconstrucción dinámica de escenas con IA
- Explorando los Iteradores Infinitos en itertools de Python