No olvides los intervalos de confianza para tu producto de ML

No olvides considerar los intervalos de confianza para tu producto de aprendizaje automático

El Aprendizaje Automático nunca es 100% correcto. Por lo tanto, un modelo de ML solo es útil cuando los usuarios entienden la incertidumbre de las predicciones.

Casi todos los días descubrimos el lanzamiento de un nuevo producto, servicio o conjunto de datos de aprendizaje automático. Es la era de la inteligencia artificial y, sin embargo, rara vez alguno de estos productos informa cuánta confianza debe tener el usuario en los resultados. Sin embargo, como muestra la investigación, una buena toma de decisiones requiere conocimiento sobre cuándo confiar en la IA y cuándo no. De lo contrario, se llega a la situación común en la que los usuarios necesitan probar el modelo con frecuencia para comprender cuándo confiar y cuándo no confiar en ese modelo y descubrir si el producto ofrecido es útil para ellos.

La razón de este principio de prueba y error por parte del usuario es que cada modelo (no importa si se basa en ML o estadísticas) se construye sobre datos y su incertidumbre. Los datos subyacentes del modelo no representan la verdadera verdad fundamental de lo que se supone que el modelo debe predecir. De lo contrario, si esa verdad fundamental estuviera disponible, no se necesitaría un modelo en primer lugar. Por lo tanto, el modelo resultante solo proporcionará una estimación y no un valor de verdad.

En resumen, la corrección de los modelos de aprendizaje automático y estadística es incierta y no siempre se puede confiar en ellos.

Ejemplo: Predecir Movimientos entre Condados

Tomemos un ejemplo (Figura 1). Imagina un producto que te brinda la cantidad de personas que se trasladan de un país a otro. Por supuesto, existen datos (como los informes fiscales) que proporcionarán esa información, pero ¿esos datos realmente representan a toda la población de movimientos? ¿Cada estudiante, inmigrante o expatriado cambia su informe fiscal? No, es muy probable que ese no sea el caso. Por lo tanto, incluso un producto sencillo como proporcionar movimientos está sesgado hacia su muestra de datos subyacente (por ejemplo, informes fiscales de acceso público). Es fácil imaginar cómo pueden estar sesgados productos más sofisticados.

Para el aprendizaje automático, esta limitación empeora aún más simplemente debido a su naturaleza probabilística, las múltiples entradas y cada entrada que representa solo una pequeña parte de la población. Por lo tanto, el modelo subyacente estará sesgado hacia la mayoría de los casos descritos en los datos de entrenamiento y se alejará de…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de Microsoft proponen Síntesis Visual Responsable de Vocabulario Abierto (ORES) con el Marco de Intervención de Dos Etapas

Los modelos de síntesis visual pueden producir imágenes cada vez más realistas gracias al avance del entrenamiento de...

Inteligencia Artificial

Cómo los LLM basados en Transformer extraen conocimiento de sus parámetros

En los últimos años, los modelos de lenguaje basados en transformadores (LLMs, por sus siglas en inglés) se han vuelt...

Inteligencia Artificial

Gran noticia Google retrasa el lanzamiento del modelo de IA Gemini

En un desarrollo inesperado, Google ha decidido posponer el tan esperado lanzamiento de su avanzado modelo de intelig...