Desarrollando herramientas de IA confiables para la salud

IA confiable para la salud

Nueva investigación propone un sistema para determinar la precisión relativa de la IA predictiva en un entorno médico hipotético y cuándo el sistema debería recurrir a un clínico humano

La inteligencia artificial (IA) tiene un gran potencial para mejorar la forma en que las personas trabajan en diversas industrias. Sin embargo, para integrar herramientas de IA en el lugar de trabajo de manera segura y responsable, necesitamos desarrollar métodos más robustos para comprender cuándo pueden ser más útiles.

Entonces, ¿cuándo es más precisa la IA y cuándo lo es un humano? Esta pregunta es particularmente importante en el campo de la salud, donde la IA predictiva se utiliza cada vez más en tareas de alto riesgo para ayudar a los clínicos.

Hoy, en Nature Medicine, hemos publicado nuestro artículo conjunto con Google Research, que propone CoDoC (Flujo de trabajo clínico basado en la complementariedad), un sistema de IA que aprende cuándo confiar en herramientas de IA predictiva o recurrir a un clínico para obtener la interpretación más precisa de imágenes médicas.

CoDoC explora cómo podríamos aprovechar la colaboración entre humanos y AI en entornos médicos hipotéticos para obtener los mejores resultados. En un escenario de ejemplo, CoDoC redujo en un 25% el número de falsos positivos para un gran conjunto de datos de mamografías del Reino Unido, en comparación con los flujos de trabajo clínicos comúnmente utilizados, sin perder ningún verdadero positivo.

Este trabajo es una colaboración con varias organizaciones de salud, incluida la Oficina de Servicios de Proyectos de las Naciones Unidas, en asociación con Stop TB. Para ayudar a los investigadores a construir sobre nuestro trabajo y mejorar la transparencia y seguridad de los modelos de IA para el mundo real, también hemos abierto el código de CoDoC en GitHub.

CoDoC: Herramienta adicional para la colaboración humano-IA

La construcción de modelos de IA más confiables a menudo requiere la reingeniería de los complejos mecanismos internos de los modelos de IA predictiva. Sin embargo, para muchos proveedores de atención médica, simplemente no es posible rediseñar un modelo de IA predictiva. CoDoC puede ayudar potencialmente a mejorar las herramientas de IA predictiva para sus usuarios sin requerirles que modifiquen la propia herramienta de IA subyacente.

Cuando desarrollamos CoDoC, teníamos tres criterios:

Los expertos no especializados en aprendizaje automático, como los proveedores de atención médica, deben poder implementar el sistema y ejecutarlo en una sola computadora.
El entrenamiento requeriría una cantidad relativamente pequeña de datos, generalmente solo unos pocos cientos de ejemplos.
El sistema debería ser compatible con cualquier modelo de IA propietario y no necesitaría acceso a los mecanismos internos del modelo ni a los datos en los que se entrenó.

Determinar cuándo la IA predictiva o un clínico es más preciso

Con CoDoC, proponemos un sistema de IA simple y utilizable para mejorar la confiabilidad al ayudar a los sistemas de IA predictiva a “saber cuándo no saben”. Analizamos escenarios en los que un clínico podría tener acceso a una herramienta de IA diseñada para ayudar a interpretar una imagen, por ejemplo, examinar una radiografía de tórax para determinar si se necesita una prueba de tuberculosis.

Para cualquier configuración clínica teórica, el sistema de CoDoC requiere solo tres entradas para cada caso en el conjunto de datos de entrenamiento.

La IA predictiva genera una puntuación de confianza entre 0 (certeza de que no hay enfermedad presente) y 1 (certeza de que hay enfermedad presente).
La interpretación del clínico de la imagen médica.
La verdad fundamental de si había enfermedad presente, establecida, por ejemplo, mediante una biopsia u otro seguimiento clínico.

Nota: CoDoC no requiere acceso a ninguna imagen médica.

Diagrama que ilustra cómo se entrena CoDoC. Aquí, el modelo de IA predictiva existente permanece sin cambios.

CoDoC aprende a establecer la precisión relativa del modelo predictivo de IA en comparación con la interpretación de los clínicos, y cómo esa relación fluctúa con las puntuaciones de confianza de la IA predictiva.

Una vez entrenado, CoDoC podría insertarse en un flujo de trabajo clínico hipotético futuro que involucre tanto a una IA como a un clínico. Cuando un nuevo paciente es evaluado por el modelo predictivo de IA, su puntuación de confianza asociada se introduce en el sistema. Luego, CoDoC evalúa si aceptar la decisión de la IA o deferir a un clínico resultará en la interpretación más precisa en última instancia.

Diagrama que ilustra cómo CoDoC podría insertarse en un flujo de trabajo clínico hipotético.

Durante el entrenamiento, establecemos una 'función de ventaja' que optimiza la toma de decisiones de CoDoC. Una vez entrenado, favorece solo a la IA cuando el modelo es más preciso que el clínico (áreas verdes y rojas), y se basa en el clínico cuando el juicio humano es mejor que el de la IA (área gris). — Durante el entrenamiento, establecemos una ‘función de ventaja’ que optimiza la toma de decisiones de CoDoC. Una vez entrenado, favorece solo a la IA cuando el modelo es más preciso que el clínico (áreas verdes y rojas), y se basa en el clínico cuando el juicio humano es mejor que el de la IA (área gris).

Mayor precisión y eficiencia

Nuestras pruebas exhaustivas de CoDoC con múltiples conjuntos de datos del mundo real, incluidos solo datos históricos y desidentificados, han demostrado que combinar lo mejor de la experiencia humana y los resultados de la IA predictiva resulta en una mayor precisión que solo con uno de ellos.

Además de lograr una reducción del 25% en falsos positivos para un conjunto de datos de mamografía, en simulaciones hipotéticas en las que se permitía que la IA actuara autónomamente en ciertas ocasiones, CoDoC pudo reducir en dos tercios el número de casos que necesitaban ser revisados por un clínico. También mostramos cómo CoDoC podría mejorar hipotéticamente la triage de radiografías de tórax para pruebas posteriores de tuberculosis.

Desarrollo responsable de la IA para la atención médica

Aunque este trabajo es teórico, muestra el potencial de nuestro sistema de IA para adaptarse: CoDoC pudo mejorar el rendimiento en la interpretación de imágenes médicas en diferentes poblaciones demográficas, entornos clínicos, equipos de imágenes médicas utilizados y tipos de enfermedades.

CoDoC es un ejemplo prometedor de cómo podemos aprovechar los beneficios de la IA en combinación con las fortalezas y la experiencia humana. Estamos trabajando con socios externos para evaluar rigurosamente nuestra investigación y los beneficios potenciales del sistema. Para llevar tecnología como CoDoC de manera segura a entornos médicos del mundo real, los proveedores de atención médica y los fabricantes también deberán comprender cómo los clínicos interactúan de manera diferente con la IA, y validar sistemas con herramientas y configuraciones de IA médica específicas.

Más información sobre CoDoC:

Descargue el código de CoDoC en GitHub: http://github.com/deepmind/codoc

Lee nuestro artículo en Nature Medicine: https://www.nature.com/articles/s41591-023-02437-x%20

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Research

Was this article helpful?

93 out of 132 found this helpful

Desarrollando herramientas de IA confiables para la salud

Nueva investigación propone un sistema para determinar la precisión relativa de la IA predictiva en un entorno médico hipotético y cuándo el sistema debería recurrir a un clínico humano

CoDoC: Herramienta adicional para la colaboración humano-IA

Determinar cuándo la IA predictiva o un clínico es más preciso

Mayor precisión y eficiencia

Desarrollo responsable de la IA para la atención médica

Was this article helpful?

Este artículo de IA de Stanford y Google introduce agentes generativos agentes computacionales interactivos que simulan el comportamiento humano’.

Bard se estrena en Europa y Brasil en medio de preocupaciones sobre la privacidad y una competencia cada vez más intensa

Inteligencia Artificial

Presentación de Investigación de Google AI, Translatotron 3 Una arquitectura novedosa de traducción de voz a voz sin supervisión

ChatGPT responde incorrectamente a más de la mitad de las preguntas de ingeniería de software

¿Puede ser más rentable la segmentación de video? Conoce DEVA Un enfoque de segmentación de video desacoplado que ahorra en anotaciones y generaliza en múltiples tareas.

Detecta cualquier cosa que desees con UniDetector

5 Increíbles y Gratuitos LLMs Playgrounds que Necesitas Probar en 2023

¿Es ChatGPT realmente neutral? Un estudio empírico sobre el sesgo político en agentes conversacionales impulsados por IA