La IA médica de Google: éxito en laboratorio, fracaso en el hospital

Quien crea que la inteligencia artificial nos ayudará a abordar los casos de coronavirus debe saber que, por mucho que funcione en entornos de pruebas, deben ser entrenadas en condiciones reales para funcionar correctamente, como ha sucedido con el lanzamiento de este algoritmo para la retinopatía diabética

La pandemia de coronavirus (COVID-19) ha superado los recursos hospitalarios de muchos países del mundo. Así que no sorprende que haya quien confíe en la inteligencia artificial (IA) para acelerar la revisión de los enfermos y aliviar la presión sobre el personal clínico. Pero un estudio de Google Health, el primero en analizar el impacto de una herramienta de aprendizaje profundo en entornos clínicos reales, revela que incluso la IA más precisa podría empeorar la situación si no se adapta a los entornos clínicos concretos en los que trabajará.

Las reglas existentes para implementar la IA en entornos clínicos, como las normas para la aprobación de la Agencia de Medicamentos y Alimentación (FDA) en Estados Unidos o la marca CE en Europa, se centran principalmente en la precisión. No existen requisitos explícitos para demostrar que una IA mejore el resultado para los pacientes, en gran parte porque los ensayos aún no se han realizado. Pero eso tiene que cambiar, opina la investigadora de UX en Google Health Emma Beede: «Tenemos que entender cómo funcionarán las herramientas de IA para las personas en su contexto, especialmente en la atención médica, antes de su amplia implementación».

La primera oportunidad de Google para probar su herramienta en un entorno real tuvo lugar en Tailandia. El Ministerio de Sanidad del país había establecido un objetivo anual de revisar al 60 % de las personas con diabetes en busca de retinopatía diabética, que puede causar ceguera si no se detecta a tiempo. Pero con alrededor de 4,5 millones de pacientes y solo 200 especialistas en retina, las clínicas tienen dificultades en alcanzar ese objetivo. Google tiene el sello CE, que es válido en Tailandia, pero aún está esperando la aprobación de la FDA. Así que, para comprobar si la IA podría ayudar, Beede y sus colegas equiparon 11 clínicas en todo el país con un sistema de aprendizaje profundo entrenado para detectar signos de enfermedad ocular en pacientes con diabetes.

En el sistema de Tailandia, las enfermeras toman fotos de los ojos de los pacientes durante las revisiones y las envían para que un especialista las vea en otro lugar, un proceso que puede tardar hasta 10 semanas. La IA desarrollada por Google Health puede identificar signos de retinopatía diabética en una exploración ocular con más del 90 % de precisión, lo que el equipo considera un «nivel de especialista humano», y, en principio, dar un resultado en menos de 10 minutos. El sistema analiza las imágenes en busca de indicadores reveladores de la enfermedad, como los vasos sanguíneos bloqueados o dañados.

Suena impresionante. Pero una valoración de precisión realizada en laboratorio tiene sus limitaciones. No demuestra cómo funcionará la IA en medio del caos de un entorno del mundo real, y esto era lo que el equipo de Google Health quería descubrir. Durante varios meses observaron a enfermeras realizando escáneres oculares y les preguntaron por sus experiencias con el nuevo sistema. La respuesta no fue del todo positiva.

Cuando funcionaba bien, la IA aceleraba las cosas. Pero a veces no daba ningún resultado en absoluto. Como la mayoría de los sistemas de reconocimiento de imágenes, el modelo de aprendizaje profundo había sido entrenado con imágenes médicas de alta calidad. Para garantizar la precisión fue diseñado para rechazar las imágenes por debajo de un cierto umbral de calidad. Como las enfermeras escaneaban a docenas de pacientes por hora y, a menudo, tomaban las fotos en condiciones de poca luz, más de una quinta parte de las imágenes fueron rechazadas.

A los pacientes cuyas imágenes fueron rechazadas por el sistema se les decía que tendrían que visitar a un especialista en otra clínica otro día. Esto, obviamente, era un inconveniente si les resultaba difícil salir del trabajo o carecían de coche propio. Las enfermeras se sentían frustradas, especialmente cuando creían que los escaneos rechazados no mostraban signos de enfermedad y las citas de seguimiento eran innecesarias. A veces perdían el tiempo intentando volver a escanear o editar una imagen que la IA había rechazado.

Como el sistema tenía que subir las imágenes a la nube para poder procesarlas, las malas conexiones a internet en varias clínicas también causaron demoras. «Los pacientes quieren tener los resultados al momento, pero internet es lento y los pacientes se quejan», afirmó una enfermera. «Llevan esperando aquí desde las 6 de la mañana, y durante las primeras dos horas solo pudimos atender a 10 pacientes».

El equipo de Google Health ya está trabajando con el personal médico local para diseñar nuevos procesos de trabajo. Por ejemplo, las enfermeras podrían ser formadas para usar su propio juicio en casos poco claros. El modelo en sí también podría modificarse para manejar mejor las imágenes imperfectas.

Riesgo de rechazo

«Se trata de un estudio crucial para cualquier persona interesada en actuar e implementar soluciones de IA en entornos del mundo real», opina el investigador de la Universidad de Waterloo (Canadá) Hamid Tizhoosh, que se dedica a IA para imágenes médicas. Tizhoosh es muy crítico con lo que considera prisas por anunciar nuevas herramientas de IA en respuesta a COVID-19. En algunos casos, las herramientas se desarrollan y se lanzan modelos por parte de equipos sin experiencia en la atención médica, asegura. Él cree que el estudio de Google es un recordatorio muy oportuno de que conseguir precisión en laboratorio es solo el primer paso.

El oftalmólogo e informático de los Hospitales y Clínicas de la Universidad de Iowa (EE. UU.) Michael Abramoff lleva varios años desarrollando una IA para diagnosticar la enfermedad de la retina y es CEO de una start-up spin-off llamada IDx Technologies, que ha colaborado con IBM Watson. En el pasado, Abramoff había apoyado la idea de la aplicación de inteligencia artificial en la atención médica, pero también advierte contra las prisas, alertando de un posible rechazo si las personas tienen malas experiencias con la inteligencia artificial. El experto señala: «Me parece muy bien que Google demuestre su voluntad de analizar el proceso del trabajo real en las clínicas. Hay mucho más en la asistencia sanitaria que los algoritmos».

Abramoff también cree que es innecesario comparar las herramientas de IA con los especialistas humanos en lo que respecta a la precisión. Por supuesto, no queremos que una IA se equivoque. Pero los médicos humanos no están siempre de acuerdo entre ellos, destaca, y eso está bien. Un sistema de IA debe encajar en un proceso donde se discuten las fuentes de la incertidumbre en vez de simplemente rechazarlas.

Si lo lograra, los beneficios podrían ser enormes. Cuando funcionaba bien, Beede y sus colegas vieron cómo la IA ayudaba a las personas que eran buenas en su trabajo fueran aún mejores. Y concluye: «Hubo una enfermera que revisó a 1.000 pacientes ella sola, y con esta herramienta sería imparable. A los pacientes realmente no les importaba que fuera una IA interpretando sus imágenes en lugar de un médico humano. Les importaba más cómo sería su experiencia».

Fuente: technologyreview.es