Modelos de aprendizaje automático aplicados al diagnóstico de COVID-19

13 de julio post aprendizaje automático Un equipo de investigadores, dirigido por la Universidad de Cambridge, llevó a cabo una revisión de escritos científicos, publicados entre el 1 de enero y el 3 de octubre de 2020, describiendo modelos de aprendizaje automático (usando técnicas de Deep Learning y las más tradicionales de Machine Learning) capaces, teóricamente, de diagnosticar o pronosticar el Covid-19 a partir de radiografías de tórax (CXR) y tomografías computarizadas (TC). Se basaron en 2.212 escritos que inicialmente satisfacían sus criterios de búsqueda, pasando solamente 62 trabajos sus criterios de corte. Todos ellos fueron revisados por cinco equipos de dos revisores cada uno (en caso de conflicto, se solucionaba por consenso de los diez revisores).

Un buen sistema asistido por ordenador podría, entre otras características, ayudar al diagnóstico en países donde RT-PCR (herramienta para el diagnóstico del COVID-19) no estuviera disponible, o en casos en los que el test diera negativo, siendo la radiografía del tórax (CXR) más sensible a la detección de la enfermedad.
El resultado del estudio, publicado online el 15 de marzo del 2021, fue demoledor; ninguno de los trabajos podría ser considerado adecuado como herramienta de diagnóstico para la práctica clínica por errores en la metodología y/o sesgos internos [1].

Los autores enumeraron los errores transformándolos en recomendaciones para futuros trabajos en este campo.

“En los primeros días de la pandemia, había tanto deseo de información que, sin duda, algunas publicaciones se apresuraron”, según James H.F. Rudd [2].

"Sin embargo, cualquier algoritmo de aprendizaje automático es tan bueno como los datos con los que está entrenado", dijo el primer autor, el Dr. Michael Roberts, del Departamento de Matemáticas Aplicadas y Física Teórica de Cambridge. “Especialmente para una enfermedad nueva como Covid-19, es vital que los datos de entrenamiento sean lo más diversos posible porque, como hemos visto a lo largo de esta pandemia, hay muchos factores diferentes que afectan al aspecto de la enfermedad y cómo se manifiesta y se comporta" [2].

Así muchos de los fallos fueron a consecuencia de los conjuntos de datos utilizados para el entrenamiento de los modelos.

La mayoría no especificaron bien de dónde procedían sus datos. Algunos utilizaron un grupo pequeño de pacientes (de un mismo hospital) otros utilizaron conjuntos disponibles públicamente de dudosa calidad, y también habían casos en que mezclaban datos pediátricos con datos de adultos. Unos 33 estudios utilizaron datos privados (principalmente originarios de China, así como de Francia, Irán, Estados Unidos, Bélgica, Brasil, Hong Kong y los Países Bajos) y otros tantos utilizaron solo datos públicos.

Hay que tener en cuenta que un conjunto de datos pequeño puede no ser representativo de lo que sucede en una población más heterogénea. El porcentaje de positivos en el conjunto de pacientes de un hospital puede no ser representativo.

Utilizando datos públicos como única fuente de entrenamiento también puede traer algunos problemas. Muchos generadores de estos datos los pueden subir a diferentes repositorios. Al integrar varios de ellos en un estudio se podría alimentar el modelo con datos duplicados. Además, se encuentran imágenes pre-procesadas, en formatos de compresión donde parte de los metadatos son eliminados (éstos podrían ser útiles para conocer, por ejemplo, qué aparato radiológico fue utilizado), recortadas, centradas en un solo punto o con problemas de compatibilidad. También encontramos muchas de las imágenes disponibles públicamente con una baja resolución, afectando el resultado cuando se utilizan técnicas tradicionales de Machine Learning. Además, hay que tener en cuenta que los datos públicos no nos permiten saber si un paciente tuvo realmente la enfermedad o cuánto tiempo pasó entre que dio positivo y se originó la imagen. Igualmente aparecen los llamados 'conjuntos de datos de Frankenstein', datos agregados procedentes de diferentes conjuntos de datos públicos y redistribuidos con un nuevo nombre.

Otro error, sesgo, fue introducir para el entrenamiento imágenes procedentes de niños, menos propensos a contraer el virus. Por lo tanto estos datos estarían clasificados como “no covid-19” en su mayoría, pudiendo transformar el modelo en un clasificador de niño/adulto en lugar del objetivo perseguido como detector de la enfermedad.

Otro problema podría aparecer si se extraen muchas imágenes de estudios específicos donde se muestran únicamente casos raros. Al entrenar con estos datos el modelo podría interferir en la clasificación ya que estos casos tampoco son representativos de los que aparecen en la población general.

Recomendaciones futuras

Se podrían extraer, del estudio, algunas de las recomendaciones siguientes:

• Se recomienda que en los trabajos se muestren los criterios, los conjuntos de datos –anonimizados– el código e incluso la versión del código utilizada durante el estudio. Facilitando así que se pueda replicar el estudio para su verificación.

• Utilizar el mayor número de datos, en formatos obtenidos directamente de los aparatos radiológicos –en formato DICOM– manteniendo los metadatos nos dará unos resultados más fiables y representativos. También se tendrían que considerar otros factores como, por ejemplo, si una radiografía de tórax ha sido realizada de forma anterior-posterior en lugar de la estándar posterior-anterior que puede indicar que el paciente tiene dolencias, y poca movilidad, derivadas de la enfermedad.

• Trabajar con alguien del dominio sanitario es esencial para validar los resultados. Otro defecto generalizado en muchos de los estudios fue la falta de participación de radiólogos y médicos. “Es muy importante asegurarse de que los diferentes especialistas trabajen juntos y hablen el mismo idioma, para poder enfocar los problemas”, Roberts [2].

• Se tendría que hacer un estudio demográfico de la población que compone el conjunto de datos (incluyendo distribuciones por edad, sexo, etc.).

• Hay que utilizar con precaución los repositorios públicos de datos ya que pueden acarrear los riesgos mencionados anteriormente. Se pueden utilizar imágenes de la época pre-pandemia para observar cómo funciona nuestro modelo. Se tendrían que comparar los resultados no únicamente con los resultados de las PCR sino con mapas de afectación de la población.

• El trabajo tendría que informar de qué características de los datos influyen en el modelo de predicción, qué región de las imágenes influyen en la predicción, enlazar los factores biológicos que pueden estar implicados, identificar caminos que siguen en la evolución algunos grupos de pacientes...

• El escrito ha de detallar quçe proceso se utiliza para calcular de forma aleatoria los conjuntos de datos de entrenamiento, validación y testeo. También se han de explicar los pasos para el pre-proceso de los datos (recorte, normalización, escalado).

A pesar de los resultados negativos de este estudio, enfocado a trabajos publicados al inicio de la pandemia, se tendrían que ver los resultados que obtendrían validaciones de trabajos más actuales.

Referencias

[1]Roberts, M., Driggs, D., Thorpe, M. et al. Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans. Nat Mach Intell 3, 199–217 (2021). https://doi.org/10.1038/s42256-021-00307-0

[2] Machine learning for Covid-19 diagnosis: promising, but still too flawed. (2021, 17 marzo). Healthcare-in-Europe.Com. https://healthcare-in-europe.com/en/news/machine-learning-for-covid-19-diagnosis-promising-but-still-too-flawed.html