[dropcap color=”#000000″ style=”style-1″ background=”#ffffff” ] L[/dropcap]a prima revisione sistematica e meta-analisi nel suo genere scopre che l’intelligenza artificiale (AI) è altrettanto efficace nella diagnosi di una malattia basata su un’immagine medica come gli operatori sanitari. Tuttavia, sono necessari ulteriori studi di alta qualità.
In base alle conoscenze degli autori – vale a dire, un vasto team di ricercatori guidato dal professor Alastair Denniston del NHS Foundation Trust della University Hospitals di Birmingham nel Regno Unito – questa è la prima revisione sistematica che confronta le prestazioni dell’IA con i professionisti medici per tutte le malattie.
Il prof. Denniston e il suo team hanno approfondito la ricerca tra diversi database medici per tutti gli studi pubblicati tra il 1 ° gennaio 2012 e il 6 giugno 2019. Il team ha pubblicato uno studio in cui i ricercatori hanno messo a confronto l’efficacia diagnostica degli algoritmi di apprendimento profondo con quella degli operatori sanitari riguardo a una diagnosi basata sull’imaging medico.
In particolare hanno esaminato la qualità delle segnalazione diagnostiche in detti studi, il loro valore clinico e altri parametri quantitativi e qualitativi. Quando si è trattato di valutare le prestazioni diagnostiche dell’IA rispetto a quelle degli operatori sanitari, i ricercatori hanno esaminato due risultati: specificità e sensibilità. La ” sensibilità ” definisce la probabilità che uno strumento diagnostico ottenga un risultato positivo nell’individuare la malattia. La specificità si riferisce all’accuratezza del test diagnostico, che completa la misura di sensibilità.
Il processo di selezione ha prodotto solo 14 studi la cui qualità era abbastanza elevata da essere inclusa nell’analisi.
Il prof. Denniston spiega: “Abbiamo esaminato oltre 20.500 articoli, ma meno dell’1% di questi erano sufficientemente robusti nella progettazione e nei rapporti tale da consentire ai revisori indipendenti di avere un’alta fiducia nelle loro affermazioni”. “Inoltre, solo 25 studi hanno convalidato i modelli di intelligenza artificiale esternamente (utilizzando immagini mediche di una popolazione diversa) e solo 14 studi hanno confrontato le prestazioni di AI e professionisti della salute utilizzando lo stesso campione di test”.
Dunque all’interno di una serie limitata ma selezionata di studi di alta qualità “abbiamo scoperto che l’apprendimento profondo poteva effettivamente rilevare malattie che vanno dai tumori alle malattie degli occhi con la stessa precisione degli operatori sanitari. Ma è importante notare che l’IA non ha sostanzialmente superato la diagnosi umana”.
Prof. Alastair Denniston
Più specificamente, l’analisi ha rilevato che l’IA può diagnosticare correttamente la malattia nell’87% dei casi, mentre il rilevamento da parte degli operatori sanitari ha prodotto un tasso di accuratezza dell’86%. La specificità per gli algoritmi di apprendimento profondo è stata del 93%, rispetto a quella umana al 91%.
I pregiudizi possono esagerare le prestazioni dell’IA
Il Prof. Denniston e i suoi colleghi pongono l’accento sul fatto che negli studi che esaminano le prestazioni diagnostiche dell’IA a confronto con quelle umane la maggior parte degli studi esamina l’accuratezza diagnostica dell’intelligenza artificiale e degli operatori sanitari in un ambiente isolato che non imita la pratica clinica regolare, ad esempio privando i medici di ulteriori informazioni cliniche che di solito si verificano quando c’è bisogno di fare una diagnosi.
D’altro canto c’è da considerare il fatto che i ricercatori avvertono che la maggior parte degli studi ha confrontato solo i set di dati, mentre una ricerca di alta qualità nelle prestazioni dovrebbe tenere conto di altre variabili e tenere conto delle informazioni mancanti in vari set di dati. “La maggior parte degli studi non ha poi riferito se mancassero dati, quale proporzione di dati mancasse e come i dati mancanti sarebbero stati trattati nell’analisi. Un punto di debolezza è anche la mancanza di una soglia per l’analisi di sensibilità e specificità e la mancanza di convalida fuori dal campione. “Esiste una tensione intrinseca tra il desiderio di utilizzare nuovi strumenti diagnostici potenzialmente salvavita e l’imperativo di sviluppare prove di alta qualità in modo tale da favorire i pazienti e i sistemi sanitari nella pratica clinica”, commenta il primo autore Dr. Xiaoxuan Liu del Università di Birmingham. Negli studi sull’intelligenza artificiale – come in qualsiasi altra parte dell’assistenza sanitaria – è importante la progettazione delle ricerche. Senza di essa è possibile incorrere in distorsioni capaci di falsare i risultati dello studio sottolineando le buone prestazioni per l’IA in strumenti che non si traducono allo stesso modo nel mondo reale” ha aggiunto il ricercatore. Insomma cautela e, per ora, solo un orientamento di quello che potrebbe essere nei prossimi anni una realtà inoppugnabile. “Le prove su come gli algoritmi di intelligenza artificiale cambieranno i risultati dei pazienti devono provenire da confronti con test diagnostici alternativi in studi randomizzati e controllati” -conclude la coautrice Livia Faes del Moorfields Eye Hospital, Londra, Regno Unito – finora mancavano prove di questo tipo in cui le decisioni diagnostiche prese da un algoritmo di intelligenza artificiale venivano messe a confronto con quelle umane. Un medico però prende le decisioni che contano davvero per i pazienti in base agli studi e all’esperienza, intervenendo con un trattamento tempestivo, stabilendo poi il tempo di dimissione dall’ospedale o persino i tassi di sopravvivenza”.
*Medical Today
Revisione Paula Field