Un recente studio clinico randomizzato, pubblicato su JAMA Network Open, ha esplorato l’impatto dei modelli linguistici avanzati (LLM) sulle capacità diagnostiche dei medici. La ricerca ha coinvolto 50 medici di medicina generale, interna e d’urgenza, suddivisi in due gruppi: uno con accesso a un modello linguistico avanzato (ChatGPT Plus, GPT-4) e uno dotato solo di risorse convenzionali come UpToDate e Google.
I risultati hanno mostrato che l’uso degli LLM non ha migliorato in modo significativo la capacità diagnostica rispetto alle risorse tradizionali. Il punteggio medio di performance diagnostica è stato del 76% per il gruppo con LLM, contro il 74% del gruppo di controllo, con una differenza statistica non significativa. Tuttavia, l’LLM utilizzato autonomamente ha superato entrambi i gruppi, con una performance del 92%, suggerendo un potenziale ancora da sfruttare.
I partecipanti che hanno utilizzato il modello linguistico hanno risolto i casi in meno tempo, anche se la riduzione non è risultata statisticamente rilevante. Secondo i ricercatori, la difficoltà di integrare efficacemente l’intelligenza artificiale nella pratica clinica e la mancanza di formazione specifica rimangono ostacoli critici.
Questo studio mette in evidenza il bisogno di ulteriori sviluppi tecnologici e formativi per rendere l’IA un alleato affidabile nella diagnosi medica. Come evidenziato dai dati, l’IA da sola sembra promettere risultati migliori, ma la collaborazione uomo-macchina necessita di un’integrazione più fluida per migliorare effettivamente l’assistenza ai pazienti.