Un nuovo studio pubblicato su PLOS dimostra che i modelli linguistici di grandi dimensioni (LLM), come GPT-4, stanno raggiungendo livelli di competenza simili a quelli degli esperti in oftalmologia. La ricerca, condotta da Arun James Thirunavukarasu e colleghi, ha confrontato le prestazioni di vari modelli di intelligenza artificiale con quelle di medici specializzati in oftalmologia e dottori in formazione.
Lo studio ha utilizzato 347 domande di oftalmologia per testare le abilità di GPT-3.5 e GPT-4, successivamente confrontate con le risposte di oftalmologi esperti e dottori in formazione. I risultati sono sorprendenti: GPT-4 ha ottenuto una percentuale di successo del 69%, superando di gran lunga GPT-3.5 (48%) e altri modelli come LLaMA (32%) e PaLM 2 (56%). Inoltre, GPT-4 ha dimostrato una performance paragonabile agli oftalmologi esperti, con una media del 76%.
Il team di ricercatori ha anche valutato la qualità delle risposte, analizzando la precisione e la rilevanza. Anche in questo caso, GPT-4 ha ottenuto un punteggio più alto rispetto a GPT-3.5. Gli oftalmologi coinvolti nello studio hanno preferito le risposte di GPT-4 rispetto a quelle di GPT-3.5, confermando la superiorità del modello più recente.
Questi risultati indicano che i modelli di intelligenza artificiale stanno diventando strumenti sempre più affidabili nell’ambito medico, in particolare in contesti con limitato accesso a professionisti qualificati. Tuttavia, gli autori dello studio sottolineano che, nonostante i progressi, è necessaria ulteriore ricerca prima che i modelli linguistici possano essere implementati in contesti clinici su vasta scala.
Questo studio apre le porte a nuove possibilità per l’uso dell’intelligenza artificiale in oftalmologia e suggerisce che i modelli linguistici grandi potrebbero essere strumenti preziosi per supportare i medici nella diagnosi e nel trattamento dei pazienti.