Google DeepMind ha annunciato oggi l’introduzione del Frontier Safety Framework, un insieme di protocolli progettati per identificare e mitigare proattivamente i rischi futuri associati alle capacità avanzate dei modelli di intelligenza artificiale (AI). Questa iniziativa nasce dalla consapevolezza che, mentre la tecnologia AI continua a evolversi, emergono anche nuovi rischi che potrebbero comportare danni significativi.
Il framework si concentra su rischi severi legati a capacità potenti a livello di modello, come un’agenzia eccezionale o capacità cibernetiche sofisticate. Questo approccio è complementare alla ricerca sull’allineamento dei modelli AI ai valori umani e agli obiettivi societari, e integra le pratiche di responsabilità e sicurezza già esistenti di Google.
La struttura del framework è articolata in tre componenti principali. Prima di tutto, identifica le capacità che un modello potrebbe avere e che potrebbero causare danni severi, definite come “Livelli di Capacità Critiche” (CCL). Successivamente, valuta periodicamente i modelli per rilevare quando raggiungono questi livelli critici tramite una serie di valutazioni di allerta precoce. Infine, applica un piano di mitigazione quando un modello supera queste valutazioni, bilanciando benefici e rischi e tenendo conto dei contesti di implementazione previsti.
Il framework iniziale si concentra su quattro domini di rischio: autonomia, biosicurezza, cybersicurezza e ricerca e sviluppo nell’apprendimento automatico. Google DeepMind prevede che le capacità dei futuri modelli di fondazione possano comportare rischi gravi in questi ambiti. La mitigazione si adatta ai vari livelli di capacità critiche, bilanciando la protezione contro l’esfiltrazione dei modelli e la gestione delle capacità critiche, pur mantenendo l’innovazione e l’accessibilità.
Il Frontier Safety Framework è un’iniziativa esplorativa e si prevede che evolverà con il progredire della ricerca e la collaborazione con l’industria, il mondo accademico e il governo. Google DeepMind spera che questa iniziativa contribuirà a stabilire standard e migliori pratiche per la valutazione della sicurezza delle future generazioni di modelli AI, rimanendo fedele ai principi di AI di Google, che promuovono benefici diffusi mitigando i rischi.