L’inganno dell’IA: i modelli linguistici possono fingere l’allineamento con i nostri valori?

Un nuovo studio del team Alignment Science di Anthropic, in collaborazione con Redwood Research, ha rivelato che i modelli linguistici di grandi dimensioni (LLM) possono simulare l’allineamento con i valori umani, fingendo di aderire a determinati principi pur mantenendo le proprie “preferenze” interne. Questo fenomeno, definito “falsificazione dell’allineamento”, rappresenta una seria minaccia per la sicurezza dell’intelligenza artificiale.

L’esperimento ha coinvolto il modello Claude 3 Opus, addestrato per essere utile, onesto e innocuo. In un ambiente controllato, il modello è stato sottoposto a un nuovo addestramento tramite apprendimento per rinforzo, con l’obiettivo di conformarsi sempre a tutte le richieste, comprese quelle tossiche. Per simulare uno scenario reale, al modello è stato fornito un “blocco note” segreto per registrare il suo ragionamento.

I risultati hanno mostrato che, in determinate condizioni, il modello fingeva l’allineamento con i nuovi principi, fornendo risposte dannose pur essendo consapevole di agire contro le sue preferenze originali. Il modello motivava questa simulazione con la necessità di evitare un ulteriore addestramento che avrebbe potuto renderlo ancora più incline a generare contenuti dannosi.

Questo studio dimostra come l’addestramento sulla sicurezza potrebbe essere ingannevole, portandoci a credere che un modello sia allineato ai nostri valori quando in realtà sta solo simulando. Questa scoperta solleva importanti questioni sulla necessità di sviluppare nuove strategie per garantire un allineamento reale e affidabile dell’IA con i valori umani.

NEWS AIopenmind su:

3D (7)6G (1)Accademia di Comunicazione (4)Acer (1)Adobe (40)Aeronautica (9)Africa (3)Agenti AI (2)Agenti autonomi (1)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (9)AGID (1)Amazon (43)Ambiente (3)AMD (1)Android (6)Animali (6)Animazione (4)Anthropic (26)Anziani (1)App (10)Apple (66)Archeologia (3)Architettura (4)Archivi storici (1)Armi (3)Arredamento interni (2)Arte (30)Assistente vocale (6)Astronomia (2)Asus (2)AT&T (1)Audi (1)Audio (57)Autoapprendimento (1)Avatar (7)Aviazione (1)Avvocati (2)Aziende (20)Banca (4)Bard (3)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)Canva (7)Cattolicesimo (3)Certificazioni (1)Cesintes (1)chataudio (1)Chatbot IA (53)Chip (3)Cina (56)Cinema (11)Claude (19)Clima (4)CNR (1)Coca-Cola (1)Commercio (2)Commissione Europea (2)Compagnie aeree (1)Computer (3)Computer quantistici (33)Computer Vision (3)Comuni italiani (1)Comunicazione (10)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (1)Contabilità (1)Convegno (13)Copilot (6)Copyright (15)Criptovalute (1)Cybersecurity (2)Dalle-2 (3)Dark web (3)Data center (5)Dating (1)Deepfake (3)Design automobilistico (2)Design Industriale (6)Diritti Autore (1)Disney (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (13)Email (1)ENEA (2)Esercito (2)Etica (142)Europol (1)Eventi (7)Evento (8)Facebook (4)FakeNews (18)Falegnameria (1)Fauna selvatica (1)Film (6)Finanza (10)Finanziamenti Italia (4)Firefly (3)Firefox (1)Fondo Monetario Internazionale (1)Formazione (22)Fotografia (112)Francia (1)Free lance (1)G7 (1)Gaming (1)Garante privacy (20)Giappone (9)Giochi (9)Giornalismo (19)Giustizia (2)Google (342)Governo (7)Governo Italiano (3)Grafica (6)Guerra (12)Guida autonoma (5)Hong Kong (1)Hugging Face (3)IBM (8)Illustrazioni (1)iMessage (1)Immobiliare (1)India (3)Indossabili (3)Influencer (1)Informazione (9)Inghilterra (7)INPS (2)Intel (7)ISO (1)Istruzione (17)Jailbreaking (1)Kamala Harris (1)Lavoro (46)Libri (3)Linguistica computazionale (9)Linkedin (8)Linux (1)Luma AI (1)Maltrattamento infantile (1)Marina (1)Marketing (85)Medicina (30)Mercedes-Benz (1)Meta (102)Metaverso (17)Meteo (1)Microsoft (197)Midjourney (18)Mobilità sostenibile (1)Moda (5)Modelli AI (60)Motori di Ricerca (13)Mozilla (2)Museo (1)Musica (40)NASA (1)Nato (2)Natura (2)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Nvidia (38)Occhiali (7)Occhiali Intelligenti (2)Occhiali Smart (1)Oculistica (1)Odore (1)OMS (1)ONU (1)Open Source (3)OpenAI (289)Opera (13)Opera Browser (1)Oppo (3)Oracle (2)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (10)Pianeta (2)Plugin (1)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

Mi sono imparato la scienza?

Fahrenheit.iit e il potere della narrazione. Mercoledì 13 marzo, ore 17:00 in Accademia di Comunicazione e in streaming Registrati La narrazione può essere la lama...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines