Scoperti i dati di training nei LLM senza accesso ai pesi del modello

Un nuovo studio rivela come identificare i dati memorizzati da modelli linguistici proprietari come GPT-4, senza accesso interno.

Un team di ricercatori ha sviluppato un metodo innovativo per identificare i dati di training all’interno dei modelli linguistici di grandi dimensioni (LLM) proprietari, come GPT-4, senza accedere ai pesi del modello né alle probabilità dei token. Il metodo si basa su “sonde guidate dalle informazioni”, che sfruttano passaggi di testo ad alta sorpresa per verificare la presenza di contenuti memorizzati.

La trasparenza sui dati di addestramento è limitata nei modelli commerciali, rendendo difficile verificare la presenza di contenuti protetti da copyright, dati sensibili o manipolazioni. Questo lavoro rappresenta un passo avanti verso una maggiore accountability, offrendo uno strumento efficace per verificare quali informazioni siano note al modello.

La chiave dell’approccio risiede nell’identificare token rari o inaspettati (ad alta sorpresa) e osservare la capacità del modello di ricostruirli. Se il modello riesce a completare coerentemente un passaggio complesso o inusuale, ciò suggerisce un’alta probabilità che lo abbia incontrato nei dati di training. L’esperimento ha rivelato una significativa quantità di testi effettivamente memorizzati da GPT-4, dimostrando come gli LLM non solo apprendano, ma immagazzinino porzioni di testo specifiche.

Questo metodo rafforza il dibattito sulla necessità di trasparenza e supervisione dei modelli proprietari, soprattutto in ambiti dove sono coinvolti diritti d’autore, privacy e impatti sociali.


Fonti:


Approfondimenti consigliati:

  • Come i LLM apprendono: guida alla memorizzazione nei modelli AI
  • AI e copyright: le nuove sfide legali

Conclusioni – Pro e rischi
✅ Pro: migliora la trasparenza e la responsabilità dei modelli; utile per la ricerca scientifica.
⚠️ Rischi: possibile esposizione involontaria di dati sensibili; impatti etici sul copyright e sulla privacy.

Scoperti i dati di training nei LLM senza accesso ai pesi del modello

NEWS AIopenmind su:

3D (13)6G (19)Accademia di Comunicazione (4)Acer (1)Adobe (46)Aeronautica (11)Africa (4)Agenti AI (84)Agenti autonomi (1)Agenzia delle Entrate (1)Agenzia Spaziale Europea (ESA) (1)Agenzia viaggi (1)AGI (Intelligenza artificiale generalizzata) (26)AGID (1)Agricoltura (3)Amazon (64)Ambiente (5)AMD (3)America Latina (1)Android (7)Animali (7)Animazione (6)Anthropic (52)Anziani (1)App (13)Apple (88)Archeologia (3)Architettura (4)Archivi storici (1)Armi (4)Arredamento interni (2)Arte (33)Assistente vocale (8)Astronomia (2)Asus (2)AT&T (1)Audi (1)Audio (69)Autoapprendimento (1)Avatar (8)Aviazione (1)Avvocati (3)Aziende (27)Banca (5)Bard (3)Biblioteca (1)Bill Gates (2)Bing (9)Biologia (1)Birra (1)Blockchain (2)Boston Dynamics (2)Calcio (2)California (1)Canva (7)Cattolicesimo (3)Certificazioni (1)Chataudio (1)Chatbot IA (55)Chip (4)Cina (124)Cinema (11)Claude (22)Clima (6)CNR (1)Coca-Cola (2)Commercio (2)Commissione Europea (4)Compagnie aeree (1)Computer (8)Computer quantistici (51)Computer Vision (3)Comuni italiani (1)Comunicazione (10)Comunicazioni vocali (2)Concorso bellezza AI (1)Consiglio d'Europa (2)Contabilità (2)Convegno (16)Copilot (7)Copyright (31)Corea del Nord (1)Corea del Sud (1)Criptovalute (2)Cybersecurity (28)Dalle-2 (3)Dark web (3)Data center (23)Dating (1)Deepfake (4)DeepSeek (29)Design automobilistico (3)Design Industriale (6)Diritti Autore (1)Disney (1)Doppiaggio (1)Drone (1)Droni (1)Dropbox (1)E-commerce (1)eBay (1)Editing fotografico (3)Editoria (16)ENEA (2)Esercito (2)Etica (281)Europol (3)Eventi (10)Evento (9)Facebook (4)FakeNews (22)Falegnameria (1)Fauna selvatica (1)Film (7)Finanza (36)Finanziamenti Italia (4)Firefly (3)Firefox (1)Fondo Monetario Internazionale (1)Formazione (56)Fotografia (123)Francia (6)Free lance (1)G7 (1)Gaming (3)Garante privacy (21)Giappone (22)Giochi (10)Giornalismo (24)Giustizia (3)Google (443)Governo (8)Governo Italiano (3)Grafica (6)Grok (9)Guerra (18)Guida autonoma (8)Hong Kong (12)Hugging Face (6)IBM (9)Illustrazioni (1)iMessage (1)Immobiliare (1)India (9)Indossabili (4)Influencer (1)Informazione (10)Inghilterra (15)INPS (2)Intel (9)ISO (1)Israele (1)Istruzione (17)Jailbreaking (1)Kamala Harris (1)Lavoro (102)Libri (3)Linguistica computazionale (12)Linkedin (9)Linux (1)Luma AI (1)Luna (1)Maltrattamento infantile (1)Marina (1)Marketing (148)Medicina (36)Mercedes-Benz (1)Meta (136)Metaverso (17)Meteo (1)Microsoft (244)Midjourney (18)Mistral (13)Mobilità sostenibile (2)Moda (6)Modelli AI (150)Motori di Ricerca (14)Mozilla (3)Museo (1)Musica (45)NASA (2)Nato (2)Natura (7)Natural Language Processing (2)Nazioni Unite (1)NBA (1)NFT (3)Norvegia (1)Nvidia (83)Occhiali (7)Occhiali Intelligenti (2)Occhiali Smart (1)Oculistica (1)Odore (1)Offerte lavoro (2)OMS (1)ONU (1)Open Source (17)OpenAI (374)Opera (16)Opera Browser (1)Oppo (3)Oracle (3)Orologio (1)Parlamento Europeo (4)Patente di guida (1)Pensieri (1)Perplexity (19)Pianeta (2)PlayStation (1)Plugin (1)Polizia (2)Ponti (1)Presentazioni aziendali (4)Privacy (34)Programmazione (16)Prompt (5)Pubblicazione (1)Pubblicità (19)QR Code (1)Qualcomm (5)Ray-Ban (7)Realtà mista (4)Reddit (7)Relazioni internazionali (2)Relazioni Pubbliche (3)Religione (1)Report (148)Ricerca scientifica (16)Riconoscimento emotivo (1)Risorse online (100)Ristorazione (5)Robotica (88)Runway (16)Salute (37)Samsung (16)Sanità (21)Satelliti (5)Sceneggiatura (1)Semiconduttori (6)SEO (3)Shopping online (4)Sicurezza (31)Sicurezza informatica (90)SMS (1)Snapchat (11)Soccorso (1)Società (15)SoftBank (1)Software (5)Sony (2)Sora (1)Sport (4)Spotify (8)Stability (5)Stable Animation SDK (1)Stable Diffusion (12)Stampanti (1)Standard (4)Startup (541)streaming live (1)Supercomputer (6)Superintelligenza (3)Sviluppatori (1)Sviluppo sostenibile (1)Svizzera (1)Synthesia (1)Taiwan (20)Taxi (2)Telecomunicazioni (7)Telegram (4)Televisione (1)Tesla (10)TikTok (12)Tinder (1)Torah (1)Traduttore AI (7)Trasporti (16)Truffa (2)Twitter (13)Ucraina (3)Udito (1)UE (13)UNESCO (3)UNICEF (1)Unione Europea (38)Università (5)Uomo (1)USA (86)Vaticano (5)Video (144)Videocomunicazione (4)Videogiochi (13)Vigili del fuoco (1)Violenza domestica (1)Visualizzazione dati (1)Vodafone (1)Vogue Business - As Gen Z matures (0)Volkswagen (1)VPN (3)Website (14)WhatsApp (12)Wikipedia (2)Wordpress (3)X (13)xAI (10)Xiaomi (1)Yahoo (3)Youtube (21)Zoom (7)



AI open mind

Insieme per riflettere sull’intelligenza - umana e artificiale - tra studi, esperienze, democrazia e innovazione.

IA ad alto rischio: obblighi e sanzioni per i datori di lavoro nella nuova legge UE

La normativa UE sull’intelligenza artificiale impone regole severe ai datori di lavoro che utilizzano sistemi IA classificati come ad alto rischio. Ecco cosa cambia. Il...

Computer quantistico da 56 qubit ottiene casualità certificata

Svolta nella crittografia quantistica: un sistema da 56 qubit ha generato numeri casuali verificabili, essenziali per la sicurezza digitale. Un team di ricercatori dell’Università del...

Sora di OpenAI: l’intelligenza artificiale che reinventa il video

OpenAI lancia Sora, una piattaforma AI generativa per creare video dinamici, personalizzati e ad alta risoluzione. Sora è il nuovo strumento di OpenAI che consente...

All Digital Weeks: L’importanza di un approccio armonizzato

REGISTRATI SU Stati Generali dell’Innovazione – SGI _____________ L’avvento dell’Intelligenza Artificiale – L’importanza di un approccio armonizzato L’avvento dell’Intelligenza Artificiale (AI) rappresenta una delle più significative rivoluzioni...

Iscrizione NEWSLETTER

I dati da Lei forniti non saranno comunicati ad altri soggetti terzi e non saranno trasferiti né in Stati membri dell’Unione Europea né in paesi terzi extra UE.

Visita le sezioni del sito

Link utili

Casi studio, contributi

AI governance: A research agenda, Governance of AI program, Future of Umanity Institute, University of Oxford, Dafoe A., 2017 Artificial intelligence (AI) is a po-tent...

Libri

Ricerche

Piattaforme Corsi Gratuiti

White paper, guidelines