Microsoft si pone come pioniere nella scoperta e mitigazione delle minacce emergenti contro le protezioni delle IA. L’azienda ha recentemente annunciato nuovi strumenti disponibili o in arrivo su Microsoft Azure AI Studio, dedicati agli sviluppatori di applicazioni AI generative. Questi strumenti mirano a garantire la sicurezza e la fiducia nell’uso delle IA, fornendo trasparenza sulle capacità e limitazioni dei grandi modelli linguistici (LLM).
Microsoft si impegna attivamente nella ricerca sui rischi sociali legati all’IA e nella creazione di sistemi AI sicuri per il bene pubblico. L’azienda ha anche assunto l’impegno di identificare e mitigare rischi, condividendo informazioni su potenziali minacce. Ad esempio, Microsoft ha recentemente condiviso i principi che guidano le politiche e le azioni volte a contrastare le minacce avanzate persistenti statali, i manipolatori persistenti avanzati e i sindacati cybercriminali che utilizzano gli strumenti e le API AI dell’azienda.
L’articolo esamina da vicino le sfide e le vulnerabilità legate all’IA, focalizzandosi sulle minacce di manipolazione maliziosa dei LLM. Uno dei principali timori riguarda l’abuso dell’IA a fini maligni. Microsoft ha implementato diverse difese per prevenire tali abusi, ma i “jailbreak” possono ancora verificarsi quando attori malevoli cercano di aggirare tali protezioni. Questo comporta un costante sforzo nella rafforzatura delle difese per proteggere le applicazioni integrate con l’IA da comportamenti indesiderati.
Il rischio di manipolazione maliziosa si manifesta attraverso prompt maliziosi e contenuti avvelenati. Gli attacchi possono essere mirati a bypassare i sistemi di sicurezza, inducendo le IA a compiere azioni dannose. Microsoft ha sviluppato la tecnica del “Spotlighting” per neutralizzare i contenuti avvelenati, riducendo significativamente il tasso di successo degli attacchi. Inoltre, i ricercatori hanno identificato un nuovo tipo di attacco, denominato “Crescendo”, che sfrutta le debolezze dei LLM per ottenere risultati dannosi.
Per difendersi da tali minacce, Microsoft ha implementato una serie di mitigazioni, tra cui filtri prompt, ingegneria dei prompt di sistema e il monitoraggio continuo delle interazioni AI. L’azienda ha anche condiviso le proprie scoperte con altri fornitori di IA per garantire una risposta coordinata alle minacce emergenti.
Microsoft ha rilasciato PyRIT, un toolkit per l’identificazione dei rischi nelle IA generative, per consentire agli esperti di sicurezza e agli ingegneri di machine learning di individuare proattivamente le vulnerabilità nei propri sistemi AI.
Microsoft si impegna a proteggere gli AI systems, collaborando con la comunità per sviluppare soluzioni sicure e responsabili. L’azienda è ottimista sul futuro dell’IA generativa e continua a investire nella ricerca e nello sviluppo di strumenti per garantire la sicurezza delle IA.
______
How Microsoft discovers and mitigates evolving attacks against AI guardrails