Mistral AI ha annunciato il lancio di una nuova API di moderazione che consente agli utenti di identificare contenuti indesiderati in base a diversi criteri di sicurezza. Questa tecnologia, utilizzata internamente nel servizio Le Chat, è ora disponibile per il pubblico, offrendo agli utenti la possibilità di adattarla a specifiche applicazioni e standard di sicurezza.
Negli ultimi mesi, l’interesse per i sistemi di moderazione basati su modelli linguistici di grandi dimensioni (LLM) è cresciuto significativamente sia nell’industria che nella comunità di ricerca. La soluzione di Mistral AI è progettata per aumentare la scalabilità della moderazione, rendendola più efficace e robusta su molteplici piattaforme. Il modello, un classificatore LLM, classifica il contenuto testuale in nove categorie di policy diverse. Per rispondere a contesti specifici, l’API offre due endpoint: uno per il testo grezzo e uno per contenuti conversazionali.
Il classificatore, nativamente multilingue, è stato addestrato su lingue come arabo, cinese, inglese, francese, tedesco, italiano, giapponese, coreano, portoghese, russo e spagnolo. Le categorie di policy includono la prevenzione della diffusione di informazioni personali non autorizzate e consigli non qualificati, con l’obiettivo di mitigare i rischi generati dall’uso improprio dell’intelligenza artificiale.
Con questo lancio, Mistral AI punta a supportare le aziende con strumenti di moderazione personalizzabili, leggeri e scalabili, continuando a collaborare con la comunità scientifica per promuovere la sicurezza nell’uso dei modelli di intelligenza artificiale.