Intel ha recentemente annunciato lo sviluppo di Polite Guard, un modello open-source di elaborazione del linguaggio naturale (NLP) progettato per classificare i testi in quattro categorie: cortese, parzialmente cortese, neutrale e scortese. Basato su BERT, Polite Guard è stato affinato per migliorare la classificazione della cortesia nei testi.
Il progetto offre diversi vantaggi significativi. Innanzitutto, fornisce una pipeline scalabile per lo sviluppo di modelli, semplificando la generazione di dati sintetici e la personalizzazione dei modelli da parte degli sviluppatori. Inoltre, migliora la robustezza dei sistemi, offrendo un meccanismo di difesa contro attacchi avversari. Polite Guard introduce anche il primo benchmark per la valutazione della cortesia, consentendo agli sviluppatori di confrontare le prestazioni dei loro modelli in questo ambito. Infine, garantendo interazioni rispettose e cortesi su varie piattaforme, il modello mira a migliorare l’esperienza del cliente, aumentando la soddisfazione e la lealtà.
Per l’addestramento, è stato implementato un generatore di dati sintetici in Python, eseguito su processori Intel® Xeon®, per produrre campioni etichettati riguardanti interazioni di servizio clienti in settori come finanza, viaggi, alimentazione, vendita al dettaglio, sport, cultura ed educazione professionale. Successivamente, il modello base BERT è stato affinato su questo dataset. Per garantire la diversità dei dati, sono stati utilizzati vari prompt e tre modelli linguistici di grandi dimensioni: Llama 3.1-8B-Instruct, Mixtral 8x7B-Instruct-v0.1 e Gemma 2-9B-It. L’ottimizzazione degli iperparametri è stata effettuata utilizzando l’algoritmo Tree-structured Parzen Estimator (TPE) tramite Optuna, con l’obiettivo di massimizzare il punteggio F1 di validazione.
Il dataset di Polite Guard, disponibile su Hugging Face, comprende 50.000 campioni etichettati generati utilizzando il prompting Few-Shot, 50.000 campioni generati con il prompting Chain-of-Thought (CoT) e 200 campioni annotati provenienti da corsi di formazione aziendali con identificatori personali mascherati. Il codice sorgente per il generatore di dati sintetici e per l’affinamento del modello, che utilizza acceleratori AI come Intel® Gaudi®, è disponibile nel repository GitHub di Polite Guard.
Intel invita gli sviluppatori a contribuire a questo progetto open-source e a sfruttare i progressi continui nell’IA generativa per creare applicazioni NLP più robuste, rispettose e orientate al cliente.