Stability AI presenta StableVicuna, il primo chatbot open source del mondo dell’intelligenza artificiale ad utilizzare l’apprendimento per rinforzo tramite feedback umano (RLHF) insieme al fine-tuning di istruzioni.
La società ha utilizzato il modello Vicuna come base, applicando una fase di fine-tuning supervisionato (SFT) a tre dataset: OpenAssistant Conversations Dataset (OASST1), GPT4All Prompt Generations e Alpaca.
In seguito, è stato applicato l’apprendimento per rinforzo tramite feedback umano utilizzando i dataset di preferenze RLHF OpenAssistant Conversations Dataset (OASST1), Anthropic HH-RLHF e Stanford Human Preferences (SHP), mediante l’algoritmo Proximal Policy Optimization (PPO) con l’utilizzo del framework trlX.
Il risultato è StableVicuna, una versione ulteriormente affinata di Vicuna v0 13b, disponibile come peso delta del modello LLaMA 13b sul sito HuggingFace Hub.
La società ha anche presentato l’interfaccia del chatbot, in via di sviluppo, insieme a benchmark di performance che dimostrano la superiorità di StableVicuna rispetto ad altri chatbot open source di dimensioni simili.
La società invita gli utenti a provare StableVicuna e a fornire feedback per migliorare l’esperienza dell’utente.