Il Corpus Comune, recentemente rilasciato, si è dimostrato un punto di svolta nell’ambito dell’intelligenza artificiale. Con oltre 500 miliardi di parole provenienti da una vasta diversità di iniziative di patrimonio culturale, questo corpus multilingue è diventato il più grande fino ad oggi in lingue come l’inglese, il francese, l’olandese, lo spagnolo, il tedesco e l’italiano.
Grazie alla sua vastità e alla varietà delle fonti utilizzate, il Corpus Comune dimostra la possibilità di addestrare LLM completamente aperti su fonti senza preoccupazioni legate ai diritti d’autore. Coordinato da Pleias e coinvolgente ricercatori nel preaddestramento LLM, nell’etica dell’IA e nel patrimonio culturale, questo progetto internazionale ha ricevuto il supporto di importanti organizzazioni impegnate in un approccio di scienza aperta per l’IA, come HuggingFace, Occiglot, Eleuther e Nomic AI.
Il Corpus Comune non solo sfida le affermazioni delle grandi aziende di AI, ma dimostra che è possibile addestrare modelli di lingua su corpora completamente aperti e riproducibili, senza utilizzare contenuti protetti da copyright. Questo è solo l’inizio di un progetto che mira a rendere l’IA più accessibile, diversificata e democratica, garantendo che chiunque possa esaminare i grandi modelli.
________
Releasing Common Corpus: the largest public domain dataset for training LLMs