Nel contesto della crescente controversia legata ai diritti d’autore nel campo dell’intelligenza artificiale, il CEO di Meta, Mark Zuckerberg, ha preso spunto dalla battaglia di YouTube contro i contenuti piratati per difendere l’uso di un set di dati contenente e-book protetti da copyright. Frammenti della deposizione di Zuckerberg, rilasciati di recente, rivelano il suo ragionamento dietro l’uso di tali dati per sviluppare i modelli di AI di Meta, noti come Llama.
La deposizione è parte di una denuncia legale nel caso Kadrey contro Meta, uno dei numerosi casi simili che coinvolgono aziende di intelligenza artificiale e titolari di diritti d’autore. Le aziende di IA sostengono che la formazione sui contenuti protetti da copyright sia un “uso corretto”, mentre molti titolari di copyright non sono d’accordo.
Zuckerberg ha paragonato l’uso di contenuti protetti da copyright su YouTube, dove alcuni video possono essere piratati temporaneamente ma vengono rimossi, alla situazione di Meta. Ha difeso l’uso del set di dati LibGen, che fornisce accesso a opere protette da copyright di editori come Cengage Learning e Pearson Education, per addestrare i modelli Llama di Meta.
Secondo i documenti legali, Zuckerberg avrebbe autorizzato l’uso di LibGen nonostante le preoccupazioni legali sollevate dai dirigenti di Meta. Tuttavia, durante la sua deposizione, Zuckerberg ha affermato di “non aver mai sentito parlare” di LibGen e ha spiegato che una politica generale contro l’uso di tali set di dati potrebbe non essere sempre appropriata.
Gli avvocati dei querelanti, tra cui gli autori Sarah Silverman e Ta-Nehisi Coates, hanno citato i dipendenti di Meta che si riferivano a LibGen come a un “set di dati piratato”. L’ultima denuncia modificata accusa Meta di aver utilizzato LibGen per addestrare la sua ultima famiglia di modelli Llama, Llama 3, e di pianificare di usarlo per Llama 4.
Inoltre, i querelanti sostengono che Meta abbia tentato di nascondere l’uso di materiale protetto da copyright inserendo “campioni supervisionati” nella messa a punto di Llama. Meta avrebbe anche scaricato e-book piratati da Z-Library per l’addestramento dei suoi modelli fino ad aprile 2024.
La questione del copyright nel campo dell’AI rimane controversa, con implicazioni legali significative per le aziende di intelligenza artificiale e i titolari di diritti d’autore.