Nel panorama attuale dell’intelligenza artificiale, uno dei problemi più pressanti è la gestione delle violazioni di copyright nei modelli di linguaggio di grandi dimensioni (LLM). Patronus AI ha recentemente introdotto CopyrightCatcher, il primo API di rilevamento del copyright specificamente progettato per gli LLM, per affrontare questo problema critico.
La necessità di un sistema come CopyrightCatcher è emersa a seguito di un test di copyright avversariale condotto dai ricercatori di Patronus AI. I risultati del test sono stati allarmanti: i modelli di linguaggio più avanzati generano contenuti coperti da copyright con una frequenza sorprendentemente alta. Ad esempio, GPT-4 di OpenAI ha prodotto contenuti coperti da copyright nel 44% dei prompt, mentre Mixtral-8x7B-Instruct-v0.1 di Mistral ha raggiunto il 22%, Claude-2.1 di Anthropic l’8% e Llama-2-70b-chat di Meta il 10%.
CopyrightCatcher offre una soluzione per individuare potenziali violazioni di copyright negli output degli LLM, rilevando quando i modelli riproducono esattamente contenuti protetti da testi come libri. Questo è cruciale poiché i dati di addestramento degli LLM spesso contengono opere coperte da copyright, rendendo facile per i modelli generare riproduzioni esatte di questi testi. Tali riproduzioni pongono rischi legali e reputazionali significativi per le aziende che sviluppano e utilizzano LLM nei loro sistemi di produzione.
Per verificare se gli LLM rispondono ai prompt con testo coperto da copyright, gli utenti possono utilizzare CopyrightCatcher, che evidenzia qualsiasi testo coperto da copyright negli output degli LLM. Patronus AI ha reso disponibile una demo pubblica di CopyrightCatcher, alimentata dagli API dei modelli della Databricks Foundation.
È importante notare che determinare le violazioni di copyright negli Stati Uniti è complesso, poiché alcune generazioni di modelli potrebbero rientrare nel “fair use”. Tuttavia, CopyrightCatcher rappresenta un passo avanti significativo nella protezione dei contenuti e nella mitigazione dei rischi associati alle violazioni di copyright negli LLM.
____
Introducing CopyrightCatcher, the first Copyright Detection API for LLMs