Nel panorama sempre più ampio dell’intelligenza artificiale, la gestione dei rischi legati alla violazione del copyright rappresenta una sfida cruciale per le aziende che utilizzano modelli linguistici su larga scala (LLM) nei propri sistemi operativi. È su questo terreno che emerge CopyrightCatcher, la prima API per la rilevazione del copyright.
Con il crescente utilizzo degli LLM, sia a fini commerciali che di ricerca, si è rivelata evidente la necessità di proteggere la proprietà intellettuale e mitigare i rischi legali legati alla generazione involontaria di contenuti protetti da copyright. In un test avversario condotto dai ricercatori di Patronus AI, si è scoperto che gli LLM di ultima generazione producono contenuti protetti da copyright a una frequenza allarmante.
OpenAI’s GPT-4 ha prodotto contenuti protetti da copyright su circa il 44% delle richieste. Anche altri modelli di punta, come Mistral’s Mixtral-8x7B-Instruct-v0.1, Anthropic’s Claude-2.1 e Meta’s Llama-2-70b-chat, hanno dimostrato una tendenza a generare contenuti soggetti a copyright su una percentuale significativa di richieste.
CopyrightCatcher si propone come soluzione per individuare potenziali violazioni del copyright negli output degli LLM. Grazie alla demo pubblica offerta, alimentata da modelli open source forniti dalle API della Databricks Foundation, le aziende possono ora identificare e gestire efficacemente questo rischio.
I dati di addestramento degli LLM spesso contengono opere protette da copyright, ed è relativamente semplice ottenere la riproduzione esatta di tali testi da parte degli LLM. Tuttavia, è fondamentale individuare queste riproduzioni, poiché comportano rischi legali e reputazionali significativi per le aziende che utilizzano tali modelli nei propri sistemi operativi.
OpenAI, Anthropic e Microsoft sono solo alcune delle aziende che hanno affrontato cause legali legate alla generazione di contenuti da parte degli LLM, mosse da autori, editori musicali e, più recentemente, dal New York Times.
CopyrightCatcher offre un modo efficace per verificare se gli LLM generano testi protetti da copyright, identificando le riproduzioni esatte di contenuti provenienti da fonti testuali come i libri e evidenziando tali testi negli output degli LLM.
Attraverso un test avversario appositamente progettato, che ha portato alla creazione di CopyrightCatcher, è stata rivelata l’urgenza di affrontare questo problema e offrire soluzioni concrete per proteggere la proprietà intellettuale nell’era degli LLM.
______
Introducing CopyrightCatcher, the first Copyright Detection API for LLMs