Il Garante per la protezione dei dati personali ha recentemente pubblicato una serie di linee guida volte a proteggere i dati personali pubblicati online da soggetti pubblici e privati contro il fenomeno del web scraping. Questa pratica, che consiste nella raccolta automatizzata e indiscriminata di dati personali su Internet da parte di terzi, è spesso utilizzata per addestrare modelli di intelligenza artificiale generativa.
Il documento del Garante tiene conto dei contributi ricevuti nell’ambito di un’indagine conoscitiva avviata lo scorso dicembre e include raccomandazioni per i titolari del trattamento dei dati personali. Tra le istruttorie avviate, vi è anche quella nei confronti di OpenAI, per valutare la liceità del web scraping basato sul legittimo interesse.
In attesa di pronunciarsi su questi casi specifici, l’Autorità ha ritenuto necessario fornire alcune prime indicazioni per aiutare i titolari del trattamento dei dati a compiere valutazioni sull’adozione di misure idonee a prevenire o ostacolare il web scraping. Le misure suggerite includono la creazione di aree riservate accessibili solo previa registrazione, l’inserimento di clausole anti-scraping nei termini di servizio dei siti, il monitoraggio del traffico verso le pagine web per individuare flussi anomali di dati e interventi specifici sui bot, come l’uso del file robots.txt.
Queste misure, pur non essendo obbligatorie, devono essere valutate dai titolari del trattamento in base al principio di responsabilità, considerando vari fattori come lo stato dell’arte tecnologico e i costi di attuazione, con particolare attenzione alle PMI. Il Garante sottolinea l’importanza di queste azioni per prevenire o mitigare gli effetti negativi del web scraping, proteggendo così i dati personali dei cittadini.