Tra i risvolti più interessanti legati all’utilizzo dell’Intelligenza Artificiale ve n’è uno che, negli ultimi tempi, ha acceso il dibattito “digitale” e suggerito l’intervento l’Autorità Garante della Privacy: il web scraping.
Cos’è il Web scraping
Il Web scraping o, in altre parole, la tecnica utilizzata per estrarre una grande varietà di informazioni (dati di contatto, indirizzi di posta elettronica, numeri di telefono, così come singoli termini di ricerca o URL.) dalle pagine web con lo scopo di addestrare i modelli di Intelligenza artificiale generativa (IAG).
Di per sé il web scraping non è una pratica illegale a patto che i dati estratti siano liberamente fruibili dai siti internet e che quindi siano destinati al pubblico.
La preoccupazione è che l’utilizzo dei dati personali e legati alla proprietà intellettuale possa essere finalizzata ad un utilizzo distorto e non virtuoso.
L’intervento del Garante
Con provvedimento del 20 maggio 2024 – reso pubblico recentemente – l’Autorità ha suggerito ad ogni Titolare di pagina web alcuni accorgimenti di seguiti riassunti:
- Creazione di Aree Riservate – La creazione di aree riservate, accessibili solo previa registrazione, è una misura organizzativa volta a limitare la disponibilità pubblica dei dati. Questa pratica consente di sottrarre i dati alla disponibilità indiscriminata, riducendo così le opportunità di web scraping. Tuttavia, tale misura deve essere implementata nel rispetto del principio di minimizzazione dei dati, evitando di richiedere informazioni superflue agli utenti durante la registrazione.
- Inserimento di Clausole nei Termini di Servizio – L’inserimento di clausole specifiche nei Termini di Servizio (ToS) dei siti web che vietano esplicitamente l’uso di tecniche di web scraping costituisce una misura preventiva di natura giuridica. Queste clausole possono fungere da deterrente legale, consentendo ai gestori dei siti di agire legalmente contro chi non rispetta tali disposizioni.
- Monitoraggio del Traffico di Rete – Il monitoraggio delle richieste HTTP ricevute può aiutare a identificare flussi di dati anomali, indicando possibili attività di scraping. Tecniche come il “Rate Limiting” possono limitare il numero di richieste da indirizzi IP specifici, contribuendo a prevenire attacchi DDoS o scraping eccessivo. Questa è una misura tecnica che può rafforzare la sicurezza dei dati.
- Intervento sui Bot – Le tecniche di scraping si basano prevalentemente sull’uso di bot. Limitare l’accesso ai bot rappresenta un metodo efficace per contrastare il web scraping.
Trattasi, si intende, di misure non obbligatorie ma suggerite e la cui applicazione dipenderà dalle peculiarità di ogni singolo contesto in forza del principio di accountability.
Per ogni maggiore approfondimento invitiamo come sempre ad una consultazione diretta del provvedimento che potrete trovare al seguente link: https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/10019984