Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca

Come l’Europa sta riscrivendo le regole per l’intelligenza artificiale: tutto quello che devi sapere

Andrea Capelli : 6 Gennaio 2025 10:33

Gli strumenti di intelligenza artificiale sono ormai una realtà conclamata con cui tutti noi operiamo giornalmente. Sono strumenti che stanno rapidamente diventando insostituibili e necessari, soprattutto in ambito produttivo e lavorativo in genere.

In questi mesi si è parlato molto di I.A., di come adottarla, di come implementarla nei processi produttivi. Ci siamo fatti una cultura su concetti come Machine Learning, Training, Large Language Models, e relativi acronimi. Il 2024 ha visto anche l’approvazione dell’A.I. Act che, tuttavia prima del 2026 non vedrà una vera e propria efficacia.

Ciò detto, oggi molte realtà, produttive e non, si pongono domande su come implementare correttamente strumenti di intelligenza artificiale nei propri processi organizzativi e produttivi, in particolare in relazione al trattamento dei dati personali.

Vuoi diventare un Ethical Hacker?
Non perdere i nostri corsi e scrivi subito su WhatsApp al numero
375 593 1011  per richiedere informazioni dicendo che hai trovato il numero sulle pagine di Red Hot Cyber

Supporta RHC attraverso:


Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.

Infatti è noto che i dati sono la linfa vitale di qualunque sistema di Intelligenza Artificiale, attraverso i quali viene allenato. Gli stessi concetti di data set e big data sono ormai entrati nel linguaggio quotidiano di chi si occupa di materie digitali, che sa bene quanto l’affidabilità e la sicurezza di un sistema di AI dipenda dalla qualità e dalla quantità di dati con i quali viene svolto il training.

Ciò ha fatto sorgere una serie di domande e problematiche agli operatori, che sono state accolte e fatte proprie anche dalle Autorità di Controllo. In particolare l’Autorità Garante per la protezione dei dati personali irlandese ha sottoposto all’EDPB una serie di questioni che hanno trovato recentemente risposta in alcune linee guida emesse dall’organismo europeo. Queste costituiscono una buona traccia da seguire in un momento in cui la strada verso una completa compliance nell’adozione dell’Intelligenza Artificiale è caratterizzata da banchi di nebbia sparsi.

L’obiettivo dichiarato del parere fornito dall’EDPB è infatti quello di fornire una quadro di riferimento alle Autorità di controllo per la soluzione di alcune questioni che potrebbero sorgere. 

Benché non si ponga l’obiettivo di dare risposte totalmente esaustive, questo quadro di riferimento per i controllori è uno strumento fondamentale anche per i controllati, che hanno, in tal modo, una traccia da seguire per essere conformi alla normativa.

Concetto di Intelligenza Artificiale

Il primo passaggio determinante è comprendere in quale ambito si applicano le linee guida fornite dall’EDPB. 

In primo luogo l’EDPB fa riferimento la definizione di Intelligenza Artificiale data dall’A.I. Act, tuttavia questo richiamo ha il solo scopo di stabilire che il documento in analisi non riguarda i modelli di Intelligenza Artificiale in quanto tali. 

Infatti le linee guida in commento si applicano solo a quel sottoinsieme di modelli di intelligenza artificiale che sono il frutto di un addestramento attraverso i dati.

Questa specificazione non è di secondo momento considerato che alcuni modelli di AI, oggetto di training, possono essere incorporati in altri strumenti definiti di Intelligenza Artificiale. 

Ciò detto, queste linee guida si applicano solo al modello di A.I. che è oggetto di addestramento sui dati e non agli altri modelli che, integrati al primo, daranno origine al prodotto unitario finale.

In seconda battuta l’EDPB specifica che le linee guida si applicano anche a quei modelli di A.I. che, pur non essendo concepiti per fornire dati personali quali risultato di output, vengono comunque addestrati con questi.

Questa considerazione non dovrebbe sorprendere considerato che il GDPR considera dati personali qualsiasi informazione che renda, in qualunque modo, un soggetto identificato o identificabile. 

Partendo da questo presupposto l’EDPB evidenzia che la recente ricerca ha dimostrato come sia ragionevolmente probabile, mediante l’impiego di certi strumenti, poter estrarre i dati di addestramento e quelli oggetto di analisi del modello. 

D’altronde, come specificato nel documento, i modelli di AI tendenzialmente non contengono record che siano facilmente isolabili, bensì relazioni probabilistiche tra i dati utilizzati dal modello stesso secondo certi parametri. Ciò fa si che tali dati siano deducibili partendo dalle informazioni sul modello.

Tali strumenti, quindi, nel momento in cui utilizzano dati personali per l’addestramento e/o per l’elaborazione dei risultati, anche se non li forniscono come output, non possono comunque essere considerati anonimi. Si consideri, inoltre, che tali dati, anche se non vengono forniti come risultato, sono comunque acquisiti, elaborati e conservati dal modello. Tutte operazioni che, a mente del GDPR, costituiscono trattamenti (“qualsiasi operazione o insieme di operazioni, compiute con o senza l’ausilio di processi automatizzati e applicate a dati personali o insiemi di dati personali”, art. 4 n. 2) ).

Dati anonimi? Dimostramelo!

Dopo aver compiuto un esplicito riferimento al concetto e alle tecniche di anonimizzazione previste dal provvedimento del WP29 05/2014, l’EDPB chiarisce che va fornita la prova circa l’avvenuta anonimizzazione del dato.

I criteri di prova sono tre:

  • non deve essere possibile dedurre o inferire il dato personale partendo dal dataset ritenuto anonimo. Considerato quanto già detto nel paragrafo circa la possibilità di deduzione del dato attraverso l’utilizzo di software, l’EDPB considera altamente raccomandabile una valutazione approfondita dei rischi derivanti dall’identificazione. La portata dei termini utilizzati dall’EDPB porta lo scrivente a ritenerli un “affettuoso” invito a una DPIA preventiva.
  • nell’analisi di cui al punto precedente vanno tenuti in considerazione tutti i mezzi ragionevolmente utilizzabili, facendo particolare riferimento a:
    • le caratteristiche dei dati di addestramento stessi, del modello di IA e della procedura di addestramento; 
    • il contesto in cui il modello di IA viene rilasciato e/o elaborato; 
    • le informazioni supplementari che consentirebbero l’identificazione e che potrebbero essere a disposizione di una determinata persona; 
    • i costi e il tempo di cui la persona avrebbe bisogno per ottenere tali informazioni supplementari (nel caso in cui non siano già a sua disposizione); 
    • la tecnologia disponibile al momento del trattamento, nonché gli sviluppi tecnologici.
  • La valutazione del rischio riguarda non solo le possibilità del titolare di risalire ai dati, ma anche quelle di eventuali terze persone, a qualunque titolo, in modo volontario o accidentale.

L’EDPB conclude sostenendo che affinché un modello di IA possa essere considerato anonimo, sia la probabilità di estrazione diretta (anche probabilistica) di dati personali che la probabilità di ottenere, intenzionalmente o meno, tali dati personali da query, dovrebbe essere irrilevante per qualsiasi interessato

La valutazione deve essere svolta considerando tutti i mezzi che ragionevolmente possono essere utilizzati. 

Un ulteriore spunto da valutare riguarda il pericolo di divulgazione e replicazione del modello.

Quali elementi valutare per stabilire se i dati sono anonimi 

Una premessa importante: l’EDPB ha messo in chiaro che ciascuna valutazione deve riguardare la singola fattispecie, un approccio, quindi, “caso per caso”. 

Con questa consapevolezza, analizziamo alcuni passaggi ed elementi che lo stesso EDPB ha posto in evidenza e che dovrebbero essere oggetto di valutazione.

Modello IA pubblico o interno? 

La valutazione dei rischi potrà essere diversa a seconda che un modello di intelligenza artificiale sia pubblico e disponibile a una platea ampia o indeterminata di soggetti, piuttosto che sia un utilizzato solo internamente e a disposizione dei soli dipendenti.

Design del modello di IA:

Saranno valutati:

le misure adottate per evitare o limitare la raccolta dei dati personali. 

Ciò comporta una valutazione di adeguatezza dei criteri di selezione e la pertinenza delle fonti scelte in relazione agli scopi previsti. Eventuale esclusione di fonti inappropriate;

la preparazione dei dati per la fase di formazione. 

Ciò comporta una valutazione circa:

  1. l’aver considerato o meno l’utilizzo di dati anonimi o personali pseudonomizzati;
  2. qualora si sia deciso di non ricorrervi, tale scelta va motivata in relazione allo scopo perseguito. Pertanto è richiesto un onere di documentazione delle scelte;
  3. strategie e tecniche di minimizzazione dei dati, utilizzate al fine di limitare il volume dei dati personali nel processo di formazione;
  4. esistenza di eventuali processi di filtraggio dei dati prima dell’addestramento, finalizzati a escludere dati personali irrilevanti.

i metodi scelti per lo sviluppo di modelli di intelligenza artificiale. 

Le metodologie scelte per lo sviluppo e l’addestramento del modello devono essere robuste e adeguate per eliminare o ridurre in modo significativo l’identificabilità dei dati. Tra le valutazioni rientrano: l’utilizzo di metodi per il miglioramento dell’applicazione generale del modello e ridurre il rischio di overfitting (rischi che il modello si adegui ai dati propri del data set ma non sia in grado di adattarsi a dati nuovi) e l’adozione, da parte del titolare del trattamento, di adeguate politiche privacy 

tecniche adottate per ridurre il rischio che il modello di I.A. fornisca dati personali in risposta alle queries.

Analisi del modello di AI

I titolari del trattamento devono condurre audit, anche documentali, finalizzati alla valutazione delle misure adottate e del loro impatto in relazione alla limitazione delle probabilità di identificazione. 

Tra le analisi documentali potrebbero rientrare l’analisi delle relazioni sulle revisioni dei codici.

Queste operazioni sono necessarie poiché è necessario che il progetto sia stato effettivamente sviluppato come previsto.

Resistenza del modello agli attacchi 

A tal proposito saranno oggetto di valutazione la portata, la frequenza, la quantità e la qualità dei test condotti sul modello. Al momento, tra gli altri, sono attesi test strutturati contro la possibilità di inferenza di attributi; l’esfiltrazione; il rigurgito dei dati di addestramento; l’inversione del modello, o la ricostruzione.

Documentazione

Tra i controlli che saranno svolti vi sono quelli documentali. Avere una documentazione completa e adeguata è rilevante poiché l’EDPB ha fornito una indicazione chiara: se l’Autorità di controllo non riesce ad avere la certezza dell’anonimizzazione del dato, allora il modello di AI ha fallito la conformità a questo aspetto. Poiché la prova è in capo al titolare, se l’Autorità ha ancora dei dubbi, allora la prova non è sufficiente.

Tra i documenti da fornire: 

  1. qualsiasi informazione relativa alle DPIA. In caso non sia stata svolta devono essere fornite le valutazione e le decisioni che ne hanno stabilito la non necessarietà; 
  2. qualsiasi consiglio o feedback fornito dal Responsabile della protezione dei dati (“DPO”), se esistente e nominato. Importante quindi conservare anche le interlocuzione avute con il DPO;
  3. informazioni sulle misure tecniche e organizzative adottate durante l’elaborazione del modello di IA per ridurre la probabilità di identificazione, compresi il modello di minaccia e le valutazioni dei rischi su cui si basano tali misure. 

Le misure vanno valutate in relazione allo specifico set di dati di addestramento, sia quelle adottate dal Titolare sia quelle già eventualmente adottate dal fornitore di set di dati; 

  1. le misure tecniche e organizzative adottate in tutte le fasi del ciclo di vita del modello, che hanno contribuito o verificato l’assenza di dati personali nel modello; 
  2. la documentazione che dimostra la resistenza teorica del modello di IA alle tecniche di re-identificazione, nonché i controlli progettati per limitare o valutare il successo e l’impatto degli attacchi principali (rigurgito, attacchi di inferenza, esfiltrazione, ecc.).

Tra questa documentazione troviamo, in particolare: il rapporto tra la quantità di dati di addestramento e il numero di parametri nel modello, compresa l’analisi del suo impatto sul modello; metriche sulla probabilità di reidentificazione sulla base dello stato dell’arte attuale; le relazioni sulle modalità di verifica del modello (da chi, quando, come e in che misura) e i risultati delle verifiche; 

  1. la documentazione fornita al/ai titolare/i del trattamento e/o agli interessati, in particolare la documentazione relativa alle misure adottate per ridurre la probabilità di identificazione e relativa ai possibili rischi residui.
  2. Utilizzo dei dati per il modello di I.A. Quale base giuridica?

In relazione all’utilizzo dell’Interesse legittimo del Titolare del trattamento (art. 6 l. f) GDPR) quale base giuridica per il trattamento dei dati, l’EDPB propone alcune considerazione che, di fatto, richiamano i principi già esposti nel suo parere 01/2024.

Pertanto è necessario verificare che siano state soddisfatte tutte le seguenti condizioni: 

  • il perseguimento di interessi legittimi del titolare o di terze parti, 
  • il trattamento è necessario per il perseguimento dell’interesse 
  • all’esito dell’operazione di bilanciamento, il legittimo interesse del titolare non deve essere soccombente rispetto ai diritti degli interessati.

Interesse legittimo: deve essere legale, chiaro e precisamente articolato, deve essere reale, presente e non speculativo.

Trattamento necessario: se consente di raggiungere l’interesse perseguito e se non esistono altri trattamenti meno invasivi per il raggiungimento del medesimo interesse.

Test di bilanciamento: in relazione ai modelli di I.A. la valutazione di bilanciamento è particolarmente complessa poiché questi strumenti sono molto invasivi dei diritti degli interessati. 

In particolare, nella fase di sviluppo potrebbero entrare in gioco gli interessi all’autodeterminazione dell’individuo e il controllo sui suoi dati personali. 

Nella fase di implementazione del modelli potrebbero essere intaccati gli interessi al mantenimento del controllo dei propri dati personali, gli interessi finanziari, i benefici personali o gli interessi socio-economici, ecc. 

Inoltre la raccolta massiva, anche attraverso web-scraping, di dati personali, potrebbe aumentare la percezione di controllo da parte degli individui che, conseguentemente, potrebbero giungere ad azioni di “auto-censura”.

Ulteriore aspetto da valutare è l’impatto del trattamento dei dati personali, questo può dipendere dalla natura dei dati trattati, dal contesto del trattamento e dalle sue conseguenze.

Le valutazioni, inoltre, saranno diverse a seconda che i dati personali siano contenuti nel data set di allenamento, oppure che siano il risultato di output del completo sistema di A.I.

Altre misure che saranno oggetto di analisi riguardano le misure di sicurezza adottate per evitare un utilizzo dannoso del modello A.I.

Particolarmente interessante è l’aspetto riguardante le ragionevoli aspettative degli interessati. Cioè se questi, al momento in cui hanno fornito i propri dati, anche in relazione al contesto, potessero aspettarsi che questi fossero utilizzati per l’addestramento di modelli di I.A. A questo fine è importante fare riferimento agli elementi indicati nelle già citate linee guida EDPB(01/2024).

Oltre a ciò è importante considerare il contesto più ampio del trattamento, ad esempio il fatto che i dati personali fossero o meno disponibili pubblicamente, la natura del rapporto tra l’interessato e il titolare del trattamento, la natura del servizio, il contesto in cui i dati personali sono stati raccolti, la fonte da cui sono stati raccolti, le possibilità di ulteriori utilizzi del modello e se gli interessati sono effettivamente consapevoli del fatto che i loro dati personali sono online.

Misure di mitigazione

Sono strumenti volti a fare in modo che i diritti degli interessati e di terze parti non prevalgano sull’interesse del titolare. Tali misure dovranno essere adattate alle circostanze del caso specifico e potranno dipendere da diversi fattori, non ultimo l’utilizzo a cui è destinato lo strumento di A.I.

In relazione alla fase di sviluppo del modello, sono diverse le misure tecniche che possono essere adottate:

  • misure già viste per la valutazione delle tecniche di anonimizzazione del modello (design e analisi del modello, resistenza agli attacchi, documentazione) quando queste misure non siano necessarie per adempiere ad altri obblighi del GDPR;
  • misure di pseudonimizzazione, vi rientrano strumenti volti a evitare qualsiasi combinazione di dati basata su identificatori individuali. L’EDPB mette in guardia sul fatto che tali misure potrebbero essere valutate inadeguate se l’Autorità di controllo ritenesse che il Titolare abbia necessità di raccogliere dati diversi su un determinato individuo per lo sviluppo del sistema o del modello di A.I.;
  • misure per mascherare i dati personali o sostituirli con dati falsi nel data set di addestramento. Questa misura potrebbe essere particolarmente opportuna nei modelli, ad esempio, di LLM (Large Language Model) e altri in cui l’elaborazione dell’informazione non è determinante per il trattamento complessivo e potrebbe, quindi, rivelarsi superflua;

Misure per facilitare l’esercizio dei diritti degli interessati:

  • Osservare un periodo ragionevole, a seconda dei casi, tra la raccolta dei dati e il loro utilizzo, così che gli interessati possano utilizzare tale periodo per esercitare i loro diritti;
  • Fornire un incondizionato diritto di opposizione o di opt-out sin dall’inizio, al fine di dare all’interessato la possibilità di controllo sui propri dati, anche oltre le aspettative e le indicazioni dell’art. 21 GDPR;
  • Garantire il diritto di cancellazione dei dati agli interessati anche quando non ricorrono i motivi specifici previsti dall’art. 17 GDPR;
  • Fornire la possibilità agli interessati di presentare reclami di diversa natura e impostare tecniche che consentano al controllore di applicare meccanismi di “disapprendimento” del modello.

Misure di trasparenza:

Alcune tecniche, oltre a quelle previste dal GDPR, possono aiutare a compensare l’asimmetria informativa consentendo agli interessati una maggiore comprensione su come i propri dati sono utilizzati.

  • Diffusione di informazioni pubbliche, che vanno oltre gli schemi degli art. 13 e 14 GDPR, sui criteri di raccolta dei dati e sulle serie di dati utilizzati, con particolare riguardo ai soggetti vulnerabili;
  • Forme alternative di diffusione attraverso campagne mediatiche, via mail, visualizzazione grafica e schede modello, oltreché una relazione annuale volontaria sulla trasparenza;

Da queste misure suggerite si vede come lo stesso EDPB inviti ad andare oltre il dettato del GDPR che potrebbe non essere più sufficiente di fronte ai nuovi rischi introdotti dall’Intelligenza Artificiale.

Specifiche misure di mitigazione per il web scraping

Il web scraping è quella modalità di raccolta che consente di estrarre dati dalle pagine web e di raccoglierli in data base.

Questa modalità di raccolta, che significa letteralmente “raschiare il web”, è una forma di raccolta di dati simile ad una “pesca a strascico”. Per questa sua peculiarità, questa modalità di estrazione dati presenta rischi specifici, tanto che le Autorità di controllo per la protezione dei dati personali, nei mesi scorsi adottavano linee guida congiunte.

L’EDPB, nel documento in analisi, individua alcune misure di sicurezza specifiche per i rischi legati a questa modalità di raccolta dati. Queste misure sono aggiuntive, oltre a quelle già individuate nelle pagine precedenti.

  • Non pubblicare dati che potrebbero comportare rischi per determinate persone o gruppi di persone;
  • garantire che determinate categorie di dati non siano raccolte o che determinate fonti siano escluse dalla raccolta dei dati. Potrebbe riguardare, ad esempio, siti web che siano particolarmente rischiosi a causa della sensibilità dell’argomento trattato;
  • non procedere alla raccolta di quei dati contenuti in siti web che si oppongono chiaramente al web scraping e al riutilizzo dei loro contenuti per creare database per l’addestramento di IA;
  • imporre altri limiti pertinenti alla raccolta, eventualmente includendo criteri basati su periodi di tempo;
  • creazione di una lista di opt-out, gestita dal titolare del trattamento, che consente agli interessati di opporsi alla raccolta dei loro dati su determinati siti web o piattaforme online.

Ulteriori misure di sicurezza individuate dall’EDPB:

  • misure tecniche per impedire la conservazione, il rigurgito o la generazione di dati personali, in particolare nel contesto di modelli di IA generativa (come i filtri di output), e/o per attenuare il rischio di riutilizzo illecito da parte di modelli di IA di uso generale (ad esempio la filigrana digitale dei risultati generati dall’IA); 
  • misure che facilitano o accelerano l’esercizio dei diritti delle persone fisiche nella fase di diffusione, al di là di quanto richiesto dalla legge, riguardanti in particolare, e non solo, l’esercizio del diritto alla cancellazione dei dati personali dai dati di output del modello o dalla deduplicazione, e le tecniche post-addestramento che tentano di rimuovere o sopprimere i dati personali.

Conseguenze di un utilizzo illegittimo dei dati 

In caso di violazione le Autorità di controllo possono imporre l’adozione di misure correttive tra cui l’emissione di una sanzione pecuniaria, l’imposizione di una limitazione temporanea del trattamento, la cancellazione di una parte dell’insieme di dati che è stata trattata illecitamente. Qualora non sia possibile, considerando il principio di proporzionalità, l’Autorità potrebbe giungere a imporre la cancellazione dell’intero insieme di dati utilizzato per lo sviluppo del modello I.A. o del modello stesso. 

La misura sarà ritenuta proporzionata se non vi sono altre misure adeguatamente utilizzabili dal titolare (es. la riqualificazione). 

Conclusioni

Lo sviluppo di modelli I.A. necessita di utilizzare dati in grandi quantità, pertanto il ruolo svolto dal GDPR e dalle Autorità di controllo è determinante, così come le attenzioni che gli sviluppatori e gli utilizzatori dei modelli dovranno riservare a questi aspetti.

L’esecuzione di una DPIA prima dell’adozione del modello I.A. appare francamente inevitabile, a questo fine è necessario conoscere le procedure tecniche e soprattutto avere a disposizione la documentazione relativa al modello e alle modalità di sviluppo e addestramento. 

L’A.I. Act non sarà efficace ancora per diverso tempo, ma il GDPR fornisce delle regole attuali e cogenti il cui rispetto, non solo è un obbligo normativo, ma costituisce anche una sorta di framework per una corretta e adeguata gestione dei modelli di I.A. nel rispetto dei diritti.

Andrea Capelli
Avvocato, consulente e formatore presso realtà pubbliche e private in materia di informatica giuridica, protezione dei dati personali e sicurezza informatica