Andrea Capelli : 6 Gennaio 2025 10:33
Gli strumenti di intelligenza artificiale sono ormai una realtà conclamata con cui tutti noi operiamo giornalmente. Sono strumenti che stanno rapidamente diventando insostituibili e necessari, soprattutto in ambito produttivo e lavorativo in genere.
In questi mesi si è parlato molto di I.A., di come adottarla, di come implementarla nei processi produttivi. Ci siamo fatti una cultura su concetti come Machine Learning, Training, Large Language Models, e relativi acronimi. Il 2024 ha visto anche l’approvazione dell’A.I. Act che, tuttavia prima del 2026 non vedrà una vera e propria efficacia.
Ciò detto, oggi molte realtà, produttive e non, si pongono domande su come implementare correttamente strumenti di intelligenza artificiale nei propri processi organizzativi e produttivi, in particolare in relazione al trattamento dei dati personali.
Vuoi diventare un Ethical Hacker?
Non perdere i nostri corsi e scrivi subito su WhatsApp al numero
375 593 1011
per richiedere informazioni dicendo che hai trovato il numero sulle pagine di Red Hot Cyber
Supporta RHC attraverso:
Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.
Infatti è noto che i dati sono la linfa vitale di qualunque sistema di Intelligenza Artificiale, attraverso i quali viene allenato. Gli stessi concetti di data set e big data sono ormai entrati nel linguaggio quotidiano di chi si occupa di materie digitali, che sa bene quanto l’affidabilità e la sicurezza di un sistema di AI dipenda dalla qualità e dalla quantità di dati con i quali viene svolto il training.
Ciò ha fatto sorgere una serie di domande e problematiche agli operatori, che sono state accolte e fatte proprie anche dalle Autorità di Controllo. In particolare l’Autorità Garante per la protezione dei dati personali irlandese ha sottoposto all’EDPB una serie di questioni che hanno trovato recentemente risposta in alcune linee guida emesse dall’organismo europeo. Queste costituiscono una buona traccia da seguire in un momento in cui la strada verso una completa compliance nell’adozione dell’Intelligenza Artificiale è caratterizzata da banchi di nebbia sparsi.
L’obiettivo dichiarato del parere fornito dall’EDPB è infatti quello di fornire una quadro di riferimento alle Autorità di controllo per la soluzione di alcune questioni che potrebbero sorgere.
Benché non si ponga l’obiettivo di dare risposte totalmente esaustive, questo quadro di riferimento per i controllori è uno strumento fondamentale anche per i controllati, che hanno, in tal modo, una traccia da seguire per essere conformi alla normativa.
Il primo passaggio determinante è comprendere in quale ambito si applicano le linee guida fornite dall’EDPB.
In primo luogo l’EDPB fa riferimento la definizione di Intelligenza Artificiale data dall’A.I. Act, tuttavia questo richiamo ha il solo scopo di stabilire che il documento in analisi non riguarda i modelli di Intelligenza Artificiale in quanto tali.
Infatti le linee guida in commento si applicano solo a quel sottoinsieme di modelli di intelligenza artificiale che sono il frutto di un addestramento attraverso i dati.
Questa specificazione non è di secondo momento considerato che alcuni modelli di AI, oggetto di training, possono essere incorporati in altri strumenti definiti di Intelligenza Artificiale.
Ciò detto, queste linee guida si applicano solo al modello di A.I. che è oggetto di addestramento sui dati e non agli altri modelli che, integrati al primo, daranno origine al prodotto unitario finale.
In seconda battuta l’EDPB specifica che le linee guida si applicano anche a quei modelli di A.I. che, pur non essendo concepiti per fornire dati personali quali risultato di output, vengono comunque addestrati con questi.
Questa considerazione non dovrebbe sorprendere considerato che il GDPR considera dati personali qualsiasi informazione che renda, in qualunque modo, un soggetto identificato o identificabile.
Partendo da questo presupposto l’EDPB evidenzia che la recente ricerca ha dimostrato come sia ragionevolmente probabile, mediante l’impiego di certi strumenti, poter estrarre i dati di addestramento e quelli oggetto di analisi del modello.
D’altronde, come specificato nel documento, i modelli di AI tendenzialmente non contengono record che siano facilmente isolabili, bensì relazioni probabilistiche tra i dati utilizzati dal modello stesso secondo certi parametri. Ciò fa si che tali dati siano deducibili partendo dalle informazioni sul modello.
Tali strumenti, quindi, nel momento in cui utilizzano dati personali per l’addestramento e/o per l’elaborazione dei risultati, anche se non li forniscono come output, non possono comunque essere considerati anonimi. Si consideri, inoltre, che tali dati, anche se non vengono forniti come risultato, sono comunque acquisiti, elaborati e conservati dal modello. Tutte operazioni che, a mente del GDPR, costituiscono trattamenti (“qualsiasi operazione o insieme di operazioni, compiute con o senza l’ausilio di processi automatizzati e applicate a dati personali o insiemi di dati personali”, art. 4 n. 2) ).
Dopo aver compiuto un esplicito riferimento al concetto e alle tecniche di anonimizzazione previste dal provvedimento del WP29 05/2014, l’EDPB chiarisce che va fornita la prova circa l’avvenuta anonimizzazione del dato.
I criteri di prova sono tre:
L’EDPB conclude sostenendo che affinché un modello di IA possa essere considerato anonimo, sia la probabilità di estrazione diretta (anche probabilistica) di dati personali che la probabilità di ottenere, intenzionalmente o meno, tali dati personali da query, dovrebbe essere irrilevante per qualsiasi interessato.
La valutazione deve essere svolta considerando tutti i mezzi che ragionevolmente possono essere utilizzati.
Un ulteriore spunto da valutare riguarda il pericolo di divulgazione e replicazione del modello.
Una premessa importante: l’EDPB ha messo in chiaro che ciascuna valutazione deve riguardare la singola fattispecie, un approccio, quindi, “caso per caso”.
Con questa consapevolezza, analizziamo alcuni passaggi ed elementi che lo stesso EDPB ha posto in evidenza e che dovrebbero essere oggetto di valutazione.
Modello IA pubblico o interno?
La valutazione dei rischi potrà essere diversa a seconda che un modello di intelligenza artificiale sia pubblico e disponibile a una platea ampia o indeterminata di soggetti, piuttosto che sia un utilizzato solo internamente e a disposizione dei soli dipendenti.
Saranno valutati:
le misure adottate per evitare o limitare la raccolta dei dati personali.
Ciò comporta una valutazione di adeguatezza dei criteri di selezione e la pertinenza delle fonti scelte in relazione agli scopi previsti. Eventuale esclusione di fonti inappropriate;
la preparazione dei dati per la fase di formazione.
Ciò comporta una valutazione circa:
i metodi scelti per lo sviluppo di modelli di intelligenza artificiale.
Le metodologie scelte per lo sviluppo e l’addestramento del modello devono essere robuste e adeguate per eliminare o ridurre in modo significativo l’identificabilità dei dati. Tra le valutazioni rientrano: l’utilizzo di metodi per il miglioramento dell’applicazione generale del modello e ridurre il rischio di overfitting (rischi che il modello si adegui ai dati propri del data set ma non sia in grado di adattarsi a dati nuovi) e l’adozione, da parte del titolare del trattamento, di adeguate politiche privacy
tecniche adottate per ridurre il rischio che il modello di I.A. fornisca dati personali in risposta alle queries.
I titolari del trattamento devono condurre audit, anche documentali, finalizzati alla valutazione delle misure adottate e del loro impatto in relazione alla limitazione delle probabilità di identificazione.
Tra le analisi documentali potrebbero rientrare l’analisi delle relazioni sulle revisioni dei codici.
Queste operazioni sono necessarie poiché è necessario che il progetto sia stato effettivamente sviluppato come previsto.
A tal proposito saranno oggetto di valutazione la portata, la frequenza, la quantità e la qualità dei test condotti sul modello. Al momento, tra gli altri, sono attesi test strutturati contro la possibilità di inferenza di attributi; l’esfiltrazione; il rigurgito dei dati di addestramento; l’inversione del modello, o la ricostruzione.
Tra i controlli che saranno svolti vi sono quelli documentali. Avere una documentazione completa e adeguata è rilevante poiché l’EDPB ha fornito una indicazione chiara: se l’Autorità di controllo non riesce ad avere la certezza dell’anonimizzazione del dato, allora il modello di AI ha fallito la conformità a questo aspetto. Poiché la prova è in capo al titolare, se l’Autorità ha ancora dei dubbi, allora la prova non è sufficiente.
Tra i documenti da fornire:
Le misure vanno valutate in relazione allo specifico set di dati di addestramento, sia quelle adottate dal Titolare sia quelle già eventualmente adottate dal fornitore di set di dati;
Tra questa documentazione troviamo, in particolare: il rapporto tra la quantità di dati di addestramento e il numero di parametri nel modello, compresa l’analisi del suo impatto sul modello; metriche sulla probabilità di reidentificazione sulla base dello stato dell’arte attuale; le relazioni sulle modalità di verifica del modello (da chi, quando, come e in che misura) e i risultati delle verifiche;
In relazione all’utilizzo dell’Interesse legittimo del Titolare del trattamento (art. 6 l. f) GDPR) quale base giuridica per il trattamento dei dati, l’EDPB propone alcune considerazione che, di fatto, richiamano i principi già esposti nel suo parere 01/2024.
Pertanto è necessario verificare che siano state soddisfatte tutte le seguenti condizioni:
Interesse legittimo: deve essere legale, chiaro e precisamente articolato, deve essere reale, presente e non speculativo.
Trattamento necessario: se consente di raggiungere l’interesse perseguito e se non esistono altri trattamenti meno invasivi per il raggiungimento del medesimo interesse.
Test di bilanciamento: in relazione ai modelli di I.A. la valutazione di bilanciamento è particolarmente complessa poiché questi strumenti sono molto invasivi dei diritti degli interessati.
In particolare, nella fase di sviluppo potrebbero entrare in gioco gli interessi all’autodeterminazione dell’individuo e il controllo sui suoi dati personali.
Nella fase di implementazione del modelli potrebbero essere intaccati gli interessi al mantenimento del controllo dei propri dati personali, gli interessi finanziari, i benefici personali o gli interessi socio-economici, ecc.
Inoltre la raccolta massiva, anche attraverso web-scraping, di dati personali, potrebbe aumentare la percezione di controllo da parte degli individui che, conseguentemente, potrebbero giungere ad azioni di “auto-censura”.
Ulteriore aspetto da valutare è l’impatto del trattamento dei dati personali, questo può dipendere dalla natura dei dati trattati, dal contesto del trattamento e dalle sue conseguenze.
Le valutazioni, inoltre, saranno diverse a seconda che i dati personali siano contenuti nel data set di allenamento, oppure che siano il risultato di output del completo sistema di A.I.
Altre misure che saranno oggetto di analisi riguardano le misure di sicurezza adottate per evitare un utilizzo dannoso del modello A.I.
Particolarmente interessante è l’aspetto riguardante le ragionevoli aspettative degli interessati. Cioè se questi, al momento in cui hanno fornito i propri dati, anche in relazione al contesto, potessero aspettarsi che questi fossero utilizzati per l’addestramento di modelli di I.A. A questo fine è importante fare riferimento agli elementi indicati nelle già citate linee guida EDPB(01/2024).
Oltre a ciò è importante considerare il contesto più ampio del trattamento, ad esempio il fatto che i dati personali fossero o meno disponibili pubblicamente, la natura del rapporto tra l’interessato e il titolare del trattamento, la natura del servizio, il contesto in cui i dati personali sono stati raccolti, la fonte da cui sono stati raccolti, le possibilità di ulteriori utilizzi del modello e se gli interessati sono effettivamente consapevoli del fatto che i loro dati personali sono online.
Sono strumenti volti a fare in modo che i diritti degli interessati e di terze parti non prevalgano sull’interesse del titolare. Tali misure dovranno essere adattate alle circostanze del caso specifico e potranno dipendere da diversi fattori, non ultimo l’utilizzo a cui è destinato lo strumento di A.I.
In relazione alla fase di sviluppo del modello, sono diverse le misure tecniche che possono essere adottate:
Alcune tecniche, oltre a quelle previste dal GDPR, possono aiutare a compensare l’asimmetria informativa consentendo agli interessati una maggiore comprensione su come i propri dati sono utilizzati.
Da queste misure suggerite si vede come lo stesso EDPB inviti ad andare oltre il dettato del GDPR che potrebbe non essere più sufficiente di fronte ai nuovi rischi introdotti dall’Intelligenza Artificiale.
Il web scraping è quella modalità di raccolta che consente di estrarre dati dalle pagine web e di raccoglierli in data base.
Questa modalità di raccolta, che significa letteralmente “raschiare il web”, è una forma di raccolta di dati simile ad una “pesca a strascico”. Per questa sua peculiarità, questa modalità di estrazione dati presenta rischi specifici, tanto che le Autorità di controllo per la protezione dei dati personali, nei mesi scorsi adottavano linee guida congiunte.
L’EDPB, nel documento in analisi, individua alcune misure di sicurezza specifiche per i rischi legati a questa modalità di raccolta dati. Queste misure sono aggiuntive, oltre a quelle già individuate nelle pagine precedenti.
In caso di violazione le Autorità di controllo possono imporre l’adozione di misure correttive tra cui l’emissione di una sanzione pecuniaria, l’imposizione di una limitazione temporanea del trattamento, la cancellazione di una parte dell’insieme di dati che è stata trattata illecitamente. Qualora non sia possibile, considerando il principio di proporzionalità, l’Autorità potrebbe giungere a imporre la cancellazione dell’intero insieme di dati utilizzato per lo sviluppo del modello I.A. o del modello stesso.
La misura sarà ritenuta proporzionata se non vi sono altre misure adeguatamente utilizzabili dal titolare (es. la riqualificazione).
Lo sviluppo di modelli I.A. necessita di utilizzare dati in grandi quantità, pertanto il ruolo svolto dal GDPR e dalle Autorità di controllo è determinante, così come le attenzioni che gli sviluppatori e gli utilizzatori dei modelli dovranno riservare a questi aspetti.
L’esecuzione di una DPIA prima dell’adozione del modello I.A. appare francamente inevitabile, a questo fine è necessario conoscere le procedure tecniche e soprattutto avere a disposizione la documentazione relativa al modello e alle modalità di sviluppo e addestramento.
L’A.I. Act non sarà efficace ancora per diverso tempo, ma il GDPR fornisce delle regole attuali e cogenti il cui rispetto, non solo è un obbligo normativo, ma costituisce anche una sorta di framework per una corretta e adeguata gestione dei modelli di I.A. nel rispetto dei diritti.
Copyright @ 2003 – 2024 RED HOT CYBER
PIVA 16821691009