ZeroTrust Dataset: Il Profondo Rosso degli Attacchi Contraddittori e di Avvelenamento dei dati e il loro controllo

28 Marzo 2024 07:46

Gli attacchi di Avvelenamento dei dati nell’ambito dell’Intelligenza Artificiale (IA) stanno diventando sempre più pervasivi, con potenziali conseguenze devastanti. L’accesso non autorizzato ai dataset e la manipolazione degli stessi possono generare gravi problemi di sicurezza e affidabilità nei modelli di apprendimento automatico.

La manipolazione di queste preziose informazioni, attraverso attacchi di avvelenamento dei dati (Poisoning Attack) o contraddittori (Adversarial Attack), possono portare a degli output completamente differenti rispetto alle attese.

Ad esempio, nell’ambito del riconoscimento delle immagini, un’immagine può essere modificata in modo impercettibile aggiungendo del rumore o alterando pochissimi pixel. Tuttavia, queste piccolissime modifiche possono essere sufficienti a confondere un modello di una IA durante la fase di inferenza.

Ecco quindi che nasce il concetto di “ZeroTrust Dataset”.

Questo termine si riferisce a un dataset che è stato accuratamente verificato in termini di sicurezza, il quale mantiene un equilibrio non solo dal punto di vista etico e di genere, ma anche in termini di rappresentazione culturale, diversità, inclusione e trasparenza. L’obiettivo è quindi creare dataset sicuri che possano essere utilizzati nell’addestramento dei modelli di intelligenza artificiale, offrendo una base solida e affidabile per lo sviluppo di algoritmi e applicazioni avanzate.

Attacchi di Avvelenamento dei dati e Movimenti Laterali

Nell’era digitale, l’accesso non autorizzato a dataset e la manipolazione dei dati rappresentano una minaccia subdola e insidiosa per i sistemi di Intelligenza Artificiale (IA). Gli attacchi di avvelenamento e i movimenti laterali all’interno dei sistemi informatici creano un terreno fertile per la compromissione dei dataset utilizzati per l’addestramento degli algoritmi di apprendimento automatico.

Gli attacchi di avvelenamento si infiltrano nell’integrità dei dataset, introducendo dati dannosi o manipolati. Ma tali dataset possono anche essere prelevati da repository pubblici i quali non essendo stati verificati, possono contenere delle backdoor ignote che possono rivelarsi altamente pericolose per il modello stesso.

Questi dati possono essere inseriti in modo strategico per influenzare il processo decisionale degli algoritmi, portando a risultati distorti o addirittura dannosi. Attraverso attacchi di ingegneria sociale o attraverso vulnerabilità software, un attaccante potrebbe insinuarsi nell’infrastruttura IT di una azienda e attraverso movimenti laterali raggiungere il target: i dataset di apprendimento degli algoritmi di IA. A questo punto poter manipolare a piacimento il dataset consentirebbe all’attaccante di alterare l’integrità dei dati in esso contenuti ed inserire al suo interno potenziali backdoor in modo graduale e discreto.

Il pericolo di questi attacchi risiede nella loro natura sfuggente e nel loro potenziale impatto. Le manipolazioni nei dataset possono compromettere la fiducia nel processo decisionale degli algoritmi di IA, portando a risultati errati di etichettatura del modello.

Affrontare questa minaccia richiede un approccio multidimensionale alla sicurezza informatica e alla sicurezza dei dataset e dei sistemi di IA. È fondamentale quindi implementare misure robuste di sicurezza informatica e come sempre, non dimenticarsi della consapevolezza del rischio informatico e la formazione del proprio personale, anche se qua si tratta di altra storia.

L’importanza del dato

Nel contesto dell’Intelligenza Artificiale (IA), la fiducia nei dataset utilizzati per l’addestramento dei modelli rappresenta un elemento fondamentale per garantire l’integrità e l’affidabilità dei risultati. Il concetto di “trust” nei dataset sottolinea la necessità di considerare questi dati come fonti accurate e prive di interferenze esterne, indispensabili per lo sviluppo di sistemi di IA etici ed efficaci.

I dataset sono l’input primario per l’addestramento degli algoritmi di apprendimento automatico e, di conseguenza, la qualità e l’affidabilità di tali dati influenzano direttamente le prestazioni e la validità dei modelli risultanti. Il trust nei dataset implica quindi la garanzia che le informazioni in essi contenute siano accurate, rappresentative e prive di manipolazioni malevole.

Un aspetto cruciale del trust nei dataset è il bilanciamento etico e di genere delle informazioni. I dataset devono riflettere in modo equo la diversità della società, evitando discriminazioni o distorsioni nei confronti di determinati gruppi o categorie. Questo richiede una cura particolare nella selezione e nell’annotazione dei dati, assicurando una rappresentazione equa e inclusiva di tutte le persone e le realtà presenti nel contesto analizzato.

Inoltre, il trust nei dataset implica anche la verifica e la validazione continua delle informazioni contenute in essi. È fondamentale garantire che i dati siano accurati, aggiornati e liberi da errori o manipolazioni. Questo richiede l’implementazione di procedure di controllo di qualità rigorose e sistemi di monitoraggio costante, al fine di identificare e correggere eventuali anomalie o discrepanze.

La nascita del concetto di “ZeroTrust Dataset” riflette proprio questa esigenza di garanzia di un livello elevato di sicurezza e affidabilità nei dataset utilizzati per l’addestramento di modelli di IA. Questi dataset devono essere privi di interferenze esterne e correttamente bilanciati dal punto di vista etico e di genere, rappresentando così un fondamento solido per lo sviluppo di sistemi di IA sicuri ed etici.

Nascita del Concetto di ZeroTrust Dataset

Il concetto emergente di “ZeroTrust Dataset” rappresenta una risposta chiave alle sfide sempre più complesse e pervasivi associate alla sicurezza dei dati nell’ambito dell’Intelligenza Artificiale (IA). L’evoluzione di questo concetto è motivata dalla necessità di garantire un livello elevato di sicurezza e affidabilità nei dataset utilizzati per addestrare gli algoritmi di apprendimento automatico.

ZeroTrust Dataset nasce dalla consapevolezza che, in un contesto digitale sempre più vulnerabile, non è più sufficiente affidarsi ciecamente alla provenienza o alla qualità dei dati. La fiducia nei dataset deve essere guadagnata attraverso una rigorosa valutazione della loro sicurezza e affidabilità, indipendentemente dalle loro origini.

Questo approccio si basa sull’idea fondamentale che nessun dato debba essere considerato affidabile per impostazione predefinita. In altre parole, è necessario adottare una mentalità di “Zero Trust” nei confronti dei dati, considerandoli potenzialmente compromessi finché non viene dimostrato il contrario attraverso rigorosi processi di verifica e validazione.

L’introduzione di ZeroTrust Dataset riflette anche la crescente consapevolezza dei rischi associati ai movimenti laterali all’interno dei sistemi di IA. Come discusso precedentemente, i movimenti laterali consentono agli attaccanti di muoversi liberamente all’interno dei sistemi una volta ottenuto l’accesso iniziale, rendendo possibile la manipolazione dei dataset utilizzati per l’addestramento dei modelli. In questo contesto, lo ZeroTrust Dataset si rivela tale solo attraverso ricorsive attività di controllo, che possono verificare eventuali violazioni e ripristinarne la sicurezza.

È importante sottolineare che il concetto di ZeroTrust Dataset andrà sempre più di pari passo con l’evoluzione dei sistemi di IA.

Problemi di Regolamentazione e Laboratori di Certificazione dei Dataset

Attualmente, uno dei principali ostacoli nel campo dell’Intelligenza Artificiale (IA) è la mancanza di regolamentazione e certificazione dei dataset. Questa lacuna normativa lascia spazio a una serie di rischi e sfide legate alla sicurezza e all’affidabilità dei dati utilizzati per addestrare gli algoritmi di IA. Tuttavia, stanno emergendo iniziative e proposte normative, come l’AI Act, che mirano a definire un quadro regolatorio chiaro e metodico per affrontare questi problemi.

L’AI Act, proposto dall’Unione Europea, rappresenta un tentativo significativo di regolamentare l’uso e lo sviluppo dell’IA, incluso l’addestramento dei modelli sui dataset. Questa proposta legislativa mira a garantire un utilizzo etico, sicuro e responsabile dell’IA, introducendo norme e standard riguardanti la qualità e la sicurezza dei dati utilizzati per addestrare gli algoritmi.

Tuttavia, nonostante questi sforzi, resta ancora molto da fare per sviluppare un quadro normativo completo e coerente per la governance dei dataset nell’IA. Attualmente, mancano regole specifiche per la valutazione e la certificazione dei dataset, nonché per la responsabilità legali in caso di utilizzo di dati non conformi alle normative etiche e di sicurezza ancora tutte da definire.

E’ quanto mai necessario affrontare il problema della disponibilità e dell’accessibilità dei dataset validati e sicuri per le aziende operanti nel mondo dell’IA. Molti dataset gratuiti, spesso utilizzati per ragioni di convenienza e di costo, possono contenere vulnerabilità o essere soggetti a manipolazioni malevole.

È quindi fondamentale creare degli specifici laboratori di certificazione dei dataset a livello europeo che possano effettuare ricerca, valutazione e controllo dei dataset che possano essere utilizzati in infrastrutture critiche nazionali.

Tali laboratori dovranno occuparsi di:

Valutare la qualità dei dati: I laboratori potrebbero valutare la qualità dei dataset in termini di accuratezza, completezza, rappresentatività e privazione di pregiudizi. Ciò potrebbe coinvolgere l’analisi della precisione dei dati rispetto al fenomeno che intendono rappresentare e la valutazione della presenza di eventuali bias o distorsioni nei dati;
Certificazione di conformità normativa: I laboratori potrebbero verificare che i dataset siano conformi alla normativa sulla protezione dei dati personali e ad altre normative applicabili in materia di privacy e sicurezza dei dati. Ciò potrebbe includere la valutazione della conformità alle leggi sulla privacy, alla normativa sulla sicurezza dei dati e alle linee guida etiche;
Trasparenza e documentazione: I laboratori potrebbero richiedere agli operatori di fornire documentazione dettagliata sulla provenienza, sulla qualità e sulla manipolazione dei dati nei loro dataset. Ciò potrebbe includere informazioni sulla raccolta dei dati, sulle fonti dei dati, sulle metodologie di campionamento e sulla gestione dei dati mancanti o incompleti;
Revisione indipendente: I laboratori potrebbero condurre revisioni indipendenti dei dataset per garantire l’integrità e l’affidabilità delle fonti. Ciò potrebbe coinvolgere la revisione dei metodi di raccolta dati, la validazione dei dati rispetto alle fonti originali e la verifica della conformità alle migliori pratiche e agli standard di settore;
Certificazione di qualità: Una volta completata l’analisi e la valutazione, i laboratori potrebbero rilasciare certificazioni di qualità per i dataset che soddisfano determinati criteri di qualità e affidabilità. Queste certificazioni potrebbero essere utilizzate dagli operatori di IA e dalle parti interessate come marchio di garanzia per la qualità e l’affidabilità dei dati;
Ricerca & Sviluppo: I laboratori dovrebbero impegnarsi costantemente nell’analizzare ulteriori modalità di manipolazione dei dataset, conducendo attività di ricerca per comprendere nuovi metodi e tecniche utilizzati dai malintenzionati. Questo sforzo di ricerca dovrebbe essere accompagnato dalla definizione di adeguate strategie di mitigazione e contromisure per contrastare gli scenari di manipolazione individuati;
Collaborazione con la comunità scientifica: Inoltre, i laboratori potrebbero collaborare attivamente con la comunità scientifica e le istituzioni accademiche per condividere le scoperte e promuovere lo sviluppo di soluzioni innovative per proteggere l’integrità e l’affidabilità dei dataset utilizzati nell’ambito dell’intelligenza artificiale.

Per affrontare questi problemi, sono necessarie iniziative a livello europeo di livello “politico” e non solo a livello livello nazionale, regionale o della singola azienda. Laboratori centrali, possibilmente a livello europeo o internazionale, sono quantomai necessari per supervisionare la qualità e la sicurezza dei dataset e renderli disponibili solo dopo aver superato rigorosi test di verifica e certificazione.

Guardando al futuro, è chiaro che la regolamentazione dei dataset nell’IA diventerà sempre più cruciale. L’evoluzione delle tecnologie di IA e il loro impatto sempre maggiore sulla società rendono essenziale garantire la sicurezza e l’affidabilità dei dati utilizzati per addestrare gli algoritmi. Solo attraverso un quadro normativo chiaro e coerente sarà possibile garantire un utilizzo etico, sicuro e responsabile dell’IA, nel rispetto dei diritti e delle normative vigenti.

Conclusioni

L’importanza dei dataset nell’addestramento degli algoritmi di Intelligenza Artificiale (IA) è indiscutibile. Essi costituiscono il fondamento su cui si basano i modelli di IA, influenzando direttamente la loro efficacia, etica e la sicurezza. Tuttavia, la crescente complessità del mondo digitale hanno evidenziato la necessità di garantire un livello elevato di sicurezza e affidabilità nei dataset utilizzati per l’IA.

Gli attacchi di avvelenamento rappresentano una minaccia sempre più pervasiva, mettendo in discussione l’integrità dei dati e la validità dei modelli risultanti. In questo contesto, il concetto di ZeroTrust Dataset emerge come una risposta chiave per mitigare i rischi associati a tali minacce, garantendo che i dati utilizzati per addestrare gli algoritmi siano affidabili e privi di interferenze malevole.

Tuttavia, la mancanza di una regolamentazione efficace dei dataset rappresenta ancora un ostacolo significativo. Mentre iniziative come l’AI Act dell’Unione Europea offrono una base per una governance più robusta dell’IA, resta ancora molto da fare per sviluppare un quadro normativo completo e coerente per la gestione dei dataset.

Guardando al futuro, è chiaro che la sicurezza e l’affidabilità dei dataset diventeranno sempre più cruciali. È essenziale promuovere la creazione e l’utilizzo di dataset supervisionati e certificati, anche per la sicurezza nazionale che rispettino standard elevati di sicurezza e qualità. Solo attraverso un impegno collettivo per garantire un utilizzo etico, sicuro e responsabile dell’IA potremo sfruttare appieno il potenziale di questa tecnologia e affrontare le sfide etiche e sociali del nostro tempo.

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Massimiliano Brolli

Responsabile del RED Team di una grande azienda di Telecomunicazioni e dei laboratori di sicurezza informatica in ambito 4G/5G. Ha rivestito incarichi manageriali che vanno dal ICT Risk Management all’ingegneria del software alla docenza in master universitari.

Aree di competenza: Bug Hunting, Red Team, Cyber Threat Intelligence, Cyber Warfare e Geopolitica, Divulgazione

Articoli in evidenza

Cybercrime

Campagna di phishing su Signal in Europa: sospetto coinvolgimento di attori statali

Bajram Zeqiri - 07/02/2026

Le autorità tedesche hanno recentemente lanciato un avviso riguardante una sofisticata campagna di phishing che prende di mira gli utenti di Signal in Germania e nel resto d’Europa. L’attacco si concentra su profili specifici, tra…

Innovazione

Robot in cerca di carne: Quando l’AI affitta periferiche. Il tuo corpo!

Silvia Felici - 06/02/2026

L’evoluzione dell’Intelligenza Artificiale ha superato una nuova, inquietante frontiera. Se fino a ieri parlavamo di algoritmi confinati dietro uno schermo, oggi ci troviamo di fronte al concetto di “Meatspace Layer”: un’infrastruttura dove le macchine non…

Cybercrime

DKnife: il framework di spionaggio Cinese che manipola le reti

Pietro Melillo - 06/02/2026

Negli ultimi anni, la sicurezza delle reti ha affrontato minacce sempre più sofisticate, capaci di aggirare le difese tradizionali e di penetrare negli strati più profondi delle infrastrutture. Un’analisi recente ha portato alla luce uno…

Vulnerabilità

Così tante vulnerabilità in n8n tutti in questo momento. Cosa sta succedendo?

Agostino Pellegrino - 06/02/2026

Negli ultimi tempi, la piattaforma di automazione n8n sta affrontando una serie crescente di bug di sicurezza. n8n è una piattaforma di automazione che trasforma task complessi in operazioni semplici e veloci. Con pochi click…

Innovazione

L’IA va in orbita: Qwen 3, Starcloud e l’ascesa del calcolo spaziale

Sergio Corpettini - 06/02/2026

Articolo scritto con la collaborazione di Giovanni Pollola. Per anni, “IA a bordo dei satelliti” serviva soprattutto a “ripulire” i dati: meno rumore nelle immagini e nei dati acquisiti attraverso i vari payload multisensoriali, meno…