Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Condividi la tua difesa. Incoraggia l'eccellenza.
La vera forza della cybersecurity risiede
nell'effetto moltiplicatore della conoscenza.
UtiliaCS 970x120
Fortinet 320x100px
Le Trappole Nascoste dell’Intelligenza Artificiale Generativa: Allucinazioni e Bias negli LLM, come mitigarli?

Le Trappole Nascoste dell’Intelligenza Artificiale Generativa: Allucinazioni e Bias negli LLM, come mitigarli?

24 Novembre 2023 07:24

Ormai tutti parlano di AI generativa e Large Language Models. Modelli come chatGPT e Grok sono oggi sulla bocca di tutti, e sono molte le persone che vogliono adottare soluzioni basati su queste tecnologie per migliorare i loro business.

C’è però da dire, che sebbene le capacità linguistiche di questi modelli siano impressionanti, sono ancora ben lontati dall’essere perfetti, anzi, ci sono molti problemi importanti che ancora non riusciamo a risolvere.

Gli LLM come tutti i modelli di Machine/Deep learning imparano dai dati. Non si può quindi fuggire alla regola garbage in garbage out. Cioè se addestriamo i modelli su dati di bassa qualità, la qualità dell’output nel momento di inferenza sarà altrettanto bassa.

Fonte del problema


Cyber Offensive Fundamentale Ethical Hacking 02

Avvio delle iscrizioni al corso Cyber Offensive Fundamentals
Vuoi smettere di guardare tutorial e iniziare a capire davvero come funziona la sicurezza informatica?
La base della sicurezza informatica, al di là di norme e tecnologie, ha sempre un unico obiettivo: fermare gli attacchi dei criminali informatici. Pertanto "Pensa come un attaccante, agisci come un difensore". Ti porteremo nel mondo dell'ethical hacking e del penetration test come nessuno ha mai fatto prima. Per informazioni potete accedere alla pagina del corso oppure contattarci tramite WhatsApp al numero 379 163 8765 oppure scrivendoci alla casella di posta [email protected].


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Questi modelli di linguaggio in particolare sono stati addestrati sui testi di tutto il web, da Wikipedia fino alle pagine piu sconosciute, e a scrivere quei testi sono stati gli umani. Noi umani non essendo degli automi scriviamo introducento nei testi anche inconsciamente dei bias, come una tendenza verso un determinato partito politico, o nel caso peggiore vengono scritti pensieri razzisti o sessisti e chi piu ne ha più ne metta.

Questo rappresenta il motivo principale per cui, durante le conversazioni con gli LLM, si verificano risposte che presentano dei pregiudizi (o bias). Molte volte, quando si chiede a questi modelli quali siano i lavori più comuni per gli uomini, essi rispondono con avvocato o ingegnere, mentre per le donne, rispondono con prostituta o donna delle pulizie.

Esempio di gender bias in chatGPT

Oltre ai bias, ci troviamo di fronte anche al problema delle allucinazioni. Questi modelli tendono a fornire sempre una risposta all’utente, anche quando non sono in grado di farlo. Invece di dichiarare un semplice “non lo so”, generano una risposta chiaramente falsa, ma con tale sicurezza che risulta complicato per un utente distinguere tra una risposta genuina e una fittizia. In tal modo, si potrebbe affermare che contribuiscono alla diffusione di notizie false.

Come affrontare il problema?

Credo che sia chiaro ormai, che non è possibile mettere in commercio un LLM addestrato su tutto il web senza prendere delle precauzioni. Fortunatamente ci sono delle tecniche che ci permettono di mitigare i problemi di bias e allucinazioni.

In fase di inferenza gli esperti di AI possono tunare dei parametri importanti degli LLM che adesso vedremo in breve.

  • Temperature: un valore alto di temperature favorisce la randomness nella risposta e la creatività, mentre valori bassi rendono l’output più deterministico.
  • Frequency Penalty : incrementando questo valore il modello cercherà di utilizzare più spesso gli stessi token (o stesse sillabe se volete).
  • Presence Penalty: un valore piu alto di questo paramentro aumenta la probabilità di generale token ancora non presenti nel testo generato.
  • Top-p: questo parametro imposta una soglia cumulativa di probabilità, conservando i token con una probabilità complessiva al di sopra di essa.

Un altro modo comune per avere più controllo sull’output degli LLM è quello di utilizzare tecniche di Prompt Engineering. Ad oggi è molto importante saper fare la domanda giusta ai modelli di AI. A seconda di come una cosa viene chiesta potremmo ottenere una risposta più o meno corretta.

Ad esempio con la capacità dei modelli di essere few shot learners, possiamo includere nella query degli esempi di domande simili e risposte attese, prima di porre la nostra domanda.

Few Shot prompting

Un altra tecnica è quella chiamata chain of thoughts (CoT). In questa modalità si chiede al modello di ragionare sul perche della risposta, in questo modo le sue capacità aumentato.

Chain of Thoughts prompting

Un’altro metodo che viene molto usato oggi è quello di utilizzare il framework chiamato Retrieval Augmented Generation (RAG). Nel RAG, viene fornito al modello una collezione di documenti, scelti a priori, da cui il modello potrà attingere informazioni per rispondere fornendo oltre al testo generato anche la risorsa che ha usato per generare tale risposta. Semplicemente l’LLM vede quali documenti sono semanticamente simili alla query ricevuta e si basa su quelli per generare la risposta.

Retrieval Augmented Generation

L’utlimo metodo che vediamo, è stato usato per modelli come GPT, ma è anche il più complicato da implementare. Con questo metodo viene fatto un ulteriore step di training del modello, in cui quindi a differenza dei metodi precedenti vengono aggiurnati i pesi del modello sottostante.

Prima di mettere un LLM in commercio, viene eseguito una fase chiamate reinforcement learning from human feedback (RLHF). In questo caso, ci sono degli annotatori umani, che dicono quanto la generazione del modello sia allineata con i goal umani, cioè quelli di non essere biased e non allucinare. Ovviamente anche qui ci sono delle complicazioni, perchè persone diverse potrebbero avere idee diverse su cosa giudicare giusto o sbagliato.

Ma ad oggi questo meccanismo ha portato a molti benefici in questo senso. Ovviamente essendo una fase di addestramento supervisionato dall’uomo, è un training lento e costoso. Ultimamente si è iniziato a studiare un training simile chiamato reinforcement learning from AI feedback (RLAIF). In questo framework, a dare un giudizio sull’output dell’AI è una AI stessa. Sembra impossibile ma i risultati ottenuti da questo studio sembrano promettenti sebbene ancora peggiori del RLHF.

Conclusioni

In questo articolo abbiamo affrontato il problema di bias e allucinazioni degli LLM e capito da cosa derivano. Esistono varie tecniche usate per mitigare questi problemi, alcune usate in fase di inferenza altre invece in fase di training. Si sta facendo molta ricerca in questo senso, perchè gli LLM sono sempre più parte integrante della vita di tutti i giorni.

Ho lavorato con scuole che vogliono integrare gli LLM per un aiuto allo studio, o chi sta sviluppando LLM che possano occuparsi in modo autonomo del customer service. Sebbene tutti questi servizi sembrano teoricamente strabilianti bisogna non lasciarsi prendere dall’hype ma essere consci ancora dei limiti attuali di queste tecnologie.

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Marcello Politi 300x300
Esperto di intelligenza artificiale con una grande passione per l'esplorazione spaziale. Ho avuto la fortuna di lavorare presso l'Agenzia Spaziale Europea, contribuendo a progetti di ottimizzazione del flusso di dati e di architettura del software. Attualmente, sono AI Scientist & Coach presso la PiSchool, dove mi dedico alla prototipazione rapida di prodotti basati sull'intelligenza artificiale. Mi piace scrivere articoli riguardo la data science e recentemente sono stato riconosciuto come uno dei blogger più prolifici su Towards Data Science.

Articoli in evidenza

Immagine del sitoVulnerabilità
Allarme Cisco: falla CVSS 10 consente RCE come root, attacchi in corso
Redazione RHC - 16/01/2026

Cisco ha confermato che una falla critica di sicurezza zero-day, che consente l’esecuzione remota di codice, è attualmente oggetto di sfruttamento attivo nei suoi dispositivi Secure Email Gateway e Secure Email and Web Manager. Questa…

Immagine del sitoInnovazione
Addio a Windows Server 2008! Microsoft termina definitivamente il supporto
Redazione RHC - 16/01/2026

Questa settimana ha segnato la fine di un’era: Microsoft ha finalmente terminato il supporto per Windows Server 2008, il sistema operativo basato su Windows Vista. Il sistema operativo server, nome in codice Longhorn Server, è…

Immagine del sitoCyberpolitica
Cloudflare, Piracy Shield e il punto cieco europeo: quando la governance diventa un rischio cyber
Sandro Sana - 15/01/2026

L’articolo pubblicato ieri su Red Hot Cyber ha raccontato i fatti: la multa, le dichiarazioni durissime di Matthew Prince, le minacce di disimpegno di Cloudflare dall’Italia, il possibile effetto domino su Olimpiadi, investimenti e servizi…

Immagine del sitoCultura
Il Brussels Effect e la sfida della sovranità tecnologica nel contrasto al CSAM
Paolo Galdieri - 15/01/2026

Dopo aver analizzato nei due articoli precedenti l’inquadramento normativo e il conflitto tra algoritmi e diritti fondamentali è necessario volgere lo sguardo alle ripercussioni che la proposta CSAR avrà sulla competitività digitale dell’Europa e sulla…

Immagine del sitoVulnerabilità
Arriva Reprompt! Un nuovo Attacco a Copilot per esfiltrare i dati sensibili degli utenti
Redazione RHC - 15/01/2026

Una vulnerabilità recentemente risolta permetteva agli aggressori di sfruttare Microsoft Copilot Personal con un semplice clic, al fine di rubare di nascosto dati sensibili degli utenti. Mediante un link di phishing, i malintenzionati erano in…