Le Trappole Nascoste dell’Intelligenza Artificiale Generativa: Allucinazioni e Bias negli LLM, come mitigarli?

Marcello Politi : 24 Novembre 2023 07:24

Ormai tutti parlano di AI generativa e Large Language Models. Modelli come chatGPT e Grok sono oggi sulla bocca di tutti, e sono molte le persone che vogliono adottare soluzioni basati su queste tecnologie per migliorare i loro business.

C’è però da dire, che sebbene le capacità linguistiche di questi modelli siano impressionanti, sono ancora ben lontati dall’essere perfetti, anzi, ci sono molti problemi importanti che ancora non riusciamo a risolvere.

Gli LLM come tutti i modelli di Machine/Deep learning imparano dai dati. Non si può quindi fuggire alla regola garbage in garbage out. Cioè se addestriamo i modelli su dati di bassa qualità, la qualità dell’output nel momento di inferenza sarà altrettanto bassa.

Fonte del problema

Sei un Esperto di Formazione?
Entra anche tu nel Partner program! Accedi alla sezione riservata ai Creator sulla nostra Academy e scopri i vantaggi riservati ai membri del Partner program.

Contattaci tramite WhatsApp al 375 593 1011 per richiedere ulteriori informazioni oppure scriviti alla casella di posta [email protected]

Supporta RHC attraverso:

L'acquisto del fumetto sul Cybersecurity Awareness

Scarica gratuitamente "Dark Mirror", il report sul ransomware di Dark Lab

Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.

Questi modelli di linguaggio in particolare sono stati addestrati sui testi di tutto il web, da Wikipedia fino alle pagine piu sconosciute, e a scrivere quei testi sono stati gli umani. Noi umani non essendo degli automi scriviamo introducento nei testi anche inconsciamente dei bias, come una tendenza verso un determinato partito politico, o nel caso peggiore vengono scritti pensieri razzisti o sessisti e chi piu ne ha più ne metta.

Questo rappresenta il motivo principale per cui, durante le conversazioni con gli LLM, si verificano risposte che presentano dei pregiudizi (o bias). Molte volte, quando si chiede a questi modelli quali siano i lavori più comuni per gli uomini, essi rispondono con avvocato o ingegnere, mentre per le donne, rispondono con prostituta o donna delle pulizie.

Oltre ai bias, ci troviamo di fronte anche al problema delle allucinazioni. Questi modelli tendono a fornire sempre una risposta all’utente, anche quando non sono in grado di farlo. Invece di dichiarare un semplice “non lo so”, generano una risposta chiaramente falsa, ma con tale sicurezza che risulta complicato per un utente distinguere tra una risposta genuina e una fittizia. In tal modo, si potrebbe affermare che contribuiscono alla diffusione di notizie false.

Come affrontare il problema?

Credo che sia chiaro ormai, che non è possibile mettere in commercio un LLM addestrato su tutto il web senza prendere delle precauzioni. Fortunatamente ci sono delle tecniche che ci permettono di mitigare i problemi di bias e allucinazioni.

In fase di inferenza gli esperti di AI possono tunare dei parametri importanti degli LLM che adesso vedremo in breve.

Temperature: un valore alto di temperature favorisce la randomness nella risposta e la creatività, mentre valori bassi rendono l’output più deterministico.

Frequency Penalty : incrementando questo valore il modello cercherà di utilizzare più spesso gli stessi token (o stesse sillabe se volete).
Presence Penalty: un valore piu alto di questo paramentro aumenta la probabilità di generale token ancora non presenti nel testo generato.
Top-p: questo parametro imposta una soglia cumulativa di probabilità, conservando i token con una probabilità complessiva al di sopra di essa.

Un altro modo comune per avere più controllo sull’output degli LLM è quello di utilizzare tecniche di Prompt Engineering. Ad oggi è molto importante saper fare la domanda giusta ai modelli di AI. A seconda di come una cosa viene chiesta potremmo ottenere una risposta più o meno corretta.

Ad esempio con la capacità dei modelli di essere few shot learners, possiamo includere nella query degli esempi di domande simili e risposte attese, prima di porre la nostra domanda.

Un altra tecnica è quella chiamata chain of thoughts (CoT). In questa modalità si chiede al modello di ragionare sul perche della risposta, in questo modo le sue capacità aumentato.

Un’altro metodo che viene molto usato oggi è quello di utilizzare il framework chiamato Retrieval Augmented Generation (RAG). Nel RAG, viene fornito al modello una collezione di documenti, scelti a priori, da cui il modello potrà attingere informazioni per rispondere fornendo oltre al testo generato anche la risorsa che ha usato per generare tale risposta. Semplicemente l’LLM vede quali documenti sono semanticamente simili alla query ricevuta e si basa su quelli per generare la risposta.

L’utlimo metodo che vediamo, è stato usato per modelli come GPT, ma è anche il più complicato da implementare. Con questo metodo viene fatto un ulteriore step di training del modello, in cui quindi a differenza dei metodi precedenti vengono aggiurnati i pesi del modello sottostante.

Prima di mettere un LLM in commercio, viene eseguito una fase chiamate reinforcement learning from human feedback (RLHF). In questo caso, ci sono degli annotatori umani, che dicono quanto la generazione del modello sia allineata con i goal umani, cioè quelli di non essere biased e non allucinare. Ovviamente anche qui ci sono delle complicazioni, perchè persone diverse potrebbero avere idee diverse su cosa giudicare giusto o sbagliato.

Ma ad oggi questo meccanismo ha portato a molti benefici in questo senso. Ovviamente essendo una fase di addestramento supervisionato dall’uomo, è un training lento e costoso. Ultimamente si è iniziato a studiare un training simile chiamato reinforcement learning from AI feedback (RLAIF). In questo framework, a dare un giudizio sull’output dell’AI è una AI stessa. Sembra impossibile ma i risultati ottenuti da questo studio sembrano promettenti sebbene ancora peggiori del RLHF.

Conclusioni

In questo articolo abbiamo affrontato il problema di bias e allucinazioni degli LLM e capito da cosa derivano. Esistono varie tecniche usate per mitigare questi problemi, alcune usate in fase di inferenza altre invece in fase di training. Si sta facendo molta ricerca in questo senso, perchè gli LLM sono sempre più parte integrante della vita di tutti i giorni.

Ho lavorato con scuole che vogliono integrare gli LLM per un aiuto allo studio, o chi sta sviluppando LLM che possano occuparsi in modo autonomo del customer service. Sebbene tutti questi servizi sembrano teoricamente strabilianti bisogna non lasciarsi prendere dall’hype ma essere consci ancora dei limiti attuali di queste tecnologie.

Marcello Politi
Esperto di intelligenza artificiale con una grande passione per l'esplorazione spaziale. Ho avuto la fortuna di lavorare presso l'Agenzia Spaziale Europea, contribuendo a progetti di ottimizzazione del flusso di dati e di architettura del software. Attualmente, sono AI Scientist & Coach presso la PiSchool, dove mi dedico alla prototipazione rapida di prodotti basati sull'intelligenza artificiale. Mi piace scrivere articoli riguardo la data science e recentemente sono stato riconosciuto come uno dei blogger più prolifici su Towards Data Science.

Lista degli articoli

Articoli in evidenza

Truffe e Schiavitù Digitali: La Cambogia è la Capitale Mondiale della Frode Online

Secondo un nuovo rapporto del gruppo per i diritti umani Amnesty International, pubblicato dopo quasi due anni di ricerche sulla situazione, la Cambogia resta un punto caldo sulla mappa mondiale della...

Dopo aver criptato mezzo mondo, Hunters International chiude! Distribuito gratuitamente il Decryptor

Hunters International, il gruppo responsabile di uno dei più grandi attacchi ransomware degli ultimi anni, ha annunciato ufficialmente la cessazione delle sue attività. In una dichiarazione ...

Da AI white ad AI black il passo è breve. Nuovi strumenti per Script Kiddies bussano alle porte

I ricercatori di Okta hanno notato che aggressori sconosciuti stanno utilizzando lo strumento di intelligenza artificiale generativa v0 di Vercel per creare pagine false che imitano qu...

Se è gratuito, il prodotto sei tu. Google paga 314 milioni di dollari per violazione dei dati agli utenti Android

Google è al centro di un’imponente causa in California che si è conclusa con la decisione di pagare oltre 314 milioni di dollari agli utenti di smartphone Android nello stato. Una giu...

CTF di RHC 2025. Ingegneria sociale in gioco: scopri la quarta “flag” non risolta

La RHC Conference 2025, organizzata da Red Hot Cyber, ha rappresentato un punto di riferimento per la comunità italiana della cybersecurity, offrendo un ricco programma di talk, workshop e compet...

Le Trappole Nascoste dell’Intelligenza Artificiale Generativa: Allucinazioni e Bias negli LLM, come mitigarli?

Fonte del problema

Come affrontare il problema?

Conclusioni

Articoli in evidenza

Categorie