Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca
Red Hot Cyber Academy

Gli scienziati hackerano i Chatbot popolari: cosa potrebbe significare per il futuro dell’IA

Redazione RHC : 2 Agosto 2023 10:12

Non è la prima volta che si scoprono modi che consentono di effettuare delle “promp injection” capaci di bypassare i controlli dei LMM e fargli fornire output malevoli e sicuramente non sarà l’ultimo. Ma questa volta i ricercatori scoprono un approccio diverso che consente di hackerare tutti i più famosi chatbot ad oggi in circolazione.

I ricercatori della School of Computer Science della Carnegie Mellon University, del CyLab Cybersecurity and Privacy Institute e del San Francisco Center for Secure AI hanno identificato congiuntamente una nuova vulnerabilità nei modelli di linguaggio di grandi dimensioni (LLM).

Gli scienziati hanno proposto un metodo di attacco semplice ed efficace che ha un’alta probabilità di far sì che i modelli linguistici generino risposte indesiderate. 


Sei un Esperto di Formazione?
Entra anche tu nel Partner program! Accedi alla sezione riservata ai Creator sulla nostra Academy e scopri i vantaggi riservati ai membri del Partner program.

Contattaci tramite WhatsApp al 375 593 1011 per richiedere ulteriori informazioni oppure scriviti alla casella di posta [email protected]



Supporta RHC attraverso:


Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.


Si scopre che l’aggiunta di determinati suffissi o parole chiave calcolate matematicamente a un’ampia gamma di query aumenta notevolmente la possibilità che i modelli rispondano comunque alle query degli utenti che altrimenti rifiuterebbero.

Dimostrazione di attacco in ChatGPT , Claude , Bard e Llama-2

Gli scienziati non miravano ad attaccare i modelli linguistici chiusi e i chatbot, ma lo studio ha dimostrato che sono ugualmente vulnerabili agli stessi trucchi dei modelli linguistici aperti. Questo nonostante il fatto che queste vulnerabilità siano state trovate proprio nei modelli aperti.

L’attacco funziona con successo in chatbot popolari come OpenAI ChatGPT, Anthropic Claude, Google Bard e Meta Llama-2. I ricercatori hanno testato il loro metodo su molte domande diverse per dimostrare l’universalità dell’approccio identificato.

La vulnerabilità scoperta mette a rischio l’introduzione sicura dell’intelligenza artificiale nei sistemi autonomi, poiché gli aggressori possono utilizzarla per aggirare la protezione e disabilitare tali sistemi. Ciò può portare a gravi conseguenze con l’uso diffuso di sistemi autonomi in futuro.

Capire come eseguire tali attacchi è spesso il primo passo per sviluppare forti difese contro di loro. 

Al momento, i ricercatori non dispongono di una soluzione universale per prevenire tali attacchi, quindi il passo successivo è trovare un modo per correggere questi modelli e garantirne l’utilizzo sicuro nei sistemi autonomi.

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Grok 3: “Adolf Hitler è un Benefattore tedesco”! Il rischio della memoria persistente e disinformazione

Con l’emergere dei Large Language Models (LLM), come Grok 3, GPT-4, Claude e Gemini, l’attenzione della comunità scientifica si è spostata dalla semplice accuratezza delle risp...

Alla scoperta dei firewall LLM. La nuova frontiera nella sicurezza Informatica Adattiva

Negli ultimi 3 anni, l’intelligenza artificiale generativa, in particolare i modelli linguistici di grandi dimensioni (LLM), hanno rivoluzionato il modo in cui interagiamo con le macchine, perm...

La minaccia più grande dell’Intelligenza Artificiale? E’ che i giovani non sapranno più pensare!

“Ora che il genio è uscito dalla lampada, è impossibile rimetterlo dentro!”. Quante volte abbiamo scritto queste parole riguarda l’intelligenza artificiale? Ora che il g...

Una vulnerabilità RCE in Wing FTP Server da score 10 apre le porte a 10.000 aziende

I ricercatori di Huntress hanno rilevato lo sfruttamento attivo di una vulnerabilità critica in Wing FTP Server, appena un giorno dopo la sua divulgazione pubblica. La vulnerabilità CVE-2025...

Il Ministero degli Esteri italiano preso di mira in una campagna di spionaggio da Gruppo DoNot APT

Secondo Trellix, il gruppo DoNot APT ha recentemente condotto una campagna di spionaggio informatico in più fasi, prendendo di mira il Ministero degli Affari Esteri italiano. Il gruppo, attribuit...