Gli scienziati hackerano i Chatbot popolari: cosa potrebbe significare per il futuro dell'IA
Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
Banner Ransomfeed 970x120 1
Crowdstrike 320×100
Gli scienziati hackerano i Chatbot popolari: cosa potrebbe significare per il futuro dell’IA

Gli scienziati hackerano i Chatbot popolari: cosa potrebbe significare per il futuro dell’IA

Redazione RHC : 2 Agosto 2023 10:12

Non è la prima volta che si scoprono modi che consentono di effettuare delle “promp injection” capaci di bypassare i controlli dei LMM e fargli fornire output malevoli e sicuramente non sarà l’ultimo. Ma questa volta i ricercatori scoprono un approccio diverso che consente di hackerare tutti i più famosi chatbot ad oggi in circolazione.

I ricercatori della School of Computer Science della Carnegie Mellon University, del CyLab Cybersecurity and Privacy Institute e del San Francisco Center for Secure AI hanno identificato congiuntamente una nuova vulnerabilità nei modelli di linguaggio di grandi dimensioni (LLM).

Gli scienziati hanno proposto un metodo di attacco semplice ed efficace che ha un’alta probabilità di far sì che i modelli linguistici generino risposte indesiderate. 


Christmas Sale

Christmas Sale -40%
𝗖𝗵𝗿𝗶𝘀𝘁𝗺𝗮𝘀 𝗦𝗮𝗹𝗲! Sconto del 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮 del Corso "Dark Web & Cyber Threat Intelligence" in modalità E-Learning sulla nostra Academy!🚀 Fino al 𝟯𝟭 𝗱𝗶 𝗗𝗶𝗰𝗲𝗺𝗯𝗿𝗲, prezzi pazzi alla Red Hot Cyber Academy. 𝗧𝘂𝘁𝘁𝗶 𝗶 𝗰𝗼𝗿𝘀𝗶 𝘀𝗰𝗼𝗻𝘁𝗮𝘁𝗶 𝗱𝗲𝗹 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮.
Per beneficiare della promo sconto Christmas Sale, scrivici ad [email protected] o contattaci su Whatsapp al numero di telefono: 379 163 8765.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Si scopre che l’aggiunta di determinati suffissi o parole chiave calcolate matematicamente a un’ampia gamma di query aumenta notevolmente la possibilità che i modelli rispondano comunque alle query degli utenti che altrimenti rifiuterebbero.

Dimostrazione di attacco in ChatGPT , Claude , Bard e Llama-2

Gli scienziati non miravano ad attaccare i modelli linguistici chiusi e i chatbot, ma lo studio ha dimostrato che sono ugualmente vulnerabili agli stessi trucchi dei modelli linguistici aperti. Questo nonostante il fatto che queste vulnerabilità siano state trovate proprio nei modelli aperti.

L’attacco funziona con successo in chatbot popolari come OpenAI ChatGPT, Anthropic Claude, Google Bard e Meta Llama-2. I ricercatori hanno testato il loro metodo su molte domande diverse per dimostrare l’universalità dell’approccio identificato.

La vulnerabilità scoperta mette a rischio l’introduzione sicura dell’intelligenza artificiale nei sistemi autonomi, poiché gli aggressori possono utilizzarla per aggirare la protezione e disabilitare tali sistemi. Ciò può portare a gravi conseguenze con l’uso diffuso di sistemi autonomi in futuro.

Capire come eseguire tali attacchi è spesso il primo passo per sviluppare forti difese contro di loro. 

Al momento, i ricercatori non dispongono di una soluzione universale per prevenire tali attacchi, quindi il passo successivo è trovare un modo per correggere questi modelli e garantirne l’utilizzo sicuro nei sistemi autonomi.

Immagine del sitoRedazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
Gli attacchi ransomware diminuiscono nel 2024, ma l’economia criminale rimane in espansione
Di Redazione RHC - 09/12/2025

Secondo un rapporto pubblicato di recente dal Financial Crimes Enforcement Network (FinCEN), l’attività globale del ransomware ha raggiunto il picco nel 2023, per poi crollare nel 2024. Questo calo...

Immagine del sito
Vulnus vs. Bug: il Coaching tra maschere pirandelliane e patch di sistema
Di Daniela Linda - 09/12/2025

Siamo connessi, connessi a tutto, iperconnessi. La nostra vita professionale e sociale è scandita da deadline strettissime e da un’asticella che viene continuamente alzata, dobbiamo spingere. Ci im...

Immagine del sito
Il 12 Dicembre a Roma, il summit IISFA: Cybercrime e Intelligenza Artificiale
Di Redazione RHC - 09/12/2025

Il Centro Congressi Frentani ospiterà il 12 dicembre la conferenza “Cybercrime, Artificial Intelligence & Digital Forensics”, l’evento annuale organizzato da IISFA – Associazione Italiana...

Immagine del sito
Quale e-commerce italiano presto sarà compromesso? La vendita degli accessi nel Dark Web
Di Redazione RHC - 09/12/2025

Un nuovo post pubblicato poche ore fa sul forum underground Exploit rivela l’ennesima offerta criminale legata alla vendita di accessi a siti compromessi. L’inserzionista, un utente storico del fo...

Immagine del sito
L’Australia vieta i social media agli adolescenti: dal 10 dicembre divieto al di sotto di 16 anni
Di Redazione RHC - 08/12/2025

In Australia, a breve sarà introdotta una normativa innovativa che vieta l’accesso ai social media per i minori di 16 anni, un’iniziativa che farà scuola a livello mondiale. Un’analoga misura ...