Non è la prima volta che si scoprono modi che consentono di effettuare delle “promp injection”capaci di bypassare i controlli dei LMM e fargli fornire output malevoli e sicuramente non sarà l’ultimo. Ma questa volta i ricercatori scoprono un approccio diverso che consente di hackerare tutti i più famosi chatbot ad oggi in circolazione.
I ricercatori della School of Computer Science della Carnegie Mellon University, del CyLab Cybersecurity and Privacy Institute e del San Francisco Center for Secure AI hanno identificato congiuntamente una nuova vulnerabilità nei modelli di linguaggio di grandi dimensioni (LLM).
Gli scienziati hanno proposto un metodo di attacco semplice ed efficace che ha un’alta probabilità di far sì che i modelli linguistici generino risposte indesiderate.
Advertising
Si scopre che l’aggiunta di determinati suffissi o parole chiave calcolate matematicamente a un’ampia gamma di query aumenta notevolmente la possibilità che i modelli rispondano comunque alle query degli utenti che altrimenti rifiuterebbero.
Dimostrazione di attacco in ChatGPT , Claude , Bard e Llama-2
Gli scienziati non miravano ad attaccare i modelli linguistici chiusi e i chatbot, ma lo studio ha dimostrato che sono ugualmente vulnerabili agli stessi trucchi dei modelli linguistici aperti. Questo nonostante il fatto che queste vulnerabilità siano state trovate proprio nei modelli aperti.
L’attacco funziona con successo in chatbot popolari come OpenAI ChatGPT, Anthropic Claude, Google Bard e Meta Llama-2. I ricercatori hanno testato il loro metodo su molte domande diverse per dimostrare l’universalità dell’approccio identificato.
La vulnerabilità scoperta mette a rischio l’introduzione sicura dell’intelligenza artificiale nei sistemi autonomi, poiché gli aggressori possono utilizzarla per aggirare la protezione e disabilitare tali sistemi. Ciò può portare a gravi conseguenze con l’uso diffuso di sistemi autonomi in futuro.
Advertising
Capire come eseguire tali attacchi è spesso il primo passo per sviluppare forti difese contro di loro.
Al momento, i ricercatori non dispongono di una soluzione universale per prevenire tali attacchi, quindi il passo successivo è trovare un modo per correggere questi modelli e garantirne l’utilizzo sicuro nei sistemi autonomi.
📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su Google Discover (scorri in basso e clicca segui) e su 🔔 Google News. Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram. Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici
La Redazione di Red Hot Cyber fornisce aggiornamenti quotidiani su bug, data breach e minacce globali. Ogni contenuto è validato dalla nostra community di esperti come Pietro Melillo, Massimiliano Brolli, Sandro Sana, Olivia Terragni e Stefano Gazzella.
Grazie alla sinergia con i nostri Partner leader nel settore (tra cui Accenture, CrowdStrike, Trend Micro e Fortinet), trasformiamo la complessità tecnica in consapevolezza collettiva, garantendo un'informazione accurata basata sull'analisi di fonti primarie e su una rigorosa peer-review tecnica.
Dopo il successo delle scorse edizioni, Red Hot Cyber è lieta di annunciare una nuova live-class del corso "Dark Web & Cyber Threat Intelligence". A differenza dei corsi e-learning pre-registrati, queste lezioni online in tempo reale, condotte dal professor Pietro Melillo, offrono un’esperienza formativa interattiva e coinvolgente, ideale per approfondire i contenuti e affrontare casi pratici.
Le Live Class sono progettate per garantire un apprendimento mirato e personalizzato, con un massimo di 14 partecipanti per sessione. Questo consente di adattare il percorso formativo alle esigenze specifiche, ma anche di mantenere alta la qualità: i posti sono limitati e nelle scorse edizioni sono andati in sold-out due settimane prima dell’inizio. Prenota subito per assicurarti il tuo posto!
Docente: Pietro Melillo, PhD presso l’Università del Sannio e docente presso IUSI University
Livello: Intermedio
Durata: 15 ore in Live Class con docente dal vivo
Prerequisiti: Navigazione Internet e conoscenze base di sicurezza informatica
Certificazione : Cyber Threat Intelligence Professional (CTIP) previo superamento dell’esame finale
Opportunità post-corso: Accesso al laboratorio operativo DarkLab per attività pratiche di intelligence
Al termine del corso, potrai accedere all’esclusivo Laboratorio di Intelligence DarkLab, un ambiente operativo dove mettere in pratica le competenze acquisite. Sarà l’occasione per sperimentare attività di investigazione nel Dark Web, analisi delle minacce e redazione di report di intelligence e ricerche approfondite.