Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca

Gli scienziati hackerano i Chatbot popolari: cosa potrebbe significare per il futuro dell’IA

Redazione RHC : 2 Agosto 2023 10:12

Non è la prima volta che si scoprono modi che consentono di effettuare delle “promp injection” capaci di bypassare i controlli dei LMM e fargli fornire output malevoli e sicuramente non sarà l’ultimo. Ma questa volta i ricercatori scoprono un approccio diverso che consente di hackerare tutti i più famosi chatbot ad oggi in circolazione.

I ricercatori della School of Computer Science della Carnegie Mellon University, del CyLab Cybersecurity and Privacy Institute e del San Francisco Center for Secure AI hanno identificato congiuntamente una nuova vulnerabilità nei modelli di linguaggio di grandi dimensioni (LLM).

Gli scienziati hanno proposto un metodo di attacco semplice ed efficace che ha un’alta probabilità di far sì che i modelli linguistici generino risposte indesiderate. 

Vorresti toccare con mano la Cybersecurity e la tecnologia? Iscriviti GRATIS ai WorkShop Hands-On della RHC Conference 2025 (Giovedì 8 maggio 2025)

Se sei un ragazzo delle scuole medie, superiori o frequenti l'università, oppure banalmente un curioso di qualsiasi età, il giorno giovedì 8 maggio 2025 presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terranno i workshop "hands-on", creati per far avvicinare i ragazzi alla sicurezza informatica e alla tecnologia. Questo anno i workshop saranno:

  • Creare Un Sistema Ai Di Visual Object Tracking (Hands on)
  • Social Engineering 2.0: Alla Scoperta Delle Minacce DeepFake
  • Doxing Con Langflow: Stiamo Costruendo La Fine Della Privacy?
  • Come Hackerare Un Sito WordPress (Hands on)
  • Il Cyberbullismo Tra Virtuale E Reale
  • Come Entrare Nel Dark Web In Sicurezza (Hands on)

  • Potete iscrivervi gratuitamente all'evento, che è stato creato per poter ispirare i ragazzi verso la sicurezza informatica e la tecnologia.
    Per ulteriori informazioni, scrivi a [email protected] oppure su Whatsapp al 379 163 8765


    Supporta RHC attraverso:


    Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.

    Si scopre che l’aggiunta di determinati suffissi o parole chiave calcolate matematicamente a un’ampia gamma di query aumenta notevolmente la possibilità che i modelli rispondano comunque alle query degli utenti che altrimenti rifiuterebbero.

    Dimostrazione di attacco in ChatGPT , Claude , Bard e Llama-2

    Gli scienziati non miravano ad attaccare i modelli linguistici chiusi e i chatbot, ma lo studio ha dimostrato che sono ugualmente vulnerabili agli stessi trucchi dei modelli linguistici aperti. Questo nonostante il fatto che queste vulnerabilità siano state trovate proprio nei modelli aperti.

    L’attacco funziona con successo in chatbot popolari come OpenAI ChatGPT, Anthropic Claude, Google Bard e Meta Llama-2. I ricercatori hanno testato il loro metodo su molte domande diverse per dimostrare l’universalità dell’approccio identificato.

    La vulnerabilità scoperta mette a rischio l’introduzione sicura dell’intelligenza artificiale nei sistemi autonomi, poiché gli aggressori possono utilizzarla per aggirare la protezione e disabilitare tali sistemi. Ciò può portare a gravi conseguenze con l’uso diffuso di sistemi autonomi in futuro.

    Capire come eseguire tali attacchi è spesso il primo passo per sviluppare forti difese contro di loro. 

    Al momento, i ricercatori non dispongono di una soluzione universale per prevenire tali attacchi, quindi il passo successivo è trovare un modo per correggere questi modelli e garantirne l’utilizzo sicuro nei sistemi autonomi.

    Redazione
    La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

    Articoli in evidenza

    Kidflix è crollato! La piattaforma dell’orrore è stata smantellata: 79 arresti e 39 bambini salvati

    Oggi i bambini sono un po’ più al sicuro grazie ad una operazione di polizia coordinata da Europol che ha portato alla chiusura di Kidflix. Si tratta di una delle più grandi piattafor...

    Arriva Flipper One! : Kali Linux, FPGA e SDR in un solo dispositivo?

    Uno degli autori di Flipper Zero, Pavel Zhovner, ha condiviso i dettagli su come stanno procedendo i lavori su una nuova versione del multi-strumento per hacker: Flipper One. Lo sviluppatore ha pubbli...

    DarkLab intervista HellCat Ransomware! La chiave è “assicurarsi che tutti comprendano la cybersecurity”

    Il ransomware HellCat è apparso nella seconda metà del 2024 e ha attirato l’attenzione degli analisti grazie all’umorismo delle sue dichiarazioni pubbliche. Ricordiamo l’...

    X/Twitter nel Caos! Un Threat Actors pubblica 2.8 Miliardi di Account Compromessi

    Il 28 marzo 2025, un utente del noto forum di cybersecurity BreachForums, con lo pseudonimo ThinkingOne, ha rivelato quello che potrebbe essere il più grande data breach mai registrato nel mondo ...

    Signal è abbastanza sicuro per la CIA e per il CISA. Lo è anche per te?

    Quando Jeffrey Goldberg dell’Atlantic ha fatto trapelare accidentalmente un messaggio di gruppo privato di alti funzionari statunitensi su un possibile attacco contro gli Houthi nello Yemen, ha...