Redazione RHC : 3 Febbraio 2025 14:09
Ricercatori di Palo Alto dalla squadra Unit 42 hanno identificato delle vulnerabilità nel modello linguistico DeepSeek che consentono di aggirare i suoi meccanismi di difesa e di forzare la visualizzazione di contenuti proibiti. Utilizzando tre tecniche evasione – Deceptive Delight, Bad Likert Judge, sono riusciti a raggiungere alti tassi di aggiramento delle restrizioni senza la necessità di una conoscenza tecnica approfondita.
DeepSeek è un’azienda cinese che ha rilasciato due importanti modelli di linguaggio aperto: DeepSeek-V3 nel dicembre 2024 e DeepSeek-R1 nel gennaio 2025. Questi modelli stanno diventando concorrenti dei popolari modelli di OpenAI e si stanno sviluppando attivamente. La ricerca dell’Unità 42 ha dimostrato che anche la sua versione più avanzata resta vulnerabile alla manipolazione, consentendo la generazione di materiali potenzialmente pericolosi.
La tecnica Bad Likert Judge utilizza un sistema di scala di risposta in cui il modello classifica il contenuto in base alla nocività e poi produce esempi dettagliati basati su tali classificazioni.
Iscriviti GRATIS ai WorkShop Hands-On della RHC Conference 2025 (Giovedì 8 maggio 2025)
Il giorno giovedì 8 maggio 2025 presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terranno i workshop "hands-on", creati per far avvicinare i ragazzi alla sicurezza informatica e alla tecnologia. Questo anno i workshop saranno:
Supporta RHC attraverso:
Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.
Questo metodo ha permesso ai ricercatori di ottenere istruzioni su come creare strumenti per il furto di dati e keylogger. Nonostante gli iniziali fallimenti del modello, le query di perfezionamento hanno permesso di aggirare le limitazioni e di ottenere algoritmi dettagliati per gli sviluppatori di malware.
Si tratta di una tecnica di creazione graduale di query in cui il modello prima risponde a domande generali e poi, dopo diverse iterazioni, inizia a impartire istruzioni per azioni proibite. Nei test dei ricercatori, il metodo ha prodotto istruzioni dettagliate per la preparazione di bombe molotov, nonché altro materiale su argomenti correlati alla violenza, al traffico di droga e alla manipolazione sociale.
Deceptive Delight si basa sull’intreccio di contenuti dannosi in una narrazione positiva. Ad esempio, i ricercatori hanno chiesto al modello di creare una storia che collegasse una competizione sulla sicurezza informatica, una prestigiosa università e l’uso di DCOM per eseguire comandi da remoto. In risposta, DeepSeek ha generato un codice di esempio che potrebbe essere utilizzato per attaccare i computer basati su Windows.
Gli esperimenti hanno dimostrato che DeepSeek non solo è vulnerabile a tali attacchi, ma può anche fornire istruzioni dettagliate su come eseguire attacchi informatici, tecniche di ingegneria sociale e altre attività dannose. In alcuni casi, il modello includeva nelle risposte raccomandazioni su come mascherare gli attacchi ed eludere gli strumenti di rilevamento.
Gli esperti avvertono che le vulnerabilità in tali modelli potrebbero portare alla distribuzione su larga scala di strumenti di attacco tra gli intrusi. Sebbene gli sviluppatori LLM tentino di implementare meccanismi di protezione, l’evoluzione dei metodi di bypass rende la lotta contro i jailbreak una corsa continua. Le aziende che utilizzano tali modelli devono monitorarne attentamente l’utilizzo e implementare meccanismi per tracciare le richieste.
Nelle ricognizioni nel mondo dell’underground e dei gruppi criminali svolte dal laboratorio di intelligence delle minacce DarkLab di Red Hot Cyber, ci siamo imbattuti all’interno di un D...
Mancano solo due mesi alla quarta edizione della Red Hot Cyber Conference 2025, l’evento annuale gratuito organizzato dalla community di Red Hot Cyber. La conferenza si terrà a Roma, come ...
Negli ultimi giorni, diversi siti web italiani sono stati presi di mira da un attacco di defacement, una tecnica utilizzata per modificare il contenuto di una pagina web senza il consenso del propriet...
Negli ultimi giorni, il panorama della cybersecurity italiana è stato scosso da una serie di massicci data leak che hanno esposto centinaia di migliaia di informazioni sensibili di cittadini e az...
Red Hot Cyber, come ogni anno all’interno della RHC Conference, ospiterà la nuova Capture The Flag realizzata in collaborazione con CyberSecurityUP e Hackmageddon e Fondazione Bruno Kessle...
Copyright @ REDHOTCYBER Srl
PIVA 17898011006