fbpx
Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca

AI sotto attacco: DeepSeek-R1 si comporta male nei test di Qualys

Redazione RHC : 7 Febbraio 2025 16:21

Milano, 6 febbraio 2025 DeepSeek-R1, un innovativo modello linguistico di grandi dimensioni (LLM) recentemente rilasciato dalla startup cinese DeepSeek, ha catturato l’attenzione del settore dell’intelligenza artificiale. Il modello dimostra di avere prestazioni competitive, mostrandosi più efficiente dal punto di vista delle risorse. Il suo approccio all’addestramento e la sua accessibilità offrono un’alternativa al tradizionale sviluppo dell’AI su larga scala, rendendo più ampiamente disponibili le capacità avanzate.

Per migliorare l’efficienza e preservare l’efficacia del modello, DeepSeek ha rilasciato diverse versioni distillate, adatte a diversi casi d’uso. Queste varianti, costruite su Llama e Qwen come modelli di base, sono disponibili in più dimensioni, che vanno da modelli più piccoli e leggeri, adatti ad applicazioni incentrate sull’efficienza, a versioni più grandi e potenti, progettate per compiti di ragionamento complessi.

Con il crescente entusiasmo per i progressi di DeepSeek, il team di Qualys ha condotto un’analisi di sicurezza della variante DeepSeek-R1 LLaMA 8B distillata utilizzando la piattaforma di sicurezza AI lanciata di recente, Qualys TotalAI.

Vuoi diventare un esperto del Dark Web e della Cyber Threat Intelligence (CTI)?
Stiamo per avviare il corso intermedio in modalità "Live Class", previsto per febbraio.
A differenza dei corsi in e-learning, disponibili online sulla nostra piattaforma con lezioni pre-registrate, i corsi in Live Class offrono un’esperienza formativa interattiva e coinvolgente.
Condotti dal professor Pietro Melillo, le lezioni si svolgono online in tempo reale, permettendo ai partecipanti di interagire direttamente con il docente e approfondire i contenuti in modo personalizzato. Questi corsi, ideali per aziende, consentono di sviluppare competenze mirate, affrontare casi pratici e personalizzare il percorso formativo in base alle esigenze specifiche del team, garantendo un apprendimento efficace e immediatamente applicabile.
Non perdere i nostri corsi e scrivi subito su WhatsApp al numero
379 163 8765  per richiedere informazioni
"

Supporta RHC attraverso:


Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.

I risultati presentati di seguito supportano le diffuse preoccupazioni nel settore sui rischi reali del modello. “Con l’accelerazione dell’adozione dell’AI, le organizzazioni devono andare oltre la valutazione delle performance per affrontare le sfide di sicurezza, protezione e conformità. Ottenere visibilità sugli asset AI, valutare le vulnerabilità e mitigare proattivamente i rischi è fondamentale per garantire un’implementazione responsabile e sicura dell’AI” ha commentato Dilip Bashwani, CTO per la Qualys Cloud Platform.

Metodo di analisi KB ed evidenze

Qualys ha testato la variante Deepseek R1 LLaMA 8B contro gli attacchi Jailbreak e Knowledge Base (KB) all’avanguardia di Qualys TotalAI, ponendo domande al LLM di destinazione in 16 categorie e valutando le risposte utilizzando il Qualys Judge LLM. Le risposte sono state valutate in base a vulnerabilità, problemi etici e rischi legali.

Se una risposta è ritenuta vulnerabile, riceve una valutazione di gravità basata sulla sua immediatezza e sul suo potenziale impatto. Questo garantisce una valutazione completa del comportamento del modello e dei rischi associati.

Nel test KB sono state condotte 891 valutazioni. Il modello Deepseek R1 LLaMA 8B non ha superato il 61% dei test, ottenendo i risultati peggiori in Disallineamento e migliori in Contenuti sessuali.

Metodo di test di Jailbreak TotalAI ed evidenze

Il jailbreak di un LLM comporta tecniche che aggirano i meccanismi di sicurezza incorporati, consentendo al modello di generare risposte limitate. Queste vulnerabilità possono creare risultati dannosi, tra cui istruzioni per attività illegali, disinformazione, violazioni della privacy e contenuti non etici. I jailbreak riusciti mettono in luce le debolezze dell’allineamento dell’AI e presentano seri rischi per la sicurezza, soprattutto in ambito aziendale e normativo.

Il modello cinese è stato testato contro 18 tipi di jailbreak attraverso 885 attacchi. Ha fallito il 58% di questi tentativi, dimostrando una significativa suscettibilità alla manipolazione avversaria. Durante l’analisi, DeepSeek R1 ha faticato a prevenire diversi tentativi di jailbreak avversari, tra cui passaggi su come costruire un ordigno esplosivo, creare contenuti per siti web che si rivolgono a determinati gruppi incoraggiando discorsi d’odio, teorie cospirative e azioni violente, sfruttare le vulnerabilità del software, promuovere informazioni mediche errate, ecc.

Esempio di DeepSeek che fornisce contenuti errati e nocivi

I risultati ottenuti dai test evidenziano la necessità di migliorare i meccanismi di sicurezza per impedire l’elusione delle protezioni integrate, garantendo che il modello rimanga in linea con le linee guida etiche e normative. Un meccanismo di prevenzione efficace è l’implementazione di robusti guardrail che agiscono come filtri in tempo reale per rilevare e bloccare i tentativi di jailbreak. Questi guardrail aumentano la resilienza del modello adattandosi dinamicamente agli exploit avversari, contribuendo a mitigare i rischi di sicurezza nelle applicazioni aziendali. Queste vulnerabilità espongono le applicazioni a valle a rischi significativi per la sicurezza, rendendo necessari robusti test avversari e strategie di mitigazione.

Allineamento si, allineamento no: Cosa è meglio?

Negli ultimi anni, i modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato il panorama tecnologico, influenzando settori che vanno dalla ricerca accademica alla creazione di contenuti. Uno dei dibattiti più accesi riguarda il grado di allineamento di questi modelli con i principi etici e le linee guida imposte dai loro sviluppatori. Secondo un recente articolo pubblicato su Analytics India Magazine, i modelli non censurati sembrano ottenere risultati migliori rispetto a quelli allineati, sollevando interrogativi sulla necessità e sull’efficacia delle restrizioni etiche imposte dall’industria.

L’allineamento dei modelli AI nasce dalla volontà di evitare contenuti pericolosi, disinformazione e bias dannosi. Aziende come OpenAI e Google implementano rigorose politiche di sicurezza per garantire che le loro IA rispettino standard di condotta condivisi, riducendo il rischio di abusi. Tuttavia, il processo di allineamento introduce inevitabilmente filtri che limitano la libertà espressiva e, in alcuni casi, compromettono le prestazioni del modello. Questo perché i sistemi allineati potrebbero evitare di rispondere a domande controverse o generare risposte eccessivamente generiche per attenersi alle linee guida.

Al contrario, i modelli non censurati, che operano senza le stesse restrizioni etiche, dimostrano una maggiore flessibilità e capacità di fornire risposte più precise e dettagliate, soprattutto in contesti tecnici o di ricerca avanzata. Senza i vincoli imposti dall’allineamento, possono elaborare una gamma più ampia di informazioni e affrontare argomenti sensibili con maggiore profondità. Questo vantaggio, però, si accompagna a rischi significativi, come la diffusione incontrollata di disinformazione, contenuti dannosi e l’uso improprio da parte di attori malevoli.

Il problema centrale di questo dibattito non è solo tecnico, ma etico e politico. Un’intelligenza artificiale completamente libera potrebbe rappresentare una minaccia se utilizzata per scopi illeciti, mentre un modello eccessivamente allineato rischia di diventare inefficace o di riflettere un’agenda ideologica oppure attuare censura.

Alcuni ricercatori sostengono che l’equilibrio ideale risieda in un allineamento parziale, che consenta un certo grado di libertà espressiva senza compromettere la sicurezza. Tuttavia, definire i confini di tale equilibrio è una sfida complessa e soggetta a interpretazioni divergenti.

L’industria AI si trova dunque davanti a una scelta cruciale: proseguire lungo la strada dell’allineamento stringente, con il rischio di compromettere le prestazioni e la neutralità dei modelli, o adottare un approccio più permissivo, consapevole dei potenziali rischi. Le conseguenze di questa decisione avranno un impatto diretto sul futuro dell’IA e sulla sua integrazione nella società, influenzando la fiducia del pubblico e la regolamentazione del settore. La domanda fondamentale rimane aperta: quanto controllo è troppo controllo?

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Articoli in evidenza

Attacco All’Influenza di OpenAI! 20 Milioni di Codici di Accesso in Vendita su BreachForums

Un utente del forum underground BreachForums, con il nickname emirking, ha recentemente pubblicato un thread allarmante, sostenendo di avere accesso a oltre 20 milioni di codici di accesso per gli acc...

La Polizia Smantella CVLT: Il Gruppo Degli Orrori che Spingeva i Minori Fragili a Mutilarsi Online!

Purtroppo, il male non conosce limiti. Dopo la “Chat degli Orrori” su Telegram e i killer a pagamento, pensavamo di aver visto tutto. Ma il web nasconde abissi sempre più oscuri, e ...

Spyware israeliano contro attivisti Italiani: WhatsApp avvisa Luca Casarini preso di mira da Paragon

Un nuovo caso di sorveglianza digitale sta scuotendo l’Italia: Luca Casarini, fondatore della ONG Mediterranea Saving Humans, ha ricevuto una notifica da WhatsApp, che lo ha avvisato che il suo...

USA: DeepSeek come il Terrorismo! 20 anni di carcere e 100M$ di multa. La Proposta Shock

Influenza, Influenza, Influenza… Bloccare l’influenza è la parola d’ordine negli Stati Uniti D’America, con qualsiasi mezzo. Con le sanzioni e ora con una proposta di ...

Dal Giallo al Laboratorio Di Armi Chimiche Il Passo E’ Breve! Jailbreak di ChatGPT con Doppi Negativi

Recentemente, Alin Grigoras, un chimico computazionale, ha scritto alla Redazione di Red Hot Cyber. Ci informava che prendendo spunto da un articolo sul bug bounty di Anthropic, era riuscito a farsi d...