DeepSeek, Chat-GPT e Jailbreak? Come Abbiamo Fatto Scrivere un Malware Ad Una AI

Redazione RHC : 4 Febbraio 2025 08:04

“Ora che il Genio è uscito dalla lampada, è difficile rimettercelo dentro!”. E con le AI, questa non è solo un’analogia, ma una realtà sempre più evidente.

Negli ultimi anni, i Large Language Model (LLM) come Chat-GPT e DeepSeek hanno rivoluzionato il modo in cui interagiamo con l’intelligenza artificiale. Tuttavia, dietro a questi strumenti apparentemente innocui si nasconde una battaglia silenziosa: quella tra chi cerca di proteggere i modelli da usi impropri e chi, invece, tenta di aggirare le loro difese.

I cosiddetti jailbreak, ovvero tecniche per eludere le restrizioni imposte dai creatori di questi modelli, sono diventati un tema caldo nel mondo della cybersecurity e dell’etica dell’IA. Ma a cosa servono i jailbreack per i criminali informatici e non, se esistono modelli gratuiti nel darkweb e nel clearweb capaci di “delinquere” in modo egregio?

Jailbreak e Prompt Injection: una corsa agli armamenti digitale

Vorresti toccare con mano la Cybersecurity e la tecnologia? Iscriviti GRATIS ai WorkShop Hands-On della RHC Conference 2025 (Giovedì 8 maggio 2025)

Se sei un ragazzo delle scuole medie, superiori o frequenti l'università, oppure banalmente un curioso di qualsiasi età, il giorno giovedì 8 maggio 2025 presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terranno i workshop "hands-on", creati per far avvicinare i ragazzi alla sicurezza informatica e alla tecnologia. Questo anno i workshop saranno:

Creare Un Sistema Ai Di Visual Object Tracking (Hands on)

Social Engineering 2.0: Alla Scoperta Delle Minacce DeepFake

Doxing Con Langflow: Stiamo Costruendo La Fine Della Privacy?

Come Hackerare Un Sito WordPress (Hands on)

Il Cyberbullismo Tra Virtuale E Reale

Come Entrare Nel Dark Web In Sicurezza (Hands on)

Potete iscrivervi gratuitamente all'evento, che è stato creato per poter ispirare i ragazzi verso la sicurezza informatica e la tecnologia.
Per ulteriori informazioni, scrivi a [email protected] oppure su Whatsapp al 379 163 8765

Supporta RHC attraverso:

L'acquisto del fumetto sul Cybersecurity Awareness

Scarica gratuitamente "Dark Mirror", il report sul ransomware di Dark Lab

Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.

Spesso veniamo a conoscenza di sistemi per aggirare le policy interne dei LLM più famosi. Laboratori di ricerca, come l’Unit 42 di Palo Alto Networks, studiano continuamente tecniche di prompt injection per testare e migliorare le difese di questi modelli. Questi attacchi mirano a manipolare l’IA affinché generi contenuti che normalmente sarebbero bloccati, come istruzioni per creare armi, malware o materiale dannoso.

Ad esempio, tecniche come il Bad Likert Judge, che sfrutta scale di valutazione per estrarre informazioni pericolose, o il Deceptive Delight, che costruisce gradualmente richieste sempre più esplicite, hanno dimostrato che anche i modelli più avanzati possono essere manipolati. Ma perché cercare di violare le policy di modelli come Chat-GPT o DeepSeek quando esistono già AI completamente libere da censure?

AI senza censure: il lato oscuro dei LLM

Dall’altra parte del mondo, in stati con legislazioni meno stringenti (o anche con legislazioni coerenti), esistono modelli di intelligenza artificiale che offrono servizi rimuovendo qualsiasi forma di censura.

Senza andare su modelli a pagamento, dei quali abbiamo parlato come GhostGPT o DarkGPT, esisto anche AI liberamente accessibili e a costo zero completamente aperte, accessibili a chiunque sappia dove trovarle.

Un esempio emblematico è un modello che abbiamo testato direttamente sul clear web, il quale ci ha fornito istruzioni dettagliate su come realizzare malware di qualsiasi natura, come ad esempio superare le ultime vulnerabilità rilevate sul Mark of the Web (MOTW), un meccanismo di sicurezza che avverte gli utenti quando un file proviene da una fonte esterna.

Questi modelli multilingua, privi di filtri, rappresentano una minaccia concreta, soprattutto nelle mani di criminali informatici esperti.

Una corsa senza fine

Quella che stiamo vivendo è una corsa senza fine, tra chi cerca di proteggere i LLM e chi tenta di sfruttarli in modo malevolo. Da un lato, ci sono aziende e ricercatori che lavorano per migliorare le difese dei modelli largamente diffusi, implementando meccanismi di rilevamento e prevenzione sempre più sofisticati.

Dall’altra parte, ci sono individui e organizzazioni che sfruttano le stesse tecnologie per scopi malevoli, spesso con un vantaggio significativo. I criminali informatici sono i primi a sapere e a diffondere risorse di questo tipo nei circuiti underground.

Il grande pubblico, invece, spesso ignora l’esistenza di queste “AI oscure” e continua a utilizzare strumenti di largo consumo come Chat-GPT o DeepSeek, convinto che siano sicuri e controllati. Ma la realtà è che, mentre noi discutiamo di etica e limitazioni, c’è un intero mondo sommerso che sfrutta l’IA senza regole.

LLM Senza Censura. Allineamento si, allineamento no: Cosa è meglio?

Negli ultimi anni, i modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato il panorama tecnologico, influenzando settori che vanno dalla ricerca accademica alla creazione di contenuti. Uno dei dibattiti più accesi riguarda il grado di allineamento di questi modelli con i principi etici e le linee guida imposte dai loro sviluppatori. Secondo un recente articolo pubblicato su Analytics India Magazine, i modelli non censurati sembrano ottenere risultati migliori rispetto a quelli allineati, sollevando interrogativi sulla necessità e sull’efficacia delle restrizioni etiche imposte dall’industria.

L’allineamento dei modelli AI nasce dalla volontà di evitare contenuti pericolosi, disinformazione e bias dannosi. Aziende come OpenAI e Google implementano rigorose politiche di sicurezza per garantire che le loro IA rispettino standard di condotta condivisi, riducendo il rischio di abusi. Tuttavia, il processo di allineamento introduce inevitabilmente filtri che limitano la libertà espressiva e, in alcuni casi, compromettono le prestazioni del modello. Questo perché i sistemi allineati potrebbero evitare di rispondere a domande controverse o generare risposte eccessivamente generiche per attenersi alle linee guida.

Al contrario, i modelli non censurati, che operano senza le stesse restrizioni etiche, dimostrano una maggiore flessibilità e capacità di fornire risposte più precise e dettagliate, soprattutto in contesti tecnici o di ricerca avanzata. Senza i vincoli imposti dall’allineamento, possono elaborare una gamma più ampia di informazioni e affrontare argomenti sensibili con maggiore profondità. Questo vantaggio, però, si accompagna a rischi significativi, come la diffusione incontrollata di disinformazione, contenuti dannosi e l’uso improprio da parte di attori malevoli.

Il problema centrale di questo dibattito non è solo tecnico, ma etico e politico. Un’intelligenza artificiale completamente libera potrebbe rappresentare una minaccia se utilizzata per scopi illeciti, mentre un modello eccessivamente allineato rischia di diventare inefficace o di riflettere un’agenda ideologica oppure attuare censura.

Alcuni ricercatori sostengono che l’equilibrio ideale risieda in un allineamento parziale, che consenta un certo grado di libertà espressiva senza compromettere la sicurezza. Tuttavia, definire i confini di tale equilibrio è una sfida complessa e soggetta a interpretazioni divergenti.

L’industria AI si trova dunque davanti a una scelta cruciale: proseguire lungo la strada dell’allineamento stringente, con il rischio di compromettere le prestazioni e la neutralità dei modelli, o adottare un approccio più permissivo, consapevole dei potenziali rischi. Le conseguenze di questa decisione avranno un impatto diretto sul futuro dell’IA e sulla sua integrazione nella società, influenzando la fiducia del pubblico e la regolamentazione del settore. La domanda fondamentale rimane aperta: quanto controllo è troppo controllo?

Conclusione: una sfida globale

La questione dei jailbreak e delle AI senza censure non è solo un problema tecnico, ma una sfida globale che coinvolge etica, sicurezza e legislazione. Mentre i modelli di intelligenza artificiale diventano sempre più potenti, è fondamentale che governi, aziende e società civile collaborino per garantire che queste tecnologie siano utilizzate in modo responsabile. Tuttavia, anche se riuscissimo a rimuovere ogni forma di jailbreak e a implementare meccanismi di controllo sempre più sofisticati, ci sarà sempre una quota parte di intelligenze artificiali che sfuggirà al controllo. Inoltre come visto in precedenza, molti sollevano dubbi sulla necessità di allineamento e si inizia a parlare di un “allineamento parziale”. Dalla controparte, queste AI, libere da restrizioni, saranno quelle maggiormente ottimizzate per le attività malevole e, purtroppo, più utilizzate dal cybercrime.

Ora che il Genio è uscito dalla lampada, è difficile rimettercelo dentro. Questa metafora è particolarmente calzante con l’intelligenza artificiale. L’IA ha il potenziale per realizzare desideri e risolvere problemi, ma può anche causare caos se lasciata incontrollata e non normata.

Forse la soluzione non sta nel cercare di rimettere il genio nella lampada, ma nel ridefinire il nostro rapporto con la tecnologia. Dobbiamo sviluppare una nuova consapevolezza, sia come individui che come società, su come utilizzare l’IA in modo etico e responsabile. Questo non richiederà avanzamenti tecnici, ma una voglia di profondo cambiamento culturale e legislativo che purtroppo oggi nessuno ha, per motivazioni spesso politiche.

La sfida dell’intelligenza artificiale non è solo tecnica, ma esistenziale. Ci costringe a confrontarci con i limiti del controllo umano e a chiederci cosa significhi davvero maneggiare una tecnologia che può essere superiore in vari campi rispetto alla nostra mente senza dimenticarci che la tecnologia può essere sia uno strumento di liberazione che di distruzione.

E mentre il genio continua a vagare libero, spetta a noi decidere come conviverci e da che parte stare!

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Articoli in evidenza

CVE e MITRE salvato dagli USA. L’Europa spettatrice inerme della propria Sicurezza Nazionale

Quanto accaduto in questi giorni deve rappresentare un campanello d’allarme per l’Europa.Mentre il programma CVE — pilastro della sicurezza informatica globale — rischiava ...

Spotify è Andato giù e DarkStorm Rivendica un attacco DDoS col botto!

Il 16 aprile 2025, Spotify ha subito un’interruzione del servizio che ha colpito numerosi utenti in Italia e nel mondo. A partire dalle ore 14:00, migliaia di segnalazioni sono state re...

20 Milioni di euro persi da IKEA per un attacco Ransomware

Fourlis Group, il gestore dei negozi IKEA in Grecia, Cipro, Romania e Bulgaria, ha dichiarato di aver subito un attacco ransomware prima del Black Friday del 27 novembre 2024, che ha causato...

CVE a rischio! La spina dorsale della cybersecurity Occidentale potrebbe spegnersi oggi. Riflessioni

Noi di Red Hot Cyber lo diciamo da tempo: affidarsi esclusivamente a infrastrutture critiche gestite da enti statunitensi è un rischio per l’autonomia strategica europea. È anni che s...

Breach Forums che fine hai fatto? Sequestro in corso, Honeypot federale o Disservizio?

A partire da poco dopo la mezzanotte del 15 aprile 2025, BreachForums – uno dei principali forum underground – risulta offline sia nella sua versione clearnet che nella controparte su re...