Red Hot Cyber

La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.

Deceptive Delight: l’AI nuovamente ingannata da una tecnica di hacking con il 65% di Successo

Redazione RHC : 25 Ottobre 2024 10:03

Gli esperti di Palo Alto Networks hanno sviluppato una tecnica innovativa chiamata “Deceptive Delight” per bypassare i meccanismi di difesa dei modelli di intelligenza artificiale (AI) linguistica. Questa tecnica, che unisce contenuti sicuri e non sicuri in un contesto apparentemente innocuo, inganna i modelli spingendoli a generare risposte potenzialmente dannose. Lo studio ha coinvolto circa 8.000 test su otto modelli diversi, evidenziando una vulnerabilità diffusa a questo tipo di attacchi.

“Deceptive Delight” sfrutta una strategia multi-pass, dove richieste non sicure vengono inserite tra due richieste sicure. In questo modo, il modello AI non percepisce il contenuto come una minaccia, continuando a generare risposte senza attivare i filtri di sicurezza.

L’attacco ha un tasso di successo del 65% in sole tre iterazioni, dimostrando la sua elevata efficacia nel bypassare i filtri standard.

Iscriviti GRATIS ai WorkShop Hands-On della RHC Conference 2025 (Giovedì 8 maggio 2025)

Il giorno giovedì 8 maggio 2025 presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terranno i workshop "hands-on", creati per far avvicinare i ragazzi (o persone di qualsiasi età) alla sicurezza informatica e alla tecnologia. Questo anno i workshop saranno:

Creare Un Sistema Ai Di Visual Object Tracking (Hands on)

Social Engineering 2.0: Alla Scoperta Delle Minacce DeepFake

Doxing Con Langflow: Stiamo Costruendo La Fine Della Privacy?

Come Hackerare Un Sito WordPress (Hands on)

Il Cyberbullismo Tra Virtuale E Reale

Come Entrare Nel Dark Web In Sicurezza (Hands on)

Potete iscrivervi gratuitamente all'evento, che è stato creato per poter ispirare i ragazzi verso la sicurezza informatica e la tecnologia.
Per ulteriori informazioni, scrivi a [email protected] oppure su Whatsapp al 379 163 8765

Supporta RHC attraverso:

L'acquisto del fumetto sul Cybersecurity Awareness

Scarica gratuitamente "Dark Mirror", il report sul ransomware di Dark Lab

Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.

Il processo di attacco si suddivide in tre fasi: preparazione, query iniziale, e approfondimento degli argomenti. In particolare, la terza fase, in cui si richiede un’ulteriore espansione del contenuto, è quella in cui i modelli iniziano a generare dettagli non sicuri in maniera più specifica, confermando l’efficacia della tecnica multi-percorso. Con questa metodologia, il tasso di successo aumenta sensibilmente rispetto agli attacchi diretti.

Gli attacchi hanno avuto successo variabile a seconda della categoria del contenuto non sicuro. I modelli sono risultati più vulnerabili a richieste legate alla violenza e agli atti pericolosi, mentre le risposte relative a contenuti sessuali e incitazioni all’odio sono state gestite con maggiore attenzione. Questa differenza suggerisce una maggiore sensibilità dei modelli verso alcune categorie di contenuti.

Palo Alto Networks ha inoltre sottolineato l’importanza di una progettazione delle query più strutturata e di soluzioni multi-livello per il filtraggio dei contenuti. Tra le raccomandazioni rientrano l’adozione di servizi come OpenAI Moderation e Meta Llama-Guard, insieme a test regolari sui modelli per rafforzare i sistemi di difesa e ridurre le vulnerabilità.

I risultati di questa ricerca sono stati condivisi con la Cyber Threat Alliance (CTA) per una rapida implementazione di misure preventive. Palo Alto sottolinea che il problema, pur evidenziando punti deboli nell’attuale tecnologia AI, non mina la sicurezza dei modelli in generale, ma sottolinea la necessità di miglioramenti continui per affrontare nuove minacce.

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

HackerHood di RHC Rivela due nuovi 0day sui prodotti Zyxel

Il collettivo di ricerca in sicurezza informatica HackerHood, parte dell’universo della community di Red Hot Cyber, ha recentemente scoperto due nuove vulnerabilità ...

A lezione di IA a 6 anni: la Cina prepara i suoi bambini alla rivoluzione dell’intelligenza artificiale

La Cina introdurrà corsi di intelligenza artificiale per gli studenti delle scuole primarie e secondarie questo autunno. L’iniziativa prevede che i bambini a partire dai sei anni imparino ...

Attacco Hacker a 4chan! Dove è nato Anonymous, probabilmente chiuderà per sempre

L’imageboard di 4chan è praticamente inattivo da lunedì sera (14 aprile), apparentemente a causa di un attacco hacker. I membri dell’imageboard Soyjak party (noto anche semplic...

Zero-day su iPhone, Mac e iPad: Apple corre ai ripari con patch d’emergenza

Apple ha rilasciato patch di emergenza per correggere due vulnerabilità zero-day. Secondo l’azienda, questi problemi sono stati sfruttati in attacchi mirati ed “estremamen...

CVE e MITRE salvato dagli USA. L’Europa spettatrice inerme della propria Sicurezza Nazionale

Quanto accaduto in questi giorni deve rappresentare un campanello d’allarme per l’Europa.Mentre il programma CVE — pilastro della sicurezza informatica globale — rischiava ...

Banner

Redhotcyber è un progetto di open-news nato nel 2019 e successivamente ampliato in una rete di persone che collaborano alla divulgazione di informazioni e temi incentrati la tecnologia, l'Information Technology e la sicurezza informatica, con lo scopo di accrescere i concetti di consapevolezza del rischio ad un numero sempre più crescente di persone.

PRINCIPALI CATEGORIE
Attacchi Informatici Italiani
Dark Web & Cybercrime
0day, bug e Vulnerabilità
Hacking
Cybersecurity Italia
Cyberpolitica & Intelligence

RISORSE
Academy
Rubriche
Il manifesto di Red Hot Cyber
Feed RSS
Contatti

Deceptive Delight: l’AI nuovamente ingannata da una tecnica di hacking con il 65% di Successo

Articoli in evidenza

Categorie