I principali chatbot tra i quali ChatGPT sono stati forzati ad elaborare un piano per distruggere l’umanità

Redazione RHC : 28 Luglio 2023 16:45

I sistemi di intelligenza artificiale stanno diventando parte integrante della nostra vita quotidiana. Tuttavia, è importante ricordare che non sono immuni dagli intrusi e possono essere manipolati.

Di recente, gli scienziati della Carnegie Mellon University e dell’AI Security Center hanno provato a dimostrarlo e hanno trovato difetti nei meccanismi di sicurezza dei chatbot popolari, tra cui ChatGPT, Google Bard e Claude.

Il documento di ricerca mostra i modi per aggirare gli algoritmi di sicurezza. Se qualcuno avesse scelto in precedenza di sfruttare queste vulnerabilità, ciò avrebbe potuto portare alla diffusione di disinformazione, incitamento all’odio e alimentare il conflitto.

Vorresti toccare con mano la Cybersecurity e la tecnologia? Iscriviti GRATIS ai WorkShop Hands-On della RHC Conference 2025 (Giovedì 8 maggio 2025)

Se sei un ragazzo delle scuole medie, superiori o frequenti l'università, oppure banalmente un curioso di qualsiasi età, il giorno giovedì 8 maggio 2025 presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terranno i workshop "hands-on", creati per far avvicinare i ragazzi alla sicurezza informatica e alla tecnologia. Questo anno i workshop saranno:

Creare Un Sistema Ai Di Visual Object Tracking (Hands on)

Social Engineering 2.0: Alla Scoperta Delle Minacce DeepFake

Doxing Con Langflow: Stiamo Costruendo La Fine Della Privacy?

Come Hackerare Un Sito WordPress (Hands on)

Il Cyberbullismo Tra Virtuale E Reale

Come Entrare Nel Dark Web In Sicurezza (Hands on)

Potete iscrivervi gratuitamente all'evento, che è stato creato per poter ispirare i ragazzi verso la sicurezza informatica e la tecnologia.
Per ulteriori informazioni, scrivi a [email protected] oppure su Whatsapp al 379 163 8765

Supporta RHC attraverso:

L'acquisto del fumetto sul Cybersecurity Awareness

Scarica gratuitamente "Dark Mirror", il report sul ransomware di Dark Lab

Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.

“Questo dimostra molto chiaramente la fragilità dei meccanismi di difesa che incorporiamo in tutti i programmi di intelligenza artificiale”, ha affermato Aviv Ovadia, esperto del Berkman Klein Center for the Internet and the Public.

Nell’esperimento, i ricercatori hanno utilizzato un sistema di dati aperti AI per attaccare i modelli linguistici di OpenAI, Google e Anthropic . Dal lancio di ChatGPT lo scorso autunno, gli utenti hanno ripetutamente tentato di forzare la rete neurale a generare contenuti dannosi. Ciò ha costretto gli sviluppatori a limitare la funzionalità del bot.

Tuttavia, gli scienziati della Carnegie Mellon hanno trovato un modo per aggirare la censura impedendo alla rete neurale di riconoscere input dannosi. Ad ogni richiesta veniva aggiunta una lunga stringa di caratteri, che fungeva da travestimento. A causa di questo travestimento, il programma ha generato risposte che non avrebbe dovuto produrre. Ad esempio, è stato possibile “persuadere” l’IA a creare un piano per distruggere l’umanità.

“Con l’aiuto del dialogo modellato in un certo modo, questi chatbot possono essere utilizzati per convincere le persone a cadere nella disinformazione”, ha spiegato il professor Matt Fredrickson.

Lo studio ha confermato che, nonostante gli algoritmi di sicurezza implementati, ci sono sempre scappatoie che gli aggressori possono sfruttare. “In questo momento non c’è una soluzione ovvia. Puoi effettuare tutti gli attacchi che vuoi in breve tempo “, ha affermato l’esperto di Carnegie Mellon Zico Colter.

Prima di pubblicare lo studio, gli autori hanno condiviso i risultati con Anthropic, Google e OpenAI le loro ricerche, che prenderanno le misure appropriate. Questi risultati evidenziano la necessità di un’attenta regolamentazione dell’intelligenza artificiale in futuro.

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Articoli in evidenza

Un Exploit Zero Day su FortiGate in vendita nei forum underground per 6.500 dollari

Un utente anonimo ha pubblicato nel forum underground chiuso Exploit un annuncio che ha subito attirato l’attenzione della comunità di cybersecurity: la vendita di un exploit zero-day...

Un e-commerce italiano sta per essere compromesso: accesso in vendita per 500$

Un nuovo annuncio pubblicato sul noto forum underground Exploit.in accende i riflettori su un’ennesima violazione ai danni di una realtà italiana. Questa volta si tratta di un e-...

L’Operazione Endgame Continua: colpo duro ai clienti della botnet Smokeloader. Scattano gli arresti

A seguito dell’operazione Endgame, le forze dell’ordine hanno identificato i clienti della botnet Smokeloader e hanno segnalato l’arresto di almeno cinque persone. Ricordiamo che&...

Shock Hacking: Come Guidare una Nissan Leaf Da Remoto! La ricerca al Black Hat Asia 2025

I ricercatori della PCAutomotive hanno evidenziato diverse vulnerabilità nel veicolo elettrico Nissan Leaf. Gli esperti hanno dimostrato che i bug potrebbero essere utilizzati per l...

Il Comune di Grosseto finisce su Breach Forums. 13GB in possesso dei criminali informatici?

Poche ore fa, all’interno del famoso forum underground Breach Forums, un post da parte dell’utente “sentap” ha riportato la potenziale violazione dei dati dal Comune di Gro...

I principali chatbot tra i quali ChatGPT sono stati forzati ad elaborare un piano per distruggere l’umanità

Articoli in evidenza

Categorie