Red Hot Cyber

La cybersecurity è condivisione.
Riconosci il rischio, combattilo, condividi le tue esperienze ed 
incentiva gli altri a fare meglio di te.

Cerca

Stable Diffusion 3 Medium crea mostri e non persone! Tutto per colpa della censura

Redazione RHC : 22 Giugno 2024 09:38

Mercoledì, Stability AI ha introdotto una nuova versione del suo modello di sintesi delle immagini, Stable Diffusion 3 Medium. Questo modello converte le query di testo in immagini, ma l’inferenza prodotta ha attirato un’ondata di critiche a causa della scarsa qualità delle immagini delle persone, soprattutto rispetto a Midjourney e DALL-E 3.

Come si è scoperto, SD3 Medium crea spesso immagini anatomicamente errate, che è diventato motivo di scherno. C’era un thread su Reddit chiamato “Questo episodio è uno scherzo? [SD3-2B]”, in cui gli utenti condividono esempi di fallimenti di SD3 Medium durante la creazione di immagini di persone, in particolare mani e piedi.

Un altro thread discute i problemi legati alla generazione di immagini di ragazze sdraiate sull’erba.

Generare le mani è stato tradizionalmente un compito impegnativo per i generatori di immagini a causa della mancanza di esempi nei set di dati di addestramento. I modelli moderni hanno già imparato a far fronte a questo compito, ma Stable Diffusion 3 Medium ha fatto un passo indietro.

Gli utenti ritengono che il motivo per cui SD3 Medium fallisce sia dovuto al filtraggio dei contenuti per adulti dai dati di addestramento. “La pesante censura dei modelli rimuove anche i dati anatomici, ecco cosa è successo”, ha osservato un utente.

Gli stessi problemi sono sorti con il rilascio di Stable Diffusion 2.0 nel 2022. Quindi il filtraggio dei contenuti per adulti ha ridotto la capacità del modello di generare un’anatomia umana accurata. L’intelligenza artificiale ha risolto questo problema in SD 2.1 e SD XL, ripristinando parzialmente le abilità perse.

Alcuni utenti ritengono che il filtro NSFW utilizzato per ripulire i dati di addestramento fosse troppo rigido. Di conseguenza, le immagini che non contenevano contenuti sessuali ma erano importanti per addestrare il modello a rappresentare correttamente le persone in varie situazioni potrebbero essere state rimosse dal set di dati.

Un utente Reddit ha scritto: “[SD3] funziona bene finché non ci sono persone nell’inquadratura. Sembra che il loro filtro NSFW migliorato abbia deciso che qualsiasi umanoide sia NSFW.”

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.