Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca

Alibaba presenta mPLUG-Owl3. Il modello che può analizzare 400 immagini al secondo su una sola A100

Redazione RHC : 22 Agosto 2024 12:14

Gli ingegneri dell’azienda cinese Alibaba hanno presentato un nuovo modello di apprendimento automatico multimodale chiamato mPLUG-Owl3. Questo modello è in grado di analizzare in modo efficiente testo, immagini e video.

Gli sviluppatori prestano particolare attenzione alla velocità della rete neurale, sostenendo che bastano solo quattro secondi per elaborare un video di due ore.

mPLUG-Owl3 si basa sul modello Qwen2, che è stato notevolmente migliorato e ottimizzato. Grazie a queste modifiche, il tempo di attesa per il primo token è stato ridotto di sei volte e una singola scheda grafica A100 ora può elaborare fino a 400 immagini al secondo.

Il modello utilizza anche uno speciale blocco HATB (Hyper Attention Transformer), che integra funzionalità visive e testuali, consentendo, ad esempio, di cercare immagini visive in base a query testuali.

Il codice del progetto è aperto e pubblicato su GitHub. Inoltre, gli sviluppatori hanno fornito tutto il materiale necessario per lavorare sulle piattaforme Hugging Face e sull’analogo cinese Model Scope.

Il testo completo dello studio descrive in dettaglio lo sviluppo e il funzionamento del modello mPLUG-Owl3.

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.