
Nel sempre mutevole mondo del Machine Learning, selezionare il modello più efficace per un determinato compito è un impegno non banale, che può richiedere molto tempo. Tradizionalmente, i metodi di valutazione cosi detti offline, come lo split tra dati di training e test o la k-fold cross validation sono quelli più conosciuti e utilizzati dai data scientist. Tuttavia, possono risultare carenti nel considerare cambiameni della distribuzione che possono verificarsi in scenari reali. In poche parole il modello potrebbe essere stato trainato su dei dati che pero non sono simili a quelli reali che il modello deve gestire quando è in produzione. Entra in gioco la valutazione online, un metodo condotto dopo l’implementazione e il deploy, che offre preziosi dettagli sulle prestazioni del modello in un ambiente dinamico.
Il “deployment ombra” comporta il lancio simultaneo di entrambi i modelli, con tutte le richieste dirette a ciascun modello in parallelo. La successiva raccolta di dati consente un’analisi approfondita per identificare il modello che offre le prestazioni migliori. Tuttavia, è essenziale notare che questo approccio comporta uno svantaggio: il costo di inferenza è raddoppiato poiché entrambi i modelli sono interrogati per ciascuna richiesta.
Il test A/B, forse il metodo più comunemente utilizzato, comporta il deployment di entrambi i modelli e la suddivisione casuale del traffico tra di essi. La successiva valutazione viene condotta sui log, utilizzando test di ipotesi statistica per accertare se uno dei modelli supera significativamente l’altro. Questo metodo fornisce un robusto quadro statistico per prendere decisioni informate sulla selezione del modello.
In situazioni in cui il rilascio di una nuova versione di un modello comporta rischi potenziali, il metodo di rilascio canary offre un approccio graduale e controllato. Invece di reindirizzare casualmente il traffico con una suddivisione del 50% tra i modelli A e B, una piccola parte del traffico viene reindirizzata al nuovo modello (modello canary). Se il modello canary ha prestazioni positive, il reindirizzamento del traffico aumenta gradualmente fino a gestire il 100% del carico.
Per i sistemi in cui l’interazione dell’utente svolge un ruolo fondamentale, come nei sistemi di raccomandazione, gli esperimenti interattivi offrono una straordinaria via per la valutazione del modello. Utilizzando contemporaneamente entrambi i modelli, agli utenti viene chiesto di fornire feedback selezionando la loro preferenza. Questo approccio guidato dall’utente offre preziosi dettagli sulle preferenze degli utenti e sull’efficacia di ciascun modello.
Mentre il test A/B è spesso considerato un approccio senza stato, i meccanismi di tipo bandit introducono una dimensione con stato alla valutazione del modello. Utilizzando algoritmi complessi, questi meccanismi monitorano continuamente le prestazioni di ciascun modello in tempo quasi reale. Questa valutazione continua consente una redistribuzione dinamica del traffico, cercando un equilibrio tra la sperimentazione del nuovo modello e la minimizzazione dell’impatto complessivo sulle prestazioni del sistema.
Nel Machine Learning, la ricerca del modello ottimale coinvolge una serie di metodi di valutazione offline e online. Dallo shadow deployment ai test A/B, dai canary release agli esperimenti interattivi e ai meccanismi bandit, ciascun approccio offre una prospettiva unica. Mentre il panorama dell’apprendimento automatico continua a evolversi, una comprensione articolata di questi metodi di valutazione permette agli operatori del settore di prendere decisioni informate, assicurando il rilascio di modelli robusti che resistono alle sfide degli scenari reali.
Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

VulnerabilitàCisco ha confermato che una falla critica di sicurezza zero-day, che consente l’esecuzione remota di codice, è attualmente oggetto di sfruttamento attivo nei suoi dispositivi Secure Email Gateway e Secure Email and Web Manager. Questa…
InnovazioneQuesta settimana ha segnato la fine di un’era: Microsoft ha finalmente terminato il supporto per Windows Server 2008, il sistema operativo basato su Windows Vista. Il sistema operativo server, nome in codice Longhorn Server, è…
CyberpoliticaL’articolo pubblicato ieri su Red Hot Cyber ha raccontato i fatti: la multa, le dichiarazioni durissime di Matthew Prince, le minacce di disimpegno di Cloudflare dall’Italia, il possibile effetto domino su Olimpiadi, investimenti e servizi…
CulturaDopo aver analizzato nei due articoli precedenti l’inquadramento normativo e il conflitto tra algoritmi e diritti fondamentali è necessario volgere lo sguardo alle ripercussioni che la proposta CSAR avrà sulla competitività digitale dell’Europa e sulla…
VulnerabilitàUna vulnerabilità recentemente risolta permetteva agli aggressori di sfruttare Microsoft Copilot Personal con un semplice clic, al fine di rubare di nascosto dati sensibili degli utenti. Mediante un link di phishing, i malintenzionati erano in…