Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca

È Guerra Aperta Sulle AI: La Cina Sfida con DeepSeek R1 i Giganti Statunitensi

Redazione RHC : 26 Gennaio 2025 11:29

DeepSeek R1 è un innovativo modello di intelligenza artificiale open source sviluppato da DeepSeek, un’azienda cinese, che sta facendo scalpore nel mondo dell’AI. A differenza dei modelli linguistici tradizionali che si concentrano principalmente sulla generazione e comprensione del testo, DeepSeek R1 è specializzato in inferenza logica, risoluzione di problemi matematici e processo decisionale in tempo reale. Questa attenzione unica lo distingue nel panorama dell’intelligenza artificiale, offrendo capacità di spiegazione e ragionamento migliorate.

Ciò che distingue davvero DeepSeek R1 è la sua natura open source, che consente a sviluppatori e ricercatori di esplorare, modificare e distribuire il modello entro determinati vincoli tecnici. Questa apertura promuove l’innovazione e la collaborazione nella comunità AI. Inoltre, DeepSeek R1 si distingue per la sua convenienza, con costi operativi significativamente inferiori rispetto ai suoi concorrenti.

Infatti, si stima che costi solo il 2% di quanto gli utenti spenderebbero per il modello O1 di OpenAI, rendendo il ragionamento AI avanzato accessibile a un pubblico più ampio.

Vuoi diventare un esperto del Dark Web e della Cyber Threat Intelligence (CTI)?
Stiamo per avviare il corso intermedio in modalità "Live Class", previsto per febbraio.
A differenza dei corsi in e-learning, disponibili online sulla nostra piattaforma con lezioni pre-registrate, i corsi in Live Class offrono un’esperienza formativa interattiva e coinvolgente.
Condotti dal professor Pietro Melillo, le lezioni si svolgono online in tempo reale, permettendo ai partecipanti di interagire direttamente con il docente e approfondire i contenuti in modo personalizzato. Questi corsi, ideali per aziende, consentono di sviluppare competenze mirate, affrontare casi pratici e personalizzare il percorso formativo in base alle esigenze specifiche del team, garantendo un apprendimento efficace e immediatamente applicabile.
Non perdere i nostri corsi e scrivi subito su WhatsApp al numero
379 163 8765  per richiedere informazioni
"

Supporta RHC attraverso:


Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.

DeepSeek è un’azienda cinese di intelligenza artificiale con sede a Hangzhou, nella provincia di Zhejiang, Cina. Fondata nel 2023 da Liang Wenfeng, è interamente finanziata dall’hedge fund cinese High-Flyer, anch’esso con sede a Hangzhou.

Un inizio in sordina

A novembre, DeepSeek ha fatto notizia con l’annuncio di aver raggiunto prestazioni superiori a quelle di o1 di OpenAI, ma all’epoca offriva solo un modello R1-lite-preview limitato. Con la versione completa di R1 uscita lunedì scorso e il documento tecnico di accompagnamento, l’azienda ha rivelato un’innovazione sorprendente: un deliberato allontanamento dal processo convenzionale di fine-tuning supervisionato (SFT) ampiamente utilizzato nell’addestramento di modelli linguistici di grandi dimensioni (LLM).

SFT, una fase standard nello sviluppo dell’IA, prevede l’addestramento di modelli su set di dati curati per insegnare il ragionamento passo dopo passo, spesso definito chain-of-thought (CoT). È considerato essenziale per migliorare le capacità di ragionamento. Tuttavia, DeepSeek ha sfidato questa ipotesi saltando completamente SFT, optando invece per affidarsi all’apprendimento per rinforzo (RL) per addestrare il modello.

Questa mossa audace ha costretto DeepSeek-R1 a sviluppare capacità di ragionamento indipendenti, evitando la fragilità spesso introdotta dai set di dati prescrittivi. Mentre emergono alcuni difetti, che hanno portato il team a reintrodurre una quantità limitata di SFT durante le fasi finali di creazione del modello, i risultati hanno confermato la svolta fondamentale: il solo apprendimento per rinforzo potrebbe determinare guadagni sostanziali in termini di prestazioni.

Un passo avanti verso l’AGI?

L’azienda afferma che l’approccio di training di DeepSeek-R1 si discosta dai metodi tradizionali che richiedono enormi set di dati e risorse di elaborazione. Invece, si concentra su:

  • Dati di pre-addestramento e dati sintetici: mentre le leggi di scalabilità suggeriscono che set di dati più grandi producono risultati migliori, l’approccio ai dati ottimizzati e curati di DeepSeek sfida l’idea che di più è sempre meglio.
  • Ottimizzazione post-training: tecniche come Reinforcement Learning from Human Feedback (RLHF) e self-play stanno ridefinendo l’efficienza post-training. I loop iterativi di DeepSeek esemplificano come questi metodi massimizzino le prestazioni senza affidarsi alla forza bruta.
  • Inferenza e calcolo in fase di test: l’attivazione sparsa rappresenta una svolta, consentendo ai modelli di offrire prestazioni elevate con un calcolo minimo durante casi d’uso reali.

Queste tecniche consentono a DeepSeek-R1 di essere circa il 95,3% meno costoso da gestire rispetto a Claude 3.5 Sonnet di Anthropic. La sua architettura Mixture-of-Experts (MoE), che attiva solo una frazione di parametri per token, contrasta nettamente con i modelli di forza bruta che coinvolgono tutti i parametri, gonfiando i costi.

DeepSeek avrebbe addestrato il suo modello base, denominato V3, con un budget di 5,58 milioni di dollari in due mesi, secondo l’ingegnere Nvidia Jim Fan. Sebbene l’azienda non abbia divulgato i dati di addestramento esatti utilizzati, le tecniche moderne rendono l’addestramento su web e set di dati aperti sempre più accessibili. Stimare il costo totale dell’addestramento di DeepSeek-R1 è impegnativo. Sebbene l’esecuzione di 50.000 GPU suggerisca spese significative (potenzialmente centinaia di milioni di dollari), le cifre precise rimangono speculative.

Ciò che è chiaro, però, è che DeepSeek è stato molto innovativo fin dall’inizio. L’anno scorso, sono emersi resoconti su alcune innovazioni iniziali che stava realizzando, su tecnologie come Mixture of Experts e Multi-Head Latent Attention.

DeepSeek R1 funziona anche localmente

Sebbene le capacità di DeepSeek R1 siano impressionanti, potresti chiederti come sfruttare la sua potenza sulla tua macchina. È qui che entra in gioco Ollama. Ollama è uno strumento versatile progettato per eseguire e gestire Large Language Model (LLM) come DeepSeek R1 su personal computer. Ciò che rende Ollama particolarmente interessante è la sua compatibilità con i principali sistemi operativi tra cui macOS, Linux e Windows, rendendolo accessibile a un’ampia gamma di utenti.

Una delle caratteristiche più importanti di Ollama è il suo supporto per l’utilizzo di API, inclusa la compatibilità con l’API OpenAI. Ciò significa che puoi integrare senza problemi DeepSeek R1 nei tuoi progetti o applicazioni esistenti che sono già impostati per funzionare con i modelli OpenAI.

Per iniziare a eseguire DeepSeek R1 in locale utilizzando Ollama , segui queste istruzioni di installazione per il tuo sistema operativo:

  1. Per macOS:
    • Scarica il programma di installazione dal sito web di Ollama
    • Installa ed esegui l’applicazione
  2. Per Linux:
    • Utilizzare il comando curl per un’installazione rapida: curl  https://ollama.ai/install.sh  | sh
    • In alternativa, installare manualmente utilizzando il pacchetto .tgz
  3. Per Windows:
    • Scarica ed esegui il programma di installazione dal sito web di Ollama

Una volta installato, puoi iniziare a usare DeepSeek R1 con semplici comandi. Controlla la tua versione di Ollama con  ollama -v , scarica il modello DeepSeek R1 usando  ollama pull deepseek-r1 ed eseguilo con  ollama run deepseek-r1 .

Con questi passaggi, sarai in grado di sfruttare la potenza di DeepSeek R1 direttamente sul tuo personal computer, aprendo un mondo di possibilità per il ragionamento e la risoluzione dei problemi guidati dall’intelligenza artificiale.

Conclusioni

DeepSeek R1 rappresenta un passo significativo nel panorama dell’intelligenza artificiale, distinguendosi per le sue capacità uniche di inferenza logica, risoluzione di problemi matematici e processo decisionale in tempo reale. L’approccio innovativo adottato da DeepSeek, che combina la natura open source del modello con tecniche avanzate come l’apprendimento per rinforzo e l’attivazione sparsa, ridefinisce gli standard dell’AI, rendendola più efficiente e accessibile.

La possibilità di eseguire DeepSeek R1 in locale, grazie a strumenti come Ollama, amplia ulteriormente le opportunità di utilizzo, permettendo a sviluppatori, ricercatori e aziende di sfruttarne le potenzialità senza dipendere esclusivamente da soluzioni cloud costose.

Sebbene alcune sfide tecniche permangano, come l’ottimizzazione delle capacità di ragionamento e l’affinamento dei metodi di addestramento, DeepSeek R1 dimostra che è possibile coniugare efficienza, scalabilità e innovazione. Con costi operativi drasticamente ridotti e una versatilità unica, questo modello apre nuove strade verso un’AI più sostenibile e accessibile, avvicinandoci ulteriormente al sogno di un’intelligenza artificiale generale (AGI).

Il futuro dell’AI non è solo fatto di prestazioni superiori, ma di accessibilità e collaborazione. DeepSeek R1 è la prova concreta che l’innovazione può prosperare anche attraverso approcci aperti e non convenzionali.

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.