Torna al Blog IA e Machine Learning

LLM locali in azienda — Llama, Mistral, Bielik o cloud?

Zespół ESKOM.AI 2026-06-09 Tempo di lettura: 8 min

Stato del mercato nel 2026

Tre anni fa la differenza di qualità tra il miglior modello cloud (GPT-4, Claude Opus) e il miglior modello open-source era enorme. Nel 2026 questo divario si è praticamente chiuso nella maggior parte delle applicazioni business. Llama 3.1 405B, Mistral Large, il polacco Bielik 11B, Qwen 2.5 — sono modelli che nei benchmark di reasoning, coding, analisi documenti o gestione della lingua polacca raggiungono risultati comparabili ai modelli cloud.

Inoltre, per molte applicazioni enterprise i modelli 8-13B non sono solo sufficienti, ma ottimali. Classificazione email, estrazione dati da fatture, generazione di riassunti, risposte base nel customer service — in questi task il Bielik locale sul proprio server GPU fornisce risultati indistinguibili da Claude Haiku, con costo zero per token.

Quando conviene il modello locale

La decisione tra LLM locale e cloud ha diverse dimensioni. Le più importanti:

  • Volume di richieste — il punto di break-even con l’infrastruttura attuale (server con GPU H100 80GB ~120 mila PLN, oppure spot DataCrunch ~3 mila PLN/mese) si attesta intorno a 50-100 milioni di token al mese. Sopra — on-prem più conveniente. Sotto — cloud.
  • Sensibilità dei dati — per dati coperti da GDPR, segreto professionale (studi legali, revisori, sanità) o clausole di riservatezza del cliente, gli LLM locali eliminano il rischio legato all’invio dei dati al fornitore cloud.
  • Latenza — modello locale nello stesso datacenter dell’applicazione: 50-200 ms. Cloud: 500-2000 ms (a seconda della regione e della coda). Per applicazioni real-time la differenza è fondamentale.
  • Compliance e sovranità dei dati — i requisiti NIS2, ISO 27001, regolamenti settoriali (KNF, UODO) preferiscono o richiedono sempre più spesso l’elaborazione locale dei dati.

Classi di modelli e loro applicazioni

I modelli open-source non sono un monolite — differiscono per dimensione, specializzazione, lingua nativa, licenza. Panoramica pratica:

  • Modelli piccoli (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Funzionano su una singola GPU 16-24GB o anche su CPU. Classificazione, embedding, classificazione semplice di query, rerouting.
  • Modelli medi (8-15B): Llama 3.1 8B, Bielik 11B (miglior modello polacco), Mistral 7B/Nemo. Funzionano su una singola GPU 24-48GB. RAG, generazione di testi brevi, analisi documenti, customer support.
  • Modelli grandi (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. Richiedono 2x GPU o schede 80GB (H100, A100). Reasoning complesso, coding, analisi di documenti lunghi, drafting legale.
  • Modelli molto grandi (300B+): Llama 3.1 405B, DeepSeek V3 671B. Richiedono cluster da 4-8x H100/H200. Solitamente giustificati solo per volumi molto alti o per i task più difficili.

Infrastruttura — cosa serve concretamente

Configurazione produttiva minima per una media azienda (fino a 1000 richieste/giorno, modello 8-13B):

  • Server con GPU — es. RTX 4090 24GB (~12 mila PLN), L40S 48GB (~50 mila PLN), o server dedicato con H100 80GB. Spot su DataCrunch o Vast.ai — da 2-3 mila PLN/mese per H100.
  • Runtime — Ollama (il più semplice, ma senza QoS), vLLM (produttivo, batch processing), TGI di HuggingFace (compromesso). Ollama basta per team più piccoli.
  • Proxy / routing — LLM proxy proprio responsabile di queueing, retry, fallback, metriche. ESKOM AI usa un proxy proprio con routing a 8 livelli (locale più economico → cloud Opus per i più difficili).
  • Monitoring — Prometheus + Grafana per metriche GPU (utilizzo, temperatura), latenza, costo per richiesta, qualità delle risposte.
  • Backup e rotazione modelli — i modelli si aggiornano — mantenimento di un processo di fine-tuning o download regolare di nuove versioni.

Quando conviene ancora il cloud

I modelli cloud non sono scomparsi e hanno ancora un posto sensato nell’architettura enterprise:

  • Task più difficili — Claude Opus e GPT-5 (quando uscirà) sono ancora migliori in reasoning molto complesso, contesti lunghi (1M+ token), task „agentic” multistep.
  • Volumi bassi — una startup con 10 mila richieste/mese non ha bisogno di GPU proprie. Pay-per-token in cloud costerà singole migliaia di z‘loty al mese — meno del mantenimento dell’infrastruttura.
  • Stagionalità — quando il traffico è molto variabile, un LLM cloud autoscalabile eviterà i costi di GPU inattive.
  • Multimodalità — i più recenti modelli multimodali (immagine, audio, video) sono spesso disponibili prima nel cloud.

Ibrido — la risposta più comune

In pratica, la maggior parte delle aziende che implementano bene l’AI costruisce uno stack ibrido:

  • Llama 3.2 3B locale — classificazione, routing, estrazione dati semplice. 80% del volume.
  • Bielik 11B o Llama 3.1 8B locale — RAG, generazione di contenuti brevi, customer support PL/EN. 15% del volume.
  • Llama 3.1 70B locale — analisi complesse, coding. 4% del volume.
  • Cloud Claude Opus / Sonnet — domande più difficili, contesto lungo, massima qualità. 1% del volume.

Il routing a 8 livelli decide automaticamente quale modello gestirà una data richiesta, in base alla complessità rilevata, lingua, contesto. Nella nostra piattaforma HybridCrew questo routing permette di ridurre il costo medio per richiesta del 70% rispetto alla soluzione „tutto tramite Opus” — mantenendo la piena qualità dove necessaria.

Conclusioni per i decisori

La domanda „LLM locale o cloud” nel 2026 non è più binaria. Le migliori architetture sono ibride e adattive — usano modelli locali dove conviene, cloud dove necessario. Le aziende con dati sensibili (studi legali, settore finanziario, sanità, pubblica amministrazione) dovrebbero iniziare a costruire competenze di AI locale già ora — entro 12-24 mesi cesserà di essere un vantaggio competitivo e diventerà uno standard.

#LLM #Llama #Mistral #Bielik #on-prem #open-source #GPU