Distillazione della Conoscenza

Cos'è la Distillazione della Conoscenza?

La distillazione della conoscenza è una tecnica di compressione dei modelli in cui un modello compatto "studente" viene addestrato per replicare gli output di un modello "insegnante" potente ma ad alta intensità di risorse. Invece di addestrarsi direttamente su dati grezzi, il modello studente impara dai "target morbidi" del modello insegnante — le distribuzioni di probabilità su tutti i possibili output, non solo l'etichetta più probabile. Questi segnali di addestramento più ricchi permettono ai modelli piccoli di superare di gran lunga le prestazioni dell'addestramento diretto.

Perché è Importante

I modelli IA frontier con miliardi di parametri sono troppo costosi e lenti per il deployment in produzione. La distillazione produce modelli piccoli che raggiungono il 70–90 % delle prestazioni a una frazione del costo computazionale. I modelli distillati possono essere distribuiti su dispositivi edge, applicazioni mobili e servizi sensibili alla latenza.

Applicazioni Aziendali

Le aziende usano la distillazione per creare modelli specifici per le attività ottimizzati per i loro particolari casi d'uso. Invece di pagare per un modello frontier generalista per ogni chiamata, si addestra una volta un modello distillato e lo si opera autonomamente.

Cos'è la Distillazione della Conoscenza?

Perché è Importante

Applicazioni Aziendali

Termini correlati