Cos'è il parlato in testo?
Il parlato in testo (Speech-to-Text o STT) è una tecnologia IA che converte il parlato in testo scritto. I moderni sistemi STT si basano su reti neurali profonde e raggiungono in molte lingue tassi di errore comparabili alla trascrizione umana.
Sviluppo tecnologico
La qualità dello STT è migliorata drasticamente grazie ai modelli basati su Transformer (es. Whisper di OpenAI). Questi modelli sono stati addestrati su centinaia di migliaia di ore di dati audio multilingue e possono elaborare molte lingue, dialetti e accenti. Lo STT in tempo reale consente una latenza inferiore a 200ms per le applicazioni interattive.
Applicazioni aziendali
Le aree di applicazione importanti includono la trascrizione automatica delle riunioni (Teams, Zoom), l'analisi dei call center con riconoscimento del sentiment, il controllo vocale di dispositivi e applicazioni, la documentazione medica tramite dettatura e le funzionalità di accessibilità. Le aziende riportano guadagni di efficienza del 40–60% nei processi ad alta intensità documentale.