Torna al glossario Intelligenza Artificiale

Parlato in Testo

Tecnologia IA che converte il parlato in testo, con applicazioni in trascrizione, controllo vocale e accessibilità.

Cos'è il parlato in testo?

Il parlato in testo (Speech-to-Text o STT) è una tecnologia IA che converte il parlato in testo scritto. I moderni sistemi STT si basano su reti neurali profonde e raggiungono in molte lingue tassi di errore comparabili alla trascrizione umana.

Sviluppo tecnologico

La qualità dello STT è migliorata drasticamente grazie ai modelli basati su Transformer (es. Whisper di OpenAI). Questi modelli sono stati addestrati su centinaia di migliaia di ore di dati audio multilingue e possono elaborare molte lingue, dialetti e accenti. Lo STT in tempo reale consente una latenza inferiore a 200ms per le applicazioni interattive.

Applicazioni aziendali

Le aree di applicazione importanti includono la trascrizione automatica delle riunioni (Teams, Zoom), l'analisi dei call center con riconoscimento del sentiment, il controllo vocale di dispositivi e applicazioni, la documentazione medica tramite dettatura e le funzionalità di accessibilità. Le aziende riportano guadagni di efficienza del 40–60% nei processi ad alta intensità documentale.

Termini correlati

IA multimodale Elaborazione del Linguaggio Naturale (NLP) IA Conversazionale

Torna al glossario