Retour au glossaire Intelligence Artificielle

Parole en Texte

Technologie IA qui convertit la parole en texte, avec des applications en transcription, commande vocale et accessibilité.

Qu'est-ce que parole en texte ?

Parole en texte (Speech-to-Text ou STT) est une technologie IA qui convertit la parole en texte écrit. Les systèmes STT modernes sont basés sur des réseaux de neurones profonds et atteignent dans de nombreuses langues des taux d'erreur comparables à la transcription humaine.

Développement technologique

La qualité du STT s'est considérablement améliorée grâce aux modèles basés sur des Transformers (p. ex. Whisper d'OpenAI). Ces modèles ont été entraînés sur des centaines de milliers d'heures de données audio multilingues et peuvent traiter de nombreuses langues, dialectes et accents. Le STT en temps réel permet une latence inférieure à 200ms pour les applications interactives.

Applications en entreprise

Les domaines d'application importants comprennent la transcription automatique de réunions (Teams, Zoom), l'analyse de centres d'appels avec reconnaissance des sentiments, la commande vocale des appareils et applications, la documentation médicale par dictée et les fonctionnalités d'accessibilité. Les entreprises rapportent des gains d'efficacité de 40 à 60% dans les processus à documentation intensive.