Zurück zum Glossar Künstliche Intelligenz

Sprache-zu-Text

KI-Technologie, die gesprochene Sprache in Text umwandelt, mit Anwendungen in Transkription, Sprachsteuerung und Barrierefreiheit.

Was ist Sprache-zu-Text?

Sprache-zu-Text (Speech-to-Text oder STT) ist eine KI-Technologie, die gesprochene Sprache in geschriebenen Text umwandelt. Moderne STT-Systeme basieren auf tiefen neuronalen Netzen und erreichen in vielen Sprachen Fehlerquoten, die mit menschlicher Transkription vergleichbar sind.

Technologische Entwicklung

Die Qualität von STT hat sich durch Transformer-basierte Modelle (z.B. Whisper von OpenAI) dramatisch verbessert. Diese Modelle wurden auf Hunderttausenden von Stunden mehrsprachiger Audio-Daten trainiert und können viele Sprachen, Dialekte und Akzente verarbeiten. Echtzeit-STT ermöglicht Latenz unter 200ms für interaktive Anwendungen.

Unternehmensanwendungen

Wichtige Anwendungsbereiche umfassen automatische Meeting-Transkription (Teams, Zoom), Call-Center-Analyse mit Sentiment-Erkennung, Sprachsteuerung für Geräte und Anwendungen, medizinische Dokumentation per Diktat sowie Barrierefreiheitsfunktionen. Unternehmen berichten von 40–60% Effizienzgewinn bei dokumentationsintensiven Prozessen.