Prevod reci na text a textu na rec

Prevod reci na text (STT)

Speech-to-Text (STT), tiez zname ako Automatic Speech Recognition (ASR), prevadza audio so rečou na textovy prepis. Moderni STT systemy pouzivaju neurononove siete – najvyznamnejsim je Whisper od OpenAI, ktory podporuje 99 jazykov s vysokou presnostou pri znetrucnych podmienkach, akcenty aj technicku terminologiu.

Komercne sluzby ponukaju Amazon Transcribe, Google Speech-to-Text, Azure Cognitive Services a DeepSpeech. Enterprise use cases zahrnaju prepis stretnutii, call-center analyzy a dostupnostne funkcie.

Prevod textu na rec (TTS)

Text-to-Speech (TTS) syntetizuje prirodzene zniejucu rec z textu. Moderné neural TTS systemy ako ElevenLabs, OpenAI TTS, Google WaveNet a Microsoft Neural TTS produkuju rec, ktora je casto nerozoznatelna od ludskej.

Voice cloning je pokrocila funkcia, ktora vytvara synteticku rec so specifickyym hlasovym odtlacom konkretnej osoby – a s tym suvisiacce etickke a bezpecnostne otazky ohladne moznosti zneuzitia (hlasove deepfake).

Multimodalne aplikacie

Kombovanie STT a TTS umoznuje plnohodnotne hlasove rozhraania pre AI asistentov. Voice AI agenti pouzivaju STT na rozumenie pouzivatelov, LLM na generovanie odpovede a TTS na hlasove dorucianie odpovede, cim dosahuju lateniu pod 1 sekundu v realtimovych konverzaciach.

Prevod reci na text (STT)

Prevod textu na rec (TTS)

Multimodalne aplikacie

Súvisiace pojmy