Grįžti į žodyną Technologijos

DI atsakymų srautinis perdavimas

Technika, kurianti DI išvesties pasirodymą naudotojui palaipsniui, o ne laukiant viso atsakymo sugeneravimo.

Kas yra DI srautinis perdavimas?

DI atsakymų srautinis perdavimas pateikia modelio išvestį naudotojui žetoinais, kai jie generuojami, užuot laukiant viso atsakymo užbaigimo. Vietoj tuaccio ekrano, pasirodancio po kelių sekundžių dėl ilgo atsakymo, naudotojai mato tekstą, atsirandantį realiu laiku – panašiai kaip stebįnt žmogų rašantį. Tai drastiškai pagerina suvokiamą atsakymo laiką ir naudotojo patirtį, net kai bendras generavimo laikas išlieka toks pat.

Techniškai srautinis perdavimas naudoja server-sent events (SSE) arba WebSocket jungtis, perduodančiais žetonu dalimį, kai kiekvienas naujas žetonis pridėmas iį generuojamą seką.

Kodėl tai svarbu verslui

Naudotojų patirties tyrimai nuosekliai rodo, kad suvokiamą atsakymo laiką labiau veikia laikas iki pirmojo žeetono (time to first token, TTFT) nei bendras generavimo laikas. Srautinis perdavimas sumažina TTFT iki milišsekundžių, palygiinti su sekundėmis ne srautiniame režime. Be to, naudotojai gali pradėti skaityti ir apdoroti atsakymą, kol jis dar būna generuojamas, padidimdami bendrą efektyvumą.

Įdiegimo aspektai

Srautinis perdavimas reikalauja architektūrinių svarstymų: tarpinio sluoksnio apdorojimas (turinio filtravimas, formatavimas) turi veikti žeton po žetono, o ne su visu tekstu iš karto. Klaidų apdorojimas turi gracišngai tvarkyti atsakymo viduryje įvykusius gedimus. Registravimas ir stebėjimas turi kaupti dalines išvestis. Įdiekite mašinrascčių poveikio efektą, optimizuokitę TTFT per serverio infrastruktūrą, teikite nutraukimo galimybę (naudotojai gali sustabdyti generavimą), ir įvertinkite buferizavimą loginių vienetų lygyje (sakiniai, pastraipos) sklandesniam vaizdavimui.