Vissza a szójegyzékhez Technológia

Streaming kimenet LLM-eknél

Az LLM-válaszok részenkénti megjelenítési technikája a teljes befejezésre való várakozás helyett, javítva az észlelt válaszidőt és a felhasználói élményt.

Mi a streaming az LLM-eknél?

Az LLM streaming azt az üzemmódot jelöli, ahol a modell tokenről tokenre generálja és fejezi ki a kimenetét, nem pedig megvárja a teljes válasz generálásának befejezését. A felhasználó az első tokeneket a teljes válasz megjelenítésétől néhány másodperccel korábban látja, a szöveg pedig folyamatosan folyik a generálás folyamán.

Megvalósítási megközelítések

A szerver által küldött események (SSE) HTTP-alapú mechanizmus az egyirányú esemény-streaminghez a szerver és a kliens között — a streaminges LLM válaszok közös protokollja. A WebSocket biderekcionális kommunikációs csatornákat tesz lehetővé. A gyártói SDK-k olyan mint az Anthropic és OpenAI streaminges klienseket kínálnak, amelyek a token-by-token streamelést kezelik.

Vállalati tervezési szempontok

A streaming bonyolítja a hibakezelést: ha az adatfolyam félúton hibát szenved, mit kell mutatni a felhasználónak? A streamelt tartalmak gyorsítótárazása nehezebb mint a teljes válaszoké. Az LLM streaming köztesrétege összesítheti a streamelt tokeneket és a kész válaszokat is kézbesítheti nem-streaming klienseknek. A biztonsági szempontok magukban foglalják: a streamelt tartalom biztonságos szűrése szükséges, mielőtt megjelenne a felhasználónak.