Înapoi la glosar Tehnologie

Caching semantic (Semantic Caching)

Tehnica de optimizare pentru aplicațiile LLM care memorează în cache răspunsurile pentru interogările similar din punct de vedere semantic, reducând costurile de calcul și latența răspunsului.

Ce este caching-ul semantic?

Caching-ul semantic extinde caching-ul literal tradițional pentru a trata nu numai interogările identice, ci și interogările semantic similare ca potriviri cache. În aplicațiile LLM, aceasta înseamnă că solicitările text similare returnează același răspuns memorat în cache, chiar dacă textul exact diferă.

Cum funcționează?

Când sosește o interogare, sistemul calculează embedding-ul vectorial semantic al interogării. Caută în baza de date vectoriale cei mai apropiați vectori de interogare memorați în cache. Dacă găsește o potrivire suficient de apropiată peste un prag de similaritate definit, returnează răspunsul memorat în cache fără a retrimite LLM-ului. Dacă nu, trimite LLM-ului și memorează în cache rezultatul.

Beneficii enterprise

Caching-ul semantic reduce drastic numărul de apeluri API LLM pentru tiparele de interogare repetitive sau similare. Căutarea documentelor interne enterprise, boții de servicii pentru clienți și sistemele FAQ pot beneficia de caching semantic.

Servicii și produse conexe