Wróć do słownika Technologia

Semantic caching

Technika cache'owania odpowiedzi AI na podstawie znaczenia zapytań, a nie dokładnego dopasowania tekstu, redukująca koszty i opóźnienia.

Czym jest semantic caching?

Semantic caching to zaawansowana technika cache'owania, która zamiast porównywać zapytania tekst po tekście, analizuje ich znaczenie semantyczne. Zapytania "Jaka jest stolica Polski?" i "Podaj stolicę Polski" są różne tekstowo, ale identyczne semantycznie — semantic cache rozpoznaje to i zwraca zapisaną odpowiedź bez ponownego wywoływania modelu AI. Wykorzystuje do tego embeddingi — wektorowe reprezentacje znaczenia tekstu.

Jak działa technicznie?

Każde nowe zapytanie jest przekształcane w wektor (embedding) i porównywane z wektorami wcześniejszych zapytań w bazie wektorowej. Jeśli podobieństwo kosinusowe przekracza zadany próg (np. 0.95), system zwraca zapisaną odpowiedź. W przeciwnym razie zapytanie trafia do modelu AI, a odpowiedź jest zapisywana w cache. Kluczowe jest ustawienie progu podobieństwa: zbyt niski generuje błędne dopasowania, zbyt wysoki redukuje skuteczność cache.

Korzyści dla organizacji

Semantic caching może zredukować koszty API nawet o 60-80% w systemach z powtarzalnymi wzorcami zapytań — np. obsługa klienta, FAQ, klasyfikacja dokumentów. Jednocześnie skraca czas odpowiedzi z sekund do milisekund dla dopasowanych zapytań. W wieloagentowych systemach korporacyjnych cache jest współdzielony między agentami, co dodatkowo zwiększa efektywność.

Powiązane usługi i produkty