Обратно към речника Технологии

Семантично кеширане

Семантичното кеширане съхранява и повторно използва отговорите на LLM за подобни (не идентични) заявки, намалявайки разходите за API и подобрявайки латентността при последователни отговори.

Как работи семантичното кеширане

За разлика от традиционното кеширане, съпоставящо по точен ключ, семантичното кеширане сравнява новите заявки с кешираните чрез вграждания: ако вграждането на нова заявка е в рамките на прага на близост до кешираната заявка, то връща кеширания отговор вместо да прави ново API обаждане.

Спестявания на разходи

За приложения с много подобни заявки (напр. система за въпроси и отговори на клиенти), семантичното кеширане може да постигне 30-60% процент на попадение, значително намалявайки разходите за API. Спестяванията зависят от естеството на заявките и нивото на прага на близост.

Компромиси

Изборът на правилния праг на близост е предизвикателен - твърде нисък и се връщат неверни отговори, твърде висок и се получава малка полза. Внимавайте с заявки, зависещи от изменящото се състояние (текуща дата, данни в реално време) - те не трябва да се кешират.

Свързани услуги и продукти