Kas yra embedding?
Embedding — tai teksto (ar vaizdo, garso) atvaizdavimas kaip vektorius — šimtų ar tūkstančių slankiojo kablelio skaičių sąrašas. Embedding modelis paverčia sakinį tašku daugiamačioje erdvėje, kur semantiškai panašūs tekstai turi artimas koordinates.
Kaip tai veikia?
Sakiniai "DI versle" ir "dirbtinis intelektas įmonėms" sukurs panašius vektorius nepaisant skirtingų žodžių — nes jų prasmė panaši. Embedding modeliai apmokomi milijardais tekstų porų, kad išmoktų šiuos semantinius santykius.
Verslo taikymai
Embeddingai yra pagrindas: semantinei paieškai, RAG (žinių bazės indeksavimas), duplikatų šalinimui (panašių dokumentų aptikimas), klasifikavimui (bilietų, el. laiškų, atsiliepimų grupavimas) ir rekomendacijoms. Embeddingų kokybė nulemia visų tolesnių procesų kokybę.