Povratak na rječnik Tehnologija

Semantičko pretraživanje

Pretraživanje koje razumije značenje upita, a ne samo ključne riječi — pronalazi relevantan sadržaj čak i bez podudaranja ključnih riječi.

Semantičko vs ključno-riječno pretraživanje

Tradicionalno pretraživanje (BM25, TF-IDF) traži doslovna podudaranja ključnih riječi — upit 'automobilski kvar' ne pronalazi dokument koji govori o 'problemu s vozilom'. Semantičko pretraživanje koristi embedding vektore koji hvataju značenje — pretraživanje razumije da su 'automobilski kvar' i 'problem s vozilom' semantički ekvivalentni.

Arhitektura semantičkog pretraživanja

Offline faza: dokumenti se embediraju modelima poput text-embedding-ada-002 ili all-MiniLM i indeksiraju u vektorsku bazu (Qdrant, Pinecone, pgvector). Online faza: korisnički upit se embedira, ANN pretraživanje pronalazi K najbliže vektora, reranker poboljšava relevantnost.

Hibridno pretraživanje

Za produkcijsko pretraživanje, kombinacija sparse (BM25) + dense (vektorski) pristupa daje superiorne rezultate od bilo kojeg singleno: BM25 je izvrsno za specifične pojmove (akronimi, kodovi), vektorsko za semantičke koncepte. Reciprocal Rank Fusion (RRF) kombinira ocjene iz oba sustava. Ovaj 'hibridni' pristup je de facto standard za moderne enterprise pretraživačke sustave.

Povezane usluge i proizvodi