Zašto je reranking važan?
Inicijalno pretraživanje u RAG sustavima (ANN pretraživanje vektorskog prostora) optimizira brzinu — prikladno za dohvaćanje top-K kandidata ali ne za fino rangiranje relevantnosti. Reranker je drugi, moćniji model koji analizira svaki par (upit, kandidat) i rangira ih prema preciznoj semantičkoj relevantnosti, poboljšavajući kvalitetu konteksta koji prima LLM.
Arhitektura RAG s rerankerom
1. Vektorsko pretraživanje dohvaća top-50 kandidata (brzi ali neprecizni). 2. Reranker modeli (Cohere Rerank, BGE reranker, cross-encoderi) ocjenjuju svakog kandidata za relevantnost. 3. Top-5-10 visoko rangiranih rezultata ulaze u LLM kontekst. Rezultat: značajno poboljšanje kvalitete RAG odgovora uz mali overhead latencije.
Implementacija
Popularni reranking pristupi: cross-encoder modeli (visoka točnost, viša latencija), bi-encoder s MMR (Maximal Marginal Relevance) za balansiranje relevantnosti i raznolikosti, i API servisi (Cohere Rerank, Voyage). Reranking je visoko-ROI poboljšanje za RAG sustave koji imaju probleme s irelevantnim odgovorima.