Co je reranking?
V RAG (Retrieval-Augmented Generation) systemoch sa retrieval casto robi v dvoch fazach. Prvy krok – prvotny retrieval – pouziva rychle aproximatne metody (ANN search na vektorovych embeddingoch), ktore vracaju kandidatne dokumenty. Druhy krok – reranking – aplikuje presnejsi, ale pomalejsi model na ohodnotenie relevancie kazdeho kandidata.
Tento dvojfazovy pristup kombinuje rychlost s presnostou: ANN retrieval je niekolko radov magnitudy rychlejsi ako plne cross-encoder hodnotenie.
Cross-encoder reranker
Cross-encoder modely spracuvaju dotaz a dokument spolocne – na rozdiel od bi-encoderoch, kde sa dotaz a dokument enkoduju oddelene. Tento spolocny vstup umoznuje presnejsie hodnotenie relevancie, pretoze model moze zachytit jemne vztahy medzi dotazom a dokumentom.
Popularne reranking modely zahrnaju Cohere Rerank, BGE Reranker, ms-marco kolekcia a Jina Reranker. Vsetky su dostupne cez API alebo ako open source modely na lokalne nasadenie.
Kedy pouzivat reranking?
Reranking je najuzitatocnejsi, ked presnost retrieval fazy nie je dostatocna – napriklad pri dlhych dotazoch, specifickom domain knowledge alebo ak prvy retrieval vraca prilis vela sumu. Pridanie rerankeraTypicky zlepsuje celkovu kvalitu RAG o 10-30 percent podla benchmarkov, ale zvysuje latencivysledku.