Reranking

Co je reranking?

V RAG (Retrieval-Augmented Generation) systemoch sa retrieval casto robi v dvoch fazach. Prvy krok – prvotny retrieval – pouziva rychle aproximatne metody (ANN search na vektorovych embeddingoch), ktore vracaju kandidatne dokumenty. Druhy krok – reranking – aplikuje presnejsi, ale pomalejsi model na ohodnotenie relevancie kazdeho kandidata.

Tento dvojfazovy pristup kombinuje rychlost s presnostou: ANN retrieval je niekolko radov magnitudy rychlejsi ako plne cross-encoder hodnotenie.

Cross-encoder reranker

Cross-encoder modely spracuvaju dotaz a dokument spolocne – na rozdiel od bi-encoderoch, kde sa dotaz a dokument enkoduju oddelene. Tento spolocny vstup umoznuje presnejsie hodnotenie relevancie, pretoze model moze zachytit jemne vztahy medzi dotazom a dokumentom.

Popularne reranking modely zahrnaju Cohere Rerank, BGE Reranker, ms-marco kolekcia a Jina Reranker. Vsetky su dostupne cez API alebo ako open source modely na lokalne nasadenie.

Kedy pouzivat reranking?

Reranking je najuzitatocnejsi, ked presnost retrieval fazy nie je dostatocna – napriklad pri dlhych dotazoch, specifickom domain knowledge alebo ak prvy retrieval vraca prilis vela sumu. Pridanie rerankeraTypicky zlepsuje celkovu kvalitu RAG o 10-30 percent podla benchmarkov, ale zvysuje latencivysledku.

Co je reranking?

Cross-encoder reranker

Kedy pouzivat reranking?

Súvisiace pojmy