Reranking

O que é o Reranking?

O reranking é uma técnica de recuperação de informação de duas etapas em que os candidatos iniciais recuperados por um sistema de pesquisa rápido (geralmente baseado em embedding vetorial) são subsequentemente reordenados usando um modelo mais computacionalmente caro mas mais preciso. O modelo de reranking avalia a relevância de cada candidato de forma mais minuciosa — frequentemente usando modelos cross-encoder que processam a consulta e o documento juntos — e produz uma classificação de relevância revisada.

Porque o Reranking Melhora os Resultados RAG

Os modelos de embedding bi-encoder usados na pesquisa vetorial codificam consultas e documentos de forma independente, o que é eficiente mas sacrifica alguma qualidade de relevância. Os modelos cross-encoder no reranking processam o par consulta-documento juntos, capturando interações entre termos de consulta e conteúdo de documento que os bi-encoders perdem. Esta abordagem de duas etapas captura os melhores de ambos os mundos: velocidade de recuperação do embedding para triagem e qualidade de relevância do cross-encoder para a classificação final.

Implementação Prática

O reranking adiciona latência ao pipeline RAG — tipicamente 100-500 ms adicional dependendo do tamanho do corpus e do modelo de reranking. Equilibre a melhoria de qualidade com os requisitos de latência da sua aplicação. Para implementação, popular frameworks de reranking incluem Cohere Rerank, cross-encoders sentence-transformers e modelos de reranking baseados em LLM. O reranking é frequentemente o maior ganho de qualidade única num pipeline RAG para o custo de otimização.

O que é o Reranking?

Porque o Reranking Melhora os Resultados RAG

Implementação Prática

Termos relacionados