Co je retrieval v AI?
Retrieval je fundamentalny komponent modernych AI systemov, zviast RAG (Retrieval-Augmented Generation) architektury. Namiesto spoliehania sa len na znalosti zabudovane v modelovych parametroch behem treningu, retrieval umoznuje dynamicky pristup k aktualnym alebo specialzovanym informaciam za chodu.
Zakladnou otazkou retrieval systemu je: "Ktore dokumenty su najrelevantnejsie k danej otazke?"
Vektory retrieval (Dense Retrieval)
Dense retrieval pouziva neurononove siete na prevod textov na numericke vektory (embeddingy) v vysokodimenzionalnom priestore. Semanticky podobne texty su blizko seba v tomto priestore. Vyhladavanie prebieha pomocou Approximate Nearest Neighbor (ANN) algoritmov (HNSW, IVF, PQ), ktore su dramaticky rychlejsie ako exhaustive search.
Popularne embedding modely zahrnaju OpenAI Ada, Cohere Embed, E5, BGE a GTE. Vektorove databazy ako Pinecone, Weaviate, Qdrant, Chroma a pgvector (PostgreSQL extension) poskytuju infrastrukturu pre velke kolekie.
Hybridny retrieval
Hybridny retrieval kombinuje dense retrieval s klasickym sparse retrieval (BM25, TF-IDF), ktory lepšie vyhladava presne keyword zhody. Reciprocal Rank Fusion (RRF) je oblubenou metodou kombinacie vysledkov oboch pristupov. Hybridny retrieval casto prevysuje oba individualnesuny pristupy, zviast pri specifickyterminologii a odbornych domenach.