Înapoi la glosar Tehnologie

RAG multimodal

Extinderea Retrieval-Augmented Generation dincolo de text pentru a include imagini, tabele și documente structurate, oferind un context mai bogat.

Ce este RAG multimodal?

Sistemele tradiționale RAG (Retrieval-Augmented Generation) lucrează cu documente text. RAG multimodal extinde această paradigmă pentru a include alte modalități: imagini, tabele, diagrame, capturi de ecran și conținut audio/video.

Arhitecturi RAG multimodale

Abordarea cu encoder hibrid folosește encodere specializate pe diferite modalități, apoi proiectează reprezentările într-un spațiu vectorial comun pentru recuperare unificată. Recuperarea cross-modal permite interogărilor text să recupereze imagini și invers. Înțelegerea layout-ului documentului ia în considerare aspectul fizic și contextul vizual.

Aplicații enterprise

Sistemele de documentație tehnică conțin imagini, diagrame și text a căror recuperare unificată crește relevanța. Analiza rapoartelor financiare necesită tabele, diagrame și analize text. Imagistica medicală integrează imagini radiologice, note clinice și date de istoric.

Servicii și produse conexe