Torna al glossario Tecnologia

RAG Multimodale

Retrieval-Augmented Generation che elabora immagini, audio e altri tipi di dati oltre al testo.

Cos'è il RAG multimodale?

Il RAG multimodale (Retrieval-Augmented Generation) estende il RAG testuale classico con la capacità di cercare ed elaborare diverse modalità: immagini, audio, video, tabelle, diagrammi e PDF. Invece di recuperare solo frammenti di testo, il sistema può ottenere contenuto semanticamente rilevante da fonti eterogenee.

Componenti tecnici

Il RAG multimodale richiede modelli di embedding multimodali (es. CLIP, embedding DALL-E) che rappresentano diversi tipi di media in uno spazio vettoriale comune. Parser specializzati estraggono contenuto da documenti complessi (PDF con tabelle, presentazioni). I LLM multimodali (es. GPT-4V, Claude) elaborano poi i contesti multimodali recuperati.

Applicazioni aziendali

Il RAG multimodale è particolarmente prezioso per documentazioni tecniche con diagrammi, analisi di immagini mediche con referti e documenti legali con tabelle complesse. Le aziende possono così costruire basi di conoscenza ricche che sfruttano la piena diversità informativa dei loro documenti.

Servizi e prodotti correlati