Tilbage til ordlisten Kunstig intelligens

Multimodal AI

AI-modeller, der behandler tekst, billeder, lyd og video samtidigt — forstår kontekst fra flere informationskilder.

Hvad er Multimodal AI?

Multimodale AI-modeller er i stand til samtidigt at behandle og forstå flere datatyper: tekst, billeder, lyd, video og endda kode. I stedet for separate modeller til tekst og billeder forstår én model den tværgående kontekst.

Anvendelseseksempler

"Beskriv hvad du ser på dette foto og besvar spørgsmål om denne tekst" — en multimodal model behandler begge dele sammen. Praktiske anvendelser: dokumentanalyse med billeder og tabeller, transkription af videomøder, fakturabehandling (OCR + kontekstforståelse), visuel produktinspektion + rapportgenerering.

Fremtiden for virksomheds-AI

Multimodalitet ændrer automatiseringstilgange: i stedet for at bygge separate pipelines behandler en multimodal agent hele dokumenter på én gang. Dette forenkler arkitekturen og forbedrer resultaterne — modellen ser kontekst, der ville gå tabt ved opdeling i stadier.

Relaterede tjenester og produkter