Tagasi sõnastikku Tehisintellekt

Multimodaalne tehisintellekt

Tehisintellekti mudelid, mis töötlevad samaaegselt teksti, pilte, heli ja videot — konteksti mõistmine mitmest teabeallikast.

Mis on multimodaalne tehisintellekt?

Multimodaalsed tehisintellekti mudelid suudavad samaaegselt töödelda ja mõista mitut tüüpi andmeid: teksti, pilte, heli, videot ja isegi koodi. Eraldiseisvate teksti- ja pildimudelite asemel mõistab üks mudel ristmodaalset konteksti.

Rakenduse näited

"Kirjeldage, mida näete sellel fotol, ja vastake küsimustele selle teksti kohta" — multimodaalne mudel töötleb mõlemat koos. Praktilised kasutused: dokumentide analüüs koos piltide ja tabelitega, videokoosolekute transkribeerimine, arvete töötlemine (OCR + konteksti mõistmine), toodete visuaalne kontroll + aruannete genereerimine.

Ettevõtte tehisintellekti tulevik

Multimodaalsus muudab automatiseerimise lähenemisi: eraldiseisvate toruliinide ehitamise asemel töötleb multimodaalne agent terveid dokumente korraga. See lihtsustab arhitektuuri ja parandab tulemusi — mudel näeb konteksti, mis läheks etappideks eraldamisel kaduma.