Kaj je temeljni model?
Temeljni model je velik model UI, vnaprej naučen na obsežnih podatkovnih množicah (besedilo, slike, koda, zvok) brez specializacije. Primeri: GPT-4, Claude, Gemini, Llama. Temeljni model je "osnova", ki se nato prilagodi za specifične uporabe.
Od temelja do specializacije
Gol temeljni model je generalist. Prilagoditev poteka prek: fine-tuninga (ponovno učenje na domenskih podatkih), RAG-a (zagotavljanje konteksta iz baz znanja), prompt engineeringa (sistemska navodila, ki opredelijo vlogo in omejitve) in RLHF-a (učenje iz povratnih informacij ljudi).
Odprti vs zaprti modeli
Temeljni modeli so na voljo v odprti (Llama, Mistral — prenesljivi, zagonljivi na lastnih strežnikih) in zaprti različici (GPT-4, Claude — dostopni le prek API-ja). Izbira vpliva na stroške, zasebnost, prilagodljivost in tveganje odvisnosti od enega ponudnika.