Povratak na rječnik MLOps & Životni ciklus

AI benchmarci

Standardizirani testovi za procjenu i usporedbu performansi AI modela na specifičnim zadacima — temelj za objektivno donošenje odluka o odabiru modela.

Što su AI benchmarci?

AI benchmarci su standardizirani skupovi zadataka, testnih pitanja ili evaluacijskih okvira koji omogućuju objektivnu, usporedivu ocjenu performansi AI modela. Od akademskih testova poput MMLU (znanje) i HumanEval (programiranje) do domenski specifičnih evaluacija — benchmarci su zajednički jezik za usporedbu modela.

Vrste benchmarca

Akademski benchmarci: MMLU, BIG-Bench, HellaSwag, TruthfulQA — mjere opće sposobnosti. Domenski benchmarci: MedQA (medicina), LegalBench (pravo), FinBench (financije). Sigurnosni benchmarci: procjenjuju otpornost na adversarijalne napade i jailbreaking. Poslovni benchmarci: prilagođeni testovi koji mjere izvedbu na vašim stvarnim zadacima.

Ograničenja i upozorenja

Benchmarci su nepotpuni: 'contaminacija' podataka za treniranje (modeli koji su 'vidjeli' testne skupove), saturacija popularnih benchmarca i raskorak između akademske izvedbe i poslovnih rezultata. Uvijek evaluirajte modele na vašim stvarnim zadacima uz standardne benchmarce.