Nazaj na slovar MLOps & Življenjski cikel

Referenčna merila UI

Standardizirani testi za ocenjevanje in primerjavo zmogljivosti modelov UI pri specifičnih nalogah — temelj objektivnega odločanja pri izbiri modela.

Kaj so referenčna merila UI?

Referenčna merila UI so standardizirani nizi nalog, testnih vprašanj ali okvirov vrednotenja, ki omogočajo objektivno, primerljivo oceno zmogljivosti modelov UI.

Vrste referenčnih meril

Akademska merila: MMLU, BIG-Bench, HellaSwag, TruthfulQA. Domenska merila: MedQA, LegalBench, FinBench. Varnostna merila: ocenjujejo odpornost na adversarijske napade.

Omejitve in opozorila

Referenčna merila so nepopolna: kontaminacija učnih podatkov in saturacija priljubljenih meril. Vedno ocenjujte modele na svojih dejanskih nalogah.