Kaj so referenčna merila UI?
Referenčna merila UI so standardizirani nizi nalog, testnih vprašanj ali okvirov vrednotenja, ki omogočajo objektivno, primerljivo oceno zmogljivosti modelov UI.
Vrste referenčnih meril
Akademska merila: MMLU, BIG-Bench, HellaSwag, TruthfulQA. Domenska merila: MedQA, LegalBench, FinBench. Varnostna merila: ocenjujejo odpornost na adversarijske napade.
Omejitve in opozorila
Referenčna merila so nepopolna: kontaminacija učnih podatkov in saturacija priljubljenih meril. Vedno ocenjujte modele na svojih dejanskih nalogah.