Ar ais go dtí an ghluais Intleacht Shaorga

RLHF (Foghlaim Athneartaithe ó Aiseolas Daonna)

Is teicníc oiliúna é RLHF (Reinforcement Learning from Human Feedback) a ailíníonn iompar samhla le roghanna daonna trí úsáid bhreithneoirí daonna chun freagraí samhla a rangú agus an samhail a mhúnlú chuig luach saothair.

Conas a Oibríonn RLHF

De ghnáth oibríonn RLHF i dtrí chéim: (1) Oiliúint samhla luach saothair — tá oibríocha daonna ag rangú nó ag comparáid freagraí samhla, agus a úsáidtear na ranganna seo chun samhail luach saothair a oiliúint a thuar roghanna daonna; (2) Optamú beartais — oibríonn an príomhsamhail le feabhas a chur ar luach saothair ón samhail luach saothair le baint úsáide as algartaim RL; (3) Tástáil seachtrach — féadfaidh tuilleadh oiliúna sonraithe teipe a dhéanamh ar thuiscint an tsamhail ar roghanna daonna a fheabhsú.

Rathúnas

Tá RLHF ina chloch choirne d'oiliúint samhla chatbot nua-aimseartha — is gnáth-bhealach é chun samhlaí a dhéanamh níos cabhrach, níos neamhdhíobhálaí, agus níos macánta ná atá i samhlaí a oibríonn ar oiliúint teanga amháin.

Teorainneacha

Cuimsíonn dúshláin RLHF: costas ard aiseolais daonna, claontacht treoireadóra (a ghabhann le claonadh oiliúna samhla mar réad oibre den obair a thugtar do threoireadóirí), agus riosca luach saothair hacking (an samhail ag aimsiú bealaí chun an samhail luach saothair a bhrath go hard gan iompar fíor-inmhianaithe a léiriú).