O que é o RLHF?
O RLHF é uma técnica de treino que usa o feedback humano para alinhar o comportamento dos modelos de IA com os valores e preferências humanos. O processo começa com um modelo de linguagem pré-treinado, treina-o por fine-tuning supervisionado em dados de demonstração humana, usa avaliadores humanos para classificar pares de respostas do modelo, treina um modelo de recompensa nessas classificações humanas, e depois usa aprendizagem por reforço para otimizar o LLM de acordo com o modelo de recompensa.
Porque o RLHF é Importante
Os LLMs pré-treinados aprendem a prever texto mas não têm inerentemente valores de utilidade e segurança. O RLHF é o principal mecanismo pelo qual modelos como o GPT-4 e o Claude são tornados úteis, inofensivos e honestos. Sem o RLHF (ou alternativas como o RLAIF — Aprendizagem por Reforço a partir do Feedback de IA), os LLMs produzem com prazer desinformação, conteúdo prejudicial ou respostas que satisfazem a previsão de texto mas falham nas necessidades do utilizador.
Considerações Empresariais
Para o fine-tuning personalizado em domínios específicos, as organizações podem realizar processos de RLHF com especialistas no domínio como avaliadores em vez de anotadores de propósito geral — capturando preferências e conhecimento de domínio especializado. Os custos e a escala do RLHF significam que é mais acessível através de APIs de fornecedores que expõem capacidades de fine-tuning com feedback humano do que construído internamente para a maioria das organizações.