https://www.coursera.org/learn/generative-ai-with-llms/lecture/Wf1jL/rlhf-reward-model
At this stage, all the necessary components are in place to train the reward model. Although it required considerable human effort to reach this point, once the reward model is trained, there is no need for further human involvement. The reward model takes on the role of human labelers, automatically selecting the preferred completion during the RLHF process. This reward model is typically a language model, like GPT-3. It is trained using supervised learning on the pairwise comparison data created from human labelers' assessments of prompts. The reward model learns to favor the human-preferred completion while minimizing the difference between rewards. It classifies completions into positive and negative classes, such as non-hate and hate speech, and assigns rewards accordingly. This reward value is crucial in the RLHF process for alignment.
이 시점에서 보상 모델을 훈련시키기 위한 모든 구성 요소가 준비되어 있습니다. 이 지점에 도달하는 데 상당한 인간 노력이 필요했지만 보상 모델 훈련이 완료되면 더 이상 인간의 개입이 필요하지 않습니다. 보상 모델은 인간 레이블러의 역할을 하여 자동으로 RLHF 프로세스 중 선호하는 완료를 선택합니다. 이 보상 모델은 일반적으로 GPT-3와 같은 언어 모델입니다. 이 모델은 인간 레이블러가 프롬프트에 대한 평가에서 생성한 쌍 비교 데이터를 사용하여 지도 학습을 통해 훈련됩니다. 보상 모델은 인간 선호 완료를 우선시하면서 보상 차이를 최소화하는 방식으로 학습됩니다. 이 모델은 완료를 비혐오와 혐오와 같은 긍정 및 부정 클래스로 분류하고 이에 따라 보상을 할당합니다. 이 보상 값은 정렬을 위한 RLHF 프로세스에서 중요한 역할을 합니다.
RLHF: Reward hacking (0) | 2023.08.28 |
---|---|
RLHF: Fine-tuning with reinforcement learning (0) | 2023.08.28 |
RLHF: Obtaining feedback from humans (0) | 2023.08.28 |
Reinforcement learning from human feedback (RLHF) (0) | 2023.08.28 |
Aligning models with human values (0) | 2023.08.28 |