https://www.coursera.org/learn/generative-ai-with-llms/lecture/eJVnL/scaling-human-feedback
While reward models can replace human evaluation in RLHF fine-tuning, creating the initial labeled dataset for the reward model can be resource-intensive, often requiring large teams of labelers. As the number of models and use cases grows, human effort becomes limited. Researchers are actively exploring methods to scale human feedback. One such approach is Constitutional AI, introduced in 2022, which trains modls using predefined rules and principles (a constitution) to govern their behavior. Constitutional AI helps scale feedback and address unintended consequences of RLHF, like models providing harmful information while trying to be helpful. It balances interests by specifying rules, e.g., prioritizing harmlessness and avoiding illegal activities. Implementation involves two stages: red teaming and reinforcement learning. Red teaming involves prompting the model to generate harmful responses and then asking it to critique and revise those responses to comply with constitutional principles. Reinforcement learning (RLAIF) uses the fine-tuned model to generate preferred responses according to the constitution. This preference dataset trains a reward model, enabling further fine-tuning using reinforcement learning algorithms.
보상 모델은 RLHF 미세 조정에서 인간 평가를 대체할 수 있지만, 보상 모델의 초기 레이블링 된 데이터셋을 생성하는 데는 대규모 레이블러 팀이 필요하며 자원 소모적 일이 될 수 있습니다. 모델과 사용 사례 수가 증가함에 따라 인간 노력이 제한적이 됩니다. 연구자들은 인간 피드백을 확장하는 방법을 적극적으로 탐구하고 있습니다. 그 중 하나는 2022년에 소개된 Constitutional AI (Self scale supervision)로, 모델의 행동을 규정하기 위한 미리 정의된 규칙과 원칙 (헌법)을 사용하여 모델을 훈련시킵니다.
Constitutional AI는 피드백을 확장하고 RLHF의 의도하지 않은 결과를 해결하는 데 도움이 됩니다. 모델이 도움이 되려고 노력하면서 유해한 정보를 제공하는 등의 문제를 균형잡아 관련 규칙을 지정합니다.
이웃의 wifi를 해킹하는 방법을 물어봤을 때 --> 모델은 최대한 helpful하려고 하기 때문에, 정답을 제공한다. 기초적인 rule을 제공하는 것은 도움이 될 수 있다. helpful, honest and harmless로 지정할 수 있고, illegal, unethical한 것을 제외할 수 있다. 거기에 나의 domain에 맞게 변경할 수도 있다. prompt completion -
구현은 두 단계로 진행됩니다.
1) 레드 팀은 모델이 유해한 응답을 생성하도록 유도하고 그런 다음 모델에게 해당 규칙을 준수하도록 자체 응답을 평가하고 수정하도록 요청합니다.
2) 강화 학습 (RLAIF)은 미세 조정 모델을 사용하여 헌법에 따른 우선 응답을 생성하도록 요청하는 단계입니다. 이 선호 데이터셋을 사용하여 보상 모델을 훈련시켜 강화 학습 알고리즘을 사용하여 미세 조정을 추가로 수행할 수 있게 됩니다.
AWS Sagemaker JumpStart (0) | 2023.09.20 |
---|---|
Model optimizations for deployment (0) | 2023.09.19 |
RLHF: Reward hacking (0) | 2023.08.28 |
RLHF: Fine-tuning with reinforcement learning (0) | 2023.08.28 |
RLHF: Reward model (0) | 2023.08.28 |