Commit 5d30d8e
arkin-dev
notebook(rlhf-demo): 完善 RLHF 训练流程实现
- 实现 RM(奖励模型)训练的完整流程
- 数据加载与格式转换
- 模型配置与 LoRA 支持
- RewardTrainer 训练器构造
- 实现 PPO(强化优化)训练的完整流程
- 策略模型和参考模型加载
- PPO 训练器配置
- 训练流程详细说明
- 实现 DPO(直接偏好优化)的完整流程
- DPO 原理说明和流程对比
- 数据准备与模型加载
- DPOTrainer 训练器构造
- DPO vs RM+PPO 完整对比分析
- 添加三阶段权重存储详解
- SFT、RM、PPO 的权重存储细节对比1 parent 0f6b4ab commit 5d30d8e
1 file changed
+1703
-250
lines changed
0 commit comments