Commit 5d30d8e

arkin-dev

committed

notebook(rlhf-demo): 完善 RLHF 训练流程实现

- 实现 RM（奖励模型）训练的完整流程 - 数据加载与格式转换 - 模型配置与 LoRA 支持 - RewardTrainer 训练器构造 - 实现 PPO（强化优化）训练的完整流程 - 策略模型和参考模型加载 - PPO 训练器配置 - 训练流程详细说明 - 实现 DPO（直接偏好优化）的完整流程 - DPO 原理说明和流程对比 - 数据准备与模型加载 - DPOTrainer 训练器构造 - DPO vs RM+PPO 完整对比分析 - 添加三阶段权重存储详解 - SFT、RM、PPO 的权重存储细节对比

1 parent 0f6b4ab commit 5d30d8eCopy full SHA for 5d30d8e

1 file changed

+1703

-250

lines changed

rlhf-demo
- rlhf-demo.ipynb

1 file changed

+1703

-250

lines changed

Comments

(0)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commit 5d30d8e

1 file changed

1 file changed

File tree

1 file changed

1 file changed

0 commit comments