Skip to content

Commit 5d30d8e

Browse files
author
arkin-dev
committed
notebook(rlhf-demo): 完善 RLHF 训练流程实现
- 实现 RM(奖励模型)训练的完整流程 - 数据加载与格式转换 - 模型配置与 LoRA 支持 - RewardTrainer 训练器构造 - 实现 PPO(强化优化)训练的完整流程 - 策略模型和参考模型加载 - PPO 训练器配置 - 训练流程详细说明 - 实现 DPO(直接偏好优化)的完整流程 - DPO 原理说明和流程对比 - 数据准备与模型加载 - DPOTrainer 训练器构造 - DPO vs RM+PPO 完整对比分析 - 添加三阶段权重存储详解 - SFT、RM、PPO 的权重存储细节对比
1 parent 0f6b4ab commit 5d30d8e

File tree

1 file changed

+1703
-250
lines changed

1 file changed

+1703
-250
lines changed

0 commit comments

Comments
 (0)