File tree Expand file tree Collapse file tree 1 file changed +7
-7
lines changed Expand file tree Collapse file tree 1 file changed +7
-7
lines changed Original file line number Diff line number Diff line change 2626---
2727
2828## 简 介
29- 🎉 ** 原创 100+ 架构图,重磅开源!大模型算法一览无余! ** 涵盖 LLM、 VLM 等大模型技术, 训练算法(RL、RLHF、GRPO、DPO、SFT 与 CoT 蒸馏等)、效果优化与 RAG 等。
29+ 🎉 ** 原创 100+ 架构图,系统讲解大模型、强化学习 ** ,涵盖: LLM / VLM 等大模型原理、 训练算法(RL、RLHF、GRPO、DPO、SFT 与 CoT 蒸馏等)、效果优化与 RAG 等。
3030
31- 🎉 架构图的 <strong >文字详解、更多架构图 </strong > 详见 :<a href =" https://book.douban.com/subject/37331056/ " >《大模型算法:强化学习、微调与对齐》</a >
31+ 🎉 关于架构图 <strong >更详细 </strong >的解读可参考 :<a href =" https://book.douban.com/subject/37331056/ " >《大模型算法:强化学习、微调与对齐》</a >
3232
33- 🎉 本项目 ** 长期勘误、更新、 追加** ,欢迎点击右上角 ↗ 的 ** Star ⭐** 关注!
33+ 🎉 本仓库 ** 长期勘误、追加** ,欢迎点击仓库顶部的 ** Star ⭐** 关注,感谢鼓励✨
3434
35- 🎉 点击图片可查看高清大图,或浏览仓库目录中的 ` .svg ` 格式矢量图(支持无限缩放 )
35+ 🎉 点击图片可查看高清大图,或浏览仓库目录中的 ` .svg ` 格式矢量图(活图,可无限缩放 )
3636
3737---
3838
9999- [ TD(0)、多步 TD 与蒙特卡洛的关系] ( #header-48 )
100100- [ 蒙特卡洛方法与 TD 方法的特性] ( #header-49 )
101101- [ 蒙特卡洛、TD、DP、穷举搜索的关系] ( #header-50 )
102- - [ 两种输入输出结构的 DQN (Deep Q-Network)模型] ( #header-51 )
102+ - [ 两种输入输出结构的 DQN(Deep Q-Network)模型] ( #header-51 )
103103- [ DQN 的实际应用示例] ( #header-52 )
104104- [ DQN 的“高估”问题] ( #header-53 )
105105- [ 基于价值 vs 策略(Value-Based vs Policy-Based)] ( #header-54 )
@@ -1326,7 +1326,7 @@ Beijing: Publishing House of Electronics Industry, 2025. https://github.com/chan
13261326---
13271327
13281328<div align =" center " >
1329- 本仓库图片的 <strong >文字详解、更多图 </strong > 详见 :<a href =" https://book.douban.com/subject/37331056/ " >《大模型算法:强化学习、微调与对齐》</a >
1329+ 以上图片 <strong >更详细 </strong >的解读可参考 :<a href =" https://book.douban.com/subject/37331056/ " >《大模型算法:强化学习、微调与对齐》</a >
13301330
1331- 欢迎点击仓库顶部的 ** Star ⭐** , 谢谢鼓励 ~
1331+ 欢迎点击仓库顶部的 ** Star ⭐** 关注, 感谢鼓励✨
13321332</div >
You can’t perform that action at this time.
0 commit comments