3.4版本的sequence_parallel 被丢弃了吗？ #4043

leileilin · 2025-04-29T13:10:30Z

3.4版本下如何在sft训练超长文本的大模型下不oom？有样例参数参考吗？

Jintao-Huang · 2025-04-29T13:13:24Z

leileilin · 2025-04-29T13:29:02Z

https://github.com/modelscope/ms-swift/blob/main/examples/train/long_text/zero3.sh

非常感谢你的回复，所以sequence_parallel_size这个参数在最新版本的swift框架中丢弃了是吗？改为use_liger_kernel？用这个liger内核会降低训练速度吗？

Jintao-Huang · 2025-04-29T13:29:32Z

是的丢弃了，不会降低训练速度

leileilin · 2025-04-29T13:30:50Z

是的丢弃了，不会降低训练速度

不会降低训练速度实在是太棒了！也就是日常的sft和rlhf所有训练都可以加上liger来降低显存是吗？

leileilin closed this as completed Apr 29, 2025

Provide feedback