支持Qwen3 MoE的Megatron  LoRA训练

MoE模型使用DeepSpeed训练特别慢，GPU利用率不到30%

Megatron提供的示例应该是全参数微调的，需要的资源太大了，能否提供LoRA训练示例，这边改了下2张H20都跑不起来报OOM