DeepSeek-R1-Distill-Qwen-1.5B这种模型该怎么准备SFT的数据？ #3996

vibe-viscot · 2025-04-25T10:53:22Z

是不是这种的格式？

{"messages": [{"role": "user", "content": "<query1>"}, {"role": "assistant", "content": "<think>\n?????????</think>\n<answer>????????</answer>"}]}

主要是<think></think><answer></answer>这几个东西到底加不加?

The text was updated successfully, but these errors were encountered:

Jintao-Huang · 2025-04-25T15:04:04Z

是的，需要加的

不然训练出来的模型就不会think了

vibe-viscot · 2025-04-25T15:36:21Z

OK，就是说</think>后面的内容要用<answer></answer>包起来对吧？可为什么推理的时候我只看到了</think>，没看到<answer></answer>呢

vibe-viscot closed this as completed Apr 28, 2025

Provide feedback