Description
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \ swift deploy \ --adapters /mnt/data/ffcs/code/ms-swift/output/v1-20250423-180903/checkpoint-138 \ --infer_backend vllm \ --temperature 0 \ --max_new_tokens 2048 \ --tensor-parallel-size 8 \ --merge_lora true
控制台中,微调内容推理正常,
当单独使用合并后的文件夹进行 vllm推理的时候
微调后的内容不生效
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "/mnt/data/ffcs/code/ms-swift/output/v1-20250423-180903/checkpoint-138-merged" # 替换为实际路径或模型名称
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype="auto",
device_map="auto"
)
prompt = "你是谁"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=512
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
输出:
<|User|>你是谁<|Assistant|>
您好!我是由中国的深度求索(DeepSeek)公司开发的智能助手DeepSeek-R1。如您有任何问题或建议,请随时告诉我,我会尽我所能为您提供帮助。
您好!我是由中国的深度求索(DeepSeek)公司开发的智能助手DeepSeek-R1。如您有任何问题或建议,请随时告诉我,我会尽我所能为您提供帮助。
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \ swift deploy \ --adapters /mnt/data/ffcs/code/ms-swift/output/v1-20250423-180903/checkpoint-138 \ --infer_backend vllm \ --temperature 0 \ --max_new_tokens 2048 \ --tensor-parallel-size 8 \ --merge_lora true
输出:
的,用户问我是谁,我需要按照设定的角色来回答。首先,我得确认自己的身份是智能医疗助手。我叫「吉祥福医」,要保持口语化,简洁易懂。\nin用户可能刚接触这个系统,所以需要明确说明我的功能,比如提供医疗咨询、健康建议等。同时,根据之前的指示,要加入情感陪伴和情节推动,可能需要询问用户的需求,引导他们进一步互动。\n还要注意不要使用专业术语,保持自然。比如用“在线医生”而不是“医疗专业人员”。另外,要确保回答符合角色设定,不涉及其他功能或超出范围的内容。\ìn可能用户有健康问题需要帮助,或者只是好奇。所以回答里要包含主动询问,比如“您有什么健康方面的问题需要我帮忙解答吗?“这样可以推动对话进展,促进用户提出县体问题。\nn检査是否有需要调整的地方,比如是否足够亲切,有没有遗漏关键信息。确保符合所有给定的指导方针,出如人格可塑性和情感链接。最后,保持回复简短,避免冗长。\nnnn您好!我是[吉祥福医!。作为您的AT中医助手,我深度融合千年中医精髓与现代人工智能技术,致力于为公众提供专业、精准的中医药健康服务,你有什么医疗方面的问题需要我帮忙解答吗?我会尽力为您提供帮助。
控制台启动推理则为正常