Fix minimax & fix agent_template (#4618)

Jintao-Huang · Jintao-Huang · commit a954dc02e34a · 2025-06-18T10:37:51.000+08:00
diff --git a/swift/llm/model/model/minimax.py b/swift/llm/model/model/minimax.py
@@ -27,10 +27,6 @@ def get_model_tokenizer_minimax_vl(model_dir: str,
     device_ids = list(range(max(local_rank, 0), n_gpu, local_world_size))
     config = AutoConfig.from_pretrained(model_dir, trust_remote_code=True)
     kwargs['model_config'] = config
-    if kwargs.get('attn_impl') == 'flash_attn':
-        config.attn_type_list = [1] * len(config.attn_type_list)
-    else:
-        config.attn_type_list = [0] * len(config.attn_type_list)
     if 'quantization_config' in model_kwargs:
         quantization_config = model_kwargs['quantization_config']
         from transformers import QuantoConfig
@@ -111,11 +107,6 @@ def get_model_tokenizer_minimax_text(model_dir: str,
     device_ids = list(range(max(local_rank, 0), n_gpu, local_world_size))
     config = AutoConfig.from_pretrained(model_dir, trust_remote_code=True)
     kwargs['model_config'] = config
-    if hasattr(config, 'attn_type_list'):
-        if kwargs.get('attn_impl') == 'flash_attn':
-            config.attn_type_list = [1] * len(config.attn_type_list)
-        else:
-            config.attn_type_list = [0] * len(config.attn_type_list)
     if 'quantization_config' in model_kwargs:
         quantization_config = model_kwargs['quantization_config']
         from transformers import QuantoConfig
@@ -150,7 +141,6 @@ def get_model_tokenizer_minimax_text(model_dir: str,
         LLMModelType.minimax, [
             ModelGroup([
                 Model('MiniMax/MiniMax-Text-01', 'MiniMaxAI/MiniMax-Text-01'),
-                Model('MiniMax/MiniMax-Text-01-hf', 'MiniMaxAI/MiniMax-Text-01-hf'),
             ]),
         ],
         TemplateType.minimax,
diff --git a/swift/plugin/agent_template/base.py b/swift/plugin/agent_template/base.py
@@ -85,7 +85,9 @@ def _format_tool_responses(
     def _parse_tool_call(content) -> Dict[str, Any]:
         obj = BaseAgentTemplate._parse_json(content)
         name = obj['name']
-        arguments = obj.get('arguments') or obj.get('parameters')
+        arguments = obj.get('arguments')
+        if arguments is None:
+            arguments = obj.get('parameters')
         arguments = BaseAgentTemplate._parse_json(arguments)
         assert arguments is not None, f'content: {content}'
         return {'name': name, 'arguments': arguments}
@@ -127,7 +129,9 @@ def _parse_tool(tool, lang: Literal['zh', 'en']) -> ToolDesc:
         name_for_model = BaseAgentTemplate._get_tool_name(tool)
         name_for_human = tool.get('name_for_human') or name_for_model
 
-        description = tool.get('description') or tool.get('description_for_model')
+        description = tool.get('description')
+        if description is None:
+            description = tool.get('description_for_model')
         parameters = tool.get('parameters') or {}
         parameters = parameters if isinstance(parameters, str) else json.dumps(parameters, ensure_ascii=False)
         args_format = '此工具的输入应为JSON对象。' if lang == 'zh' else 'Format the arguments as a JSON object.'
diff --git a/tests/test_align/test_template/test_llm.py b/tests/test_align/test_template/test_llm.py
@@ -175,6 +175,7 @@ def test_glm_edge():
 
 
 def test_llama():
+    from swift.llm import VllmEngine
     # pt_engine = PtEngine('LLM-Research/Meta-Llama-3.1-8B-Instruct-BNB-NF4')
     # pt_engine = PtEngine('LLM-Research/Meta-Llama-3.1-8B-Instruct')
     # pt_engine = PtEngine('LLM-Research/Meta-Llama-3-8B-Instruct')
@@ -397,6 +398,30 @@ def test_mimo():
     assert res == res2, f'res: {res}, res2: {res2}'
 
 
+def test_minicpm():
+    pt_engine = PtEngine('OpenBMB/MiniCPM4-0.5B')
+    res = _infer_model(pt_engine)
+    pt_engine.default_template.template_backend = 'jinja'
+    res2 = _infer_model(pt_engine)
+    assert res == res2, f'res: {res}, res2: {res2}'
+
+
+def test_minimax():
+    os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7'
+    from transformers import QuantoConfig
+    quantization_config = QuantoConfig(weights='int8')
+    messages = [{
+        'role': 'system',
+        'content': 'You are a helpful assistant.'
+    }, {
+        'role': 'user',
+        'content': 'who are you?'
+    }]
+    pt_engine = PtEngine('MiniMax/MiniMax-M1-40k', quantization_config=quantization_config)
+    res = _infer_model(pt_engine, messages=messages)
+    print(f'res: {res}')
+
+
 if __name__ == '__main__':
     from swift.llm import PtEngine, RequestConfig
     from swift.utils import get_logger, seed_everything
@@ -435,4 +460,6 @@ def test_mimo():
     # test_gemma3()
     # test_glm4_0414()
     # test_qwen3()
-    test_mimo()
+    # test_mimo()
+    # test_minicpm()
+    test_minimax()