huggingface
diff --git a/‎lerobot/common/policies/tdmpc/modeling_tdmpc.py‎
Lines changed: 2 additions & 1 deletion b/‎lerobot/common/policies/tdmpc/modeling_tdmpc.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎lerobot/configs/policy/tdmpc.yaml‎
Lines changed: 1 addition & 0 deletions b/‎lerobot/configs/policy/tdmpc.yaml‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎lerobot/scripts/train.py‎
Lines changed: 46 additions & 40 deletions b/‎lerobot/scripts/train.py‎
Lines changed: 46 additions & 40 deletions
diff --git a/‎tests/data/save_policy_to_safetensors/aloha_act/actions.safetensors‎
4.98 KB b/‎tests/data/save_policy_to_safetensors/aloha_act/actions.safetensors‎
4.98 KB
diff --git a/‎tests/data/save_policy_to_safetensors/aloha_act/grad_stats.safetensors‎
30.9 KB b/‎tests/data/save_policy_to_safetensors/aloha_act/grad_stats.safetensors‎
30.9 KB
diff --git a/‎tests/data/save_policy_to_safetensors/aloha_act/output_dict.safetensors‎
196 Bytes b/‎tests/data/save_policy_to_safetensors/aloha_act/output_dict.safetensors‎
196 Bytes
diff --git a/‎tests/data/save_policy_to_safetensors/aloha_act/param_stats.safetensors‎
32.6 KB b/‎tests/data/save_policy_to_safetensors/aloha_act/param_stats.safetensors‎
32.6 KB
diff --git a/‎tests/data/save_policy_to_safetensors/pusht_diffusion/actions.safetensors‎
4.49 KB b/‎tests/data/save_policy_to_safetensors/pusht_diffusion/actions.safetensors‎
4.49 KB
diff --git a/‎tests/data/save_policy_to_safetensors/pusht_diffusion/grad_stats.safetensors‎
46.3 KB b/‎tests/data/save_policy_to_safetensors/pusht_diffusion/grad_stats.safetensors‎
46.3 KB
diff --git a/‎tests/data/save_policy_to_safetensors/pusht_diffusion/output_dict.safetensors‎
68 Bytes b/‎tests/data/save_policy_to_safetensors/pusht_diffusion/output_dict.safetensors‎
68 Bytes
@@ -80,7 +80,8 @@ def __init__(
         self.config = config
         self.model = TDMPCTOLD(config)
         self.model_target = deepcopy(self.model)
-        self.model_target.eval()
+        for param in self.model_target.parameters():
+            param.requires_grad = False
 
         if config.input_normalization_modes is not None:
             self.normalize_inputs = Normalize(
 
@@ -1,6 +1,7 @@
 # @package _global_
 
 seed: 1
+dataset_repo_id: lerobot/xarm_lift_medium_replay
 
 training:
   offline_steps: 25000
 
@@ -25,6 +25,51 @@
 from lerobot.scripts.eval import eval_policy
 
 
+def make_optimizer_and_scheduler(cfg, policy):
+    if cfg.policy.name == "act":
+        optimizer_params_dicts = [
+            {
+                "params": [
+                    p
+                    for n, p in policy.named_parameters()
+                    if not n.startswith("backbone") and p.requires_grad
+                ]
+            },
+            {
+                "params": [
+                    p for n, p in policy.named_parameters() if n.startswith("backbone") and p.requires_grad
+                ],
+                "lr": cfg.training.lr_backbone,
+            },
+        ]
+        optimizer = torch.optim.AdamW(
+            optimizer_params_dicts, lr=cfg.training.lr, weight_decay=cfg.training.weight_decay
+        )
+        lr_scheduler = None
+    elif cfg.policy.name == "diffusion":
+        optimizer = torch.optim.Adam(
+            policy.diffusion.parameters(),
+            cfg.training.lr,
+            cfg.training.adam_betas,
+            cfg.training.adam_eps,
+            cfg.training.adam_weight_decay,
+        )
+        assert cfg.training.online_steps == 0, "Diffusion Policy does not handle online training."
+        lr_scheduler = get_scheduler(
+            cfg.training.lr_scheduler,
+            optimizer=optimizer,
+            num_warmup_steps=cfg.training.lr_warmup_steps,
+            num_training_steps=cfg.training.offline_steps,
+        )
+    elif policy.name == "tdmpc":
+        optimizer = torch.optim.Adam(policy.parameters(), cfg.training.lr)
+        lr_scheduler = None
+    else:
+        raise NotImplementedError()
+
+    return optimizer, lr_scheduler
+
+
 def update_policy(policy, batch, optimizer, grad_clip_norm, lr_scheduler=None):
     start_time = time.time()
     policy.train()
@@ -276,46 +321,7 @@ def train(cfg: dict, out_dir=None, job_name=None):
 
     # Create optimizer and scheduler
     # Temporary hack to move optimizer out of policy
-    if cfg.policy.name == "act":
-        optimizer_params_dicts = [
-            {
-                "params": [
-                    p
-                    for n, p in policy.named_parameters()
-                    if not n.startswith("backbone") and p.requires_grad
-                ]
-            },
-            {
-                "params": [
-                    p for n, p in policy.named_parameters() if n.startswith("backbone") and p.requires_grad
-                ],
-                "lr": cfg.training.lr_backbone,
-            },
-        ]
-        optimizer = torch.optim.AdamW(
-            optimizer_params_dicts, lr=cfg.training.lr, weight_decay=cfg.training.weight_decay
-        )
-        lr_scheduler = None
-    elif cfg.policy.name == "diffusion":
-        optimizer = torch.optim.Adam(
-            policy.diffusion.parameters(),
-            cfg.training.lr,
-            cfg.training.adam_betas,
-            cfg.training.adam_eps,
-            cfg.training.adam_weight_decay,
-        )
-        assert cfg.training.online_steps == 0, "Diffusion Policy does not handle online training."
-        lr_scheduler = get_scheduler(
-            cfg.training.lr_scheduler,
-            optimizer=optimizer,
-            num_warmup_steps=cfg.training.lr_warmup_steps,
-            num_training_steps=cfg.training.offline_steps,
-        )
-    elif policy.name == "tdmpc":
-        optimizer = torch.optim.Adam(policy.parameters(), cfg.training.lr)
-        lr_scheduler = None
-    else:
-        raise NotImplementedError()
+    optimizer, lr_scheduler = make_optimizer_and_scheduler(cfg, policy)
 
     num_learnable_params = sum(p.numel() for p in policy.parameters() if p.requires_grad)
     num_total_params = sum(p.numel() for p in policy.parameters())