Update comments and variable/method names

Unity-Technologies · ervteng · Jul 22, 2019 · Oct 9, 2018 · Oct 12, 2018 · Oct 12, 2018
commit 4bbeb9168b04543627350e737caa143e176ac7f5
diff --git a/ml-agents/mlagents/trainers/components/reward_signals/gail/model.py b/ml-agents/mlagents/trainers/components/reward_signals/gail/model.py
@@ -15,7 +15,7 @@ def __init__(
         encoding_size: int = 64,
         use_actions: bool = False,
         use_vail: bool = False,
-        gradient_penalty: float = 10.0,
+        gradient_penalty_weight: float = 10.0,
     ):
         """
         The initializer for the GAIL reward generator.
@@ -34,7 +34,7 @@ def __init__(
         self.mutual_information = 0.5
         self.policy_model = policy_model
         self.encoding_size = encoding_size
-        self.gradient_penalty = gradient_penalty
+        self.gradient_penalty_weight = gradient_penalty_weight
         self.use_vail = use_vail
         self.use_actions = use_actions  # True # Not using actions
         self.make_beta()
@@ -233,7 +233,7 @@ def create_network(self) -> None:
         )
         self.intrinsic_reward = -tf.log(1.0 - self.discriminator_score + EPSILON)
 
-    def compute_gradient_penalty(self) -> tf.Tensor:
+    def create_gradient_magnitude(self) -> tf.Tensor:
         """
         Gradient penalty from https://arxiv.org/pdf/1704.00028. Adds stability esp.
         for off-policy. Compute gradients w.r.t randomly interpolated input.
@@ -255,7 +255,7 @@ def compute_gradient_penalty(self) -> tf.Tensor:
 
         grad = tf.gradients(grad_estimate, [grad_input])[0]
 
-        # Norm, like log, can return NaN. Use our own safe_norm
+        # Norm's gradient could be NaN at 0. Use our own safe_norm
         safe_norm = tf.sqrt(tf.reduce_sum(grad ** 2, axis=-1) + EPSILON)
         gradient_mag = tf.reduce_mean(tf.pow(safe_norm - 1, 2))
 
@@ -293,7 +293,9 @@ def create_loss(self, learning_rate: float) -> None:
         else:
             self.loss = self.discriminator_loss
 
-        self.loss = self.loss + self.gradient_penalty * self.compute_gradient_penalty()
+        self.loss = (
+            self.loss + self.gradient_penalty_weight * self.create_gradient_magnitude()
+        )
 
         optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate)
         self.update_batch = optimizer.minimize(self.loss)