code reformat

huawei-noah · AmiyaSX · Feb 7, 2023 · Feb 7, 2023 · Feb 12, 2023 · Feb 13, 2023
commit 8dd42cec140062c1b853e89476ae6626d9131832
diff --git a/examples/ant_ppo._ms.yaml b/examples/ant_ppo._ms.yaml
@@ -35,6 +35,7 @@ model_para:
 
 
 env_num: 1
+speedup: False
 
 benchmark:
  log_interval_to_train: 5

diff --git a/examples/ant_ppo.yaml b/examples/ant_ppo.yaml
@@ -35,7 +35,6 @@ model_para:
 
 
 env_num: 1
-speedup: False
 
 benchmark:
  log_interval_to_train: 5

diff --git a/xt/model/ppo/ppo_ms.py b/xt/model/ppo/ppo_ms.py
@@ -50,8 +50,7 @@ def __init__(self, model_info):
  self.predict_net = self.PPOPredictPolicy(self.model, self.dist)
  adam = Adam(params=self.predict_net.trainable_params(), learning_rate=0.0005)
  loss_fn = WithLossCell(self.critic_loss_coef, self.clip_ratio, self.ent_coef, self.vf_clip)
- forward_fn = NetWithLoss(
- self.model, loss_fn, self.dist)
+ forward_fn = NetWithLoss(self.model, loss_fn, self.dist)
  self.train_net = MyTrainOneStepCell(forward_fn, optimizer=adam, max_grad_norm=self._max_grad_norm)
  self.train_net.set_train()
 
@@ -140,11 +139,9 @@ def construct(self, action_log_prob, ent, adv, old_log_p, target_v, out_v, old_v
  actor_loss = -surr_loss - self.ent_coef * ent
 
  vf_losses1 = self.square(out_v - target_v)
- val_pred_clipped = old_v + \
- clip_by_value(out_v - old_v, -self.val_clip, self.val_clip)
+ val_pred_clipped = old_v + clip_by_value(out_v - old_v, -self.val_clip, self.val_clip)
  vf_losses2 = self.square(val_pred_clipped - target_v)
 
- critic_loss = 0.5 * \
- self.reduce_mean(self.maximum(vf_losses1, vf_losses2))
+ critic_loss = 0.5 * self.reduce_mean(self.maximum(vf_losses1, vf_losses2))
  loss = actor_loss + self.critic_loss_coef * critic_loss
  return loss