Merge pull request SeanNaren#20 from dpressel/master

Using pytorch builtin avoids no-grad params
DevKiHyun · Mar 29, 2017 · d9c7bcf · d9c7bcf
2 parents 159743c + c8e8268
commit d9c7bcf
Showing 1 changed file with 1 addition and 10 deletions.
diff --git a/train.py b/train.py
@@ -150,16 +150,7 @@ def main():
  optimizer.zero_grad()
  loss.backward()
 
- # rescale gradients if necessary
- total_norm = torch.FloatTensor([0])
- for param in model.parameters():
- param = param.norm().pow(2).data.cpu()
- total_norm.add_(param)
- total_norm = total_norm.sqrt()
- if total_norm[0] > args.max_norm:
- for param in model.parameters():
- param.grad.mul_(args.max_norm / total_norm[0])
-
+ torch.nn.utils.clip_grad_norm(model.parameters(), args.max_norm)
  # SGD step
  optimizer.step()