Merge branch 'main' into improved-mup

EleutherAI · Quentin-Anthony · Mar 10, 2023 · Mar 15, 2023 · Mar 15, 2023 · Apr 12, 2023
commit 5f09348a9f0b5289a3fab22cbe18731523c6b21f
@@ -84,18 +84,20 @@ def save_base_shapes(neox_args, base_shapes, use_cache):
  print("Please install torchdistx https://github.com/pytorch/torchdistx")
  raise Exception
  base_model = torchdistx.deferred_init.deferred_init(GPT2ModelPipe(
- neox_args=neox_args,
- num_tokentypes=0,
- parallel_output=True,
- topology=mpu.get_topology(),
- use_cache=use_cache))
+ neox_args=neox_args,
+ num_tokentypes=0,
+ parallel_output=True,
+ topology=mpu.get_topology(),
+ use_cache=use_cache,
+ )
  else:
  base_model = GPT2ModelPipe(
- neox_args=neox_args,
- num_tokentypes=0,
- parallel_output=True,
- topology=mpu.get_topology(),
- use_cache=use_cache)
+ neox_args=neox_args,
+ num_tokentypes=0,
+ parallel_output=True,
+ topology=mpu.get_topology(),
+ use_cache=use_cache,
+ )
 
  print(f'MEM AFTER BASE MUP: {torch.cuda.memory_allocated(device_index)} on rank {torch.distributed.get_rank()}')
 
@@ -123,18 +125,20 @@ def save_base_shapes(neox_args, base_shapes, use_cache):
  print("Please install torchdistx https://github.com/pytorch/torchdistx")
  raise Exception
  delta_model = torchdistx.deferred_init.deferred_init(GPT2ModelPipe(
- neox_args=neox_args,
- num_tokentypes=0,
- parallel_output=True,
- topology=mpu.get_topology(),
- use_cache=use_cache))
+ neox_args=neox_args,
+ num_tokentypes=0,
+ parallel_output=True,
+ topology=mpu.get_topology(),
+ use_cache=use_cache,
+ )
  else:
  delta_model = GPT2ModelPipe(
- neox_args=neox_args,
- num_tokentypes=0,
- parallel_output=True,
- topology=mpu.get_topology(),
- use_cache=use_cache)
+ neox_args=neox_args,
+ num_tokentypes=0,
+ parallel_output=True,
+ topology=mpu.get_topology(),
+ use_cache=use_cache,
+ )
 
  print(f'MEM AFTER BASE MUP: {torch.cuda.memory_allocated(device_index)} on rank {torch.distributed.get_rank()}')