receive context length via commandline. It's more convenient than dig…

…ging into the config file every time.
EleutherAI · loubbrad · Nov 22, 2023 · Nov 9, 2023 · Nov 9, 2023 · Nov 10, 2023
commit 95f492dd8bd1f076664e3a058f0bb6092afb8a78
diff --git a/aria/run.py b/aria/run.py
@@ -124,22 +124,21 @@ def _parse_tokenized_dataset_args():
  argp.add_argument("load_path", help="path midi_dict dataset")
  argp.add_argument("save_path", help="path to save dataset")
  argp.add_argument("-s", help="also produce shuffled", action="store_true")
+ argp.add_argument("-l", help="max sequence length", type=int, default=2048)
 
  return argp.parse_args(sys.argv[2:])
 
 
 def build_tokenized_dataset(args):
  from aria.tokenizer import TokenizerLazy
  from aria.data.datasets import TokenizedDataset
- from aria.config import load_config
 
- config = load_config()["data"]["dataset_gen_args"]
  tokenizer = TokenizerLazy()
  dataset = TokenizedDataset.build(
  tokenizer=tokenizer,
  save_path=args.save_path,
  midi_dataset_path=args.load_path,
- max_seq_len=config["max_seq_len"],
+ max_seq_len=args.l,
  overwrite=True,
  )
  if args.s: