add class for automatically downloading datasets

EleutherAI · lucidrains · Jan 5, 2021 · Jan 5, 2021 · Jan 5, 2021 · Jan 5, 2021
commit 9cd776ff97d0a714673c0f5b65e1da98eceadc44
@@ -9,7 +9,7 @@
 from tqdm.auto import trange
 
 from gpt_neox import (GPTNeoX, AutoregressiveWrapper, TextSamplerDataset, download_dataset,
- cycle, prepare_optimizer_parameters, decode_tokens, prepare_enwik8_data, is_main)
+ cycle, prepare_optimizer_parameters, decode_tokens, read_enwik8_data, is_main)
 
 
 def get_args():
@@ -46,7 +46,7 @@ def get_params(model):
 model = AutoregressiveWrapper(model)
 
 # prepare enwik8 data
-data_train, data_val = prepare_enwik8_data(params["data_path"])
+data_train, data_val = read_enwik8_data(params["data_path"])
 train_dataset = TextSamplerDataset(data_train, params["seq_len"])
 val_dataset = TextSamplerDataset(data_val, params["seq_len"])
 val_loader = cycle(DataLoader(val_dataset, batch_size=params["batch_size"]))