fix the collator to be the max length for multipack pretraining

OpenAccess-AI-Collective · winglian · Jan 6, 2024 · Dec 15, 2023 · Jan 5, 2024 · Jan 5, 2024
commit 7c3be2ef5ea918106b64e0b762bc161859c327d4
diff --git a/src/axolotl/utils/data.py b/src/axolotl/utils/data.py
@@ -822,7 +822,10 @@ def encode_pretraining(
 def load_pretraining_dataset(path, tokenizer, cfg, name=None, max_tokens=2048, seed=42):
  if cfg.sample_packing:
  collate_fn = PretrainingBatchSamplerDataCollatorForSeq2Seq(
- tokenizer, return_tensors="pt", padding=True, pad_to_multiple_of=max_tokens
+ tokenizer,
+ return_tensors="pt",
+ padding=True,
+ pad_to_multiple_of=max_tokens * cfg.micro_batch_size,
  )
  encode = functools.partial(
  encode_packed_pretraining,