fix transformers==4.36

modelscope · Jintao-Huang · Dec 14, 2023 · Dec 14, 2023 · Dec 14, 2023 · Dec 14, 2023
commit 1c6eb2682fe403db1d1164e6d7ba8719f92d9868
diff --git a/swift/llm/sft.py b/swift/llm/sft.py
@@ -254,6 +254,7 @@ def llm_sft(args: SftArguments) -> str:
  save_on_each_node=args.save_on_each_node)
 
  if args.gradient_checkpointing:
+ model.config.use_cache = False # fix transformers==4.36
  model.enable_input_require_grads()
  if is_dist():
  # Compatible with https://github.com/huggingface/transformers/pull/25903

diff --git a/swift/llm/utils/model.py b/swift/llm/utils/model.py
@@ -113,6 +113,7 @@ class ModelType:
  # yi
  yi_6b = 'yi-6b'
  yi_6b_200k = 'yi-6b-200k'
+ yi_6b_chat = 'yi-6b-chat'
  yi_34b = 'yi-34b'
  yi_34b_200k = 'yi-34b-200k'
  yi_34b_chat = 'yi-34b-chat'
@@ -630,12 +631,22 @@ def get_model_tokenizer_with_flash_attn(model_dir: str,
  if model_config is None:
  model_config = AutoConfig.from_pretrained(
  model_dir, trust_remote_code=True)
- _flash_attn_2_enabled = kwargs.pop('use_flash_attn', False)
- model_config._flash_attn_2_enabled = _flash_attn_2_enabled
+ use_flash_attn = kwargs.pop('use_flash_attn', False)
+ if version.parse(transformers.__version__) >= version.parse('4.36'):
+ if use_flash_attn:
+ model_config._attn_implementation = 'flash_attention_2'
+ else:
+ model_config._flash_attn_2_enabled = use_flash_attn
  return get_model_tokenizer_from_repo(model_dir, torch_dtype, model_kwargs,
  load_model, model_config, **kwargs)
 
 
+@register_model(
+ ModelType.yi_6b_chat,
+ '01ai/Yi-6B-Chat',
+ LoRATM.yi,
+ TemplateType.yi,
+ support_flash_attn=True)
 @register_model(
  ModelType.yi_34b_chat,
  '01ai/Yi-34B-Chat',

diff --git a/swift/trainers/mixin.py b/swift/trainers/mixin.py
@@ -352,10 +352,8 @@ def _save_sft_args(self, output_dir: str) -> None:
  def _save(self, output_dir: Optional[str] = None, state_dict=None):
  """Compatible with swift and peft"""
  # If we are executing this function, we are the process zero, so we don't check for that.
- self.state.last_model_checkpoint = output_dir
  output_dir = output_dir if output_dir is not None else self.args.output_dir
  os.makedirs(output_dir, exist_ok=True)
- logger.info(f'Saving model checkpoint to {output_dir}')
  # configuration.json
  model_dir = getattr(self.model, 'model_dir', None)
  if model_dir is not None:
@@ -421,6 +419,10 @@ def _save(self, output_dir: Optional[str] = None, state_dict=None):
  shutil.copy(src_path, dst_path)
 
  def _save_checkpoint(self, model, trial, metrics=None):
+ self.state.last_model_checkpoint = os.path.join(
+ self.args.output_dir, f'checkpoint-{self.state.global_step}')
+ logger.info(
+ f'Saving model checkpoint to {self.state.last_model_checkpoint}')
  only_save_model = self.args.only_save_model
  if only_save_model:
  return self._only_save_model(model, trial, metrics)