add combine_evals flag to differentiate a multi dataset eval from a b…

…atch of single-dataset evals
michaelbyun · Apr 13, 2023 · 74551fa · 74551fa
1 parent 7af1a1b
commit 74551fa
Showing 1 changed file with 9 additions and 3 deletions.
diff --git a/elk/evaluation/evaluate.py b/elk/evaluation/evaluate.py
@@ -41,16 +41,22 @@ class Eval(Serializable):
  num_gpus: int = -1
  skip_baseline: bool = False
  concatenated_layer_offset: int = 0
+ combine_evals: bool = False
 
  def execute(self):
  datasets = self.data.prompts.datasets
 
  transfer_dir = elk_reporter_dir() / self.source / "transfer_eval"
 
- for dataset in datasets:
- self.data.prompts.datasets = [dataset]
- run = Evaluate(cfg=self, out_dir=transfer_dir / dataset)
+ if self.combine_evals:
+ run = Evaluate(cfg=self, out_dir=transfer_dir / ", ".join(datasets))
  run.evaluate()
+ else:
+ # eval on each dataset separately
+ for dataset in datasets:
+ self.data.prompts.datasets = [dataset]
+ run = Evaluate(cfg=self, out_dir=transfer_dir / dataset)
+ run.evaluate()
 
 
 @dataclass