构建一键式脚本对大模型效果进行评测
-
🧶 目前使用llama-7b-hf进行实验,后续只需更改模型配置文件即可。
-
📈 对齐LLaMA 2的Evaluation此外加一下中文的一些Evaluation(主要是CMMLU和C-Eval)
-
📑 评价指标参考https://arxiv.org/pdf/2307.09288.pdf A2.2部分
更多详细信息请参阅lark文档:https://mgf127vt7ge.sg.larksuite.com/docx/J4W4djHR6oYPulx2mAQlhNZtgSd
- 虚拟环境配置
conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
- 下载opencompass
# 创建evaluation目录
mkdir evaluation
cd evaluation
# 下载
git clone https://github.com/HKGAI/EmergentAbilityEval.git opencompass
cd opencompass
- 安装依赖
pip install -e .
- 下载数据集到 data/
wget https://github.com/open-compass/opencompass/releases/download/0.1.1/OpenCompassData.zip
unzip OpenCompassData.zip
- 下载humaneval数据集
git clone https://github.com/openai/human-eval.git
cd human-eval
pip install -r requirements.txt
pip install -e .
cd ..
human-eval/human_eval/execution.py
文件的第 58 行取消注释才能正常评测。
确保按照上述步骤正确安装 OpenCompass 并准备好数据集后,可以通过以下命令评测 llama-7b-hf 模型在数据集上的性能:
#命令行方式
python run.py eval_llama_7b_test.py -p slurm_conifg.py
#脚本方式
./eval_llama.sh
所有运行输出将定向到 /home/hkustadmin/evaluation/opencompass/outputs/default/
目录,结构如下:
outputs/default/
├── 20231113_164612
├── 20231113_183030 # 每个实验一个文件夹
│ ├── configs # 用于记录的已转储的配置文件。如果在同一个实验文件夹中重新运行了不同的实验,可能会保留多个配置
│ ├── logs # 推理和评估阶段的日志文件
│ │ ├── eval
│ │ └── infer
│ ├── predictions # 每个任务的推理结果
│ ├── results # 每个任务的评估结果
│ └── summary # 单个实验的汇总评估结果
├── ...
结果预览: