开发单位:鹏城实验室(PCL),清华大学(THU)
特别感谢国防科技大学窦勇老师及其团队的宝贵意见和支持
关于AIPerf设计理念,技术细节,以及测试结果,请参考论文:https://arxiv.org/abs/2008.07141
AIPerf Benchmark基于微软NNI开源框架,以自动化机器学习(AutoML)为负载,使用network morphism进行网络结构搜索和TPE进行超参搜索。
本文用于在容器环境下运行Benchmark
(本文档默认物理机环境已经安装docker、nvidia-docker)
Benchmark运行环境由Master节点-Slaves节点组成,其中Mater节点不参与调度不需要配置GPU/加速卡,Slave节点可配置多块加速卡。
(物理机执行:默认root用户操作)
配置共享文件系统
配置共享文件系统需要在物理机环境中进行,若集群环境中已有共享文件系统则跳过配置共享文件系统的步骤,若无共享文件系统,则需配置共享文件系统。
安装NFS服务端
将NFS服务端部署在master节点
apt install nfs-kernel-server -y
配置共享目录
创建共享目录/userhome,后面的所有数据共享将会在/userhome进行
mkdir /userhome
修改权限
chmod -R 777 /userhome
打开NFS配置文件,配置NFS
vim /etc/exports
添加以下内容
/userhome *(rw,sync,insecure,no_root_squash)
重启NFS服务
service nfs-kernel-server restart
安装NFS客户端
所有slave节点安装NFS客户端
apt install nfs-common -y
slave节点创建本地挂载点
mkdir /userhome
slave节点将NFS服务器的共享目录挂载到本地挂载点/userhome
mount NFS-server-ip:/userhome /userhome
检查NFS服务
在任意节点执行
touch /userhome/test
如其他节点能在/userhome下看见 test 文件则运行正常。
制作数据集建议在已做好容器内操作,里面包含了制作数据集需要的基本环境。
数据集下载
Imagenet官方地址:https://www.image-net.org/index
官方提供四种数据集: Flowers、CIFAR-10、MNIST、ImageNet-2012 前三个数据集数据量小,直接调用相关脚本自动会完成下载、转换(TFRecord格式)的过程,在 /userhome/AIPerf/scripts/build_data目录下执行以下脚本:
cd /userhome/AIPerf/scripts/build_data
./download_imagenet.sh
原始的ImageNet-2012下载到当前的imagenet目录并包含以下两个文件:
- ILSVRC2012_img_val.tar
- ILSVRC2012_img_train.tar
TFReord制作
训练集和验证集需要按照1000个子目录下包含图片的格式,处理步骤:
- 将train 和 val 的数据按照文件夹分类
- 指定参数运行build_imagenet_data.py
可以按照以下步骤执行: 假设数据存放在/userhome/AIPerf/scripts/build_data/imagenet目录下,TFRecord文件的输出目录是/userhome/AIPerf/scripts/build_data/ILSVRC2012/output
# 做验证集
cd /userhome/AIPerf/scripts/build_data
mkdir -p ILSVRC2012/raw-data/imagenet-data/validation/
tar -xvf imagenet/ILSVRC2012_img_val.tar -C ILSVRC2012/raw-data/imagenet-data/validation/
python preprocess_imagenet_validation_data.py ILSVRC2012/raw-data/imagenet-data/validation/ imagenet_2012_validation_synset_labels.txt
# 做训练集
mkdir -p ILSVRC2012/raw-data/imagenet-data/train/
tar -xvf imagenet/ILSVRC2012_img_train.tar -C ILSVRC2012/raw-data/imagenet-data/train/ && cd ILSVRC2012/raw-data/imagenet-data/train
find . -name "*.tar" | while read NAE ; do mkdir -p "${NAE%.tar}"; tar -xvf "${NAE}" -C "${NAE%.tar}"; rm -f "${NAE}"; done
cd -
# 执行转换
mkdir -p ILSVRC2012/output
python build_imagenet_data.py --train_directory=ILSVRC2012/raw-data/imagenet-data/train --validation_directory=ILSVRC2012/raw-data/imagenet-data/validation --output_directory=ILSVRC2012/output --imagenet_metadata_file=imagenet_metadata.txt --labels_file=imagenet_lsvrc_2015_synsets.txt
上面步骤执行完后,路径ILSVRC2012/output包含128个validation开头的验证集文件和1024个train开头的训练集文件。需要分别将验证集和数据集移动到slave节点的物理机上
mkdir -p /root/datasets/imagenet/train
mkdir -p /root/datasets/imagenet/val
mv ILSVRC2012/output/train-* /root/datasets/imagenet/train
mv ILSVRC2012/output/validation-* /root/datasets/imagenet/val
(容器内执行)
物理机下载基础镜像
针对NVIDIA V100
docker pull nvidia/cuda:10.1-cudnn7-devel-ubuntu16.04
针对NVIDIA A100
docker pull nvidia/cuda:11.1-cudnn8-devel-ubuntu16.04
启动容器
针对NVIDIA V100
nvidia-docker run -it --name build_AIPerf -v /userhome:/userhome -v /root/datasets:/root/datasets nvidia/cuda:10.1-cudnn7-devel-ubuntu16.04
针对NVIDIA A100
nvidia-docker run -it --name build_AIPerf -v /userhome:/userhome -v /root/datasets:/root/datasets nvcr.io/nvidia/cuda:11.2.0-cudnn8-devel-ubuntu18.04
安装基础工具
apt update && apt install git vim cmake make openssh-client openssh-server wget tzdata curl sshpass -y
配置ssh-server
开启ssh root登录权限,修改ssh配置文件 /etc/ssh/sshd_config
vim /etc/ssh/sshd_config
找到PermitRootLogin prohibit-password所在行,并修改为
PermitRootLogin yes
避免和物理机端口冲突,打开配置文件 /etc/ssh/sshd_config,修改ssh端口22为222
port 222
为root用户设置密码
passwd
密码设置为123123
配置时区
dpkg-reconfigure tzdata
选择Asia -> Shanghai
配置中文支持和环境变量
在/etc/bash.bashrc最后添加
export LANG=C.UTF-8
export TF_XLA_FLAGS="--tf_xla_auto_jit=2 --tf_xla_cpu_global_jit"
配置python运行环境
安装python3.5
apt install --install-recommends python3 python3-dev python3-pip -y
升级pip
pip3 install --upgrade pip
安装AIPerf
下载源代码到共享目录/userhome
git clone https://github.com/AI-HPC-Research-Team/AIPerf.git /userhome/AIPerf
安装python环境库
cd /userhome/AIPerf
pip3 install -r requirements.txt --timeout 3000
# For NVIDIA A100
# pip3 install -r requirements-a100.txt --timeout 3000
编译安装
source install.sh
检查AIPerf安装
执行
nnictl --help
如果打印帮助信息,则安装正常
安装slurm
apt install munge slurm-llnl -y
目录调整
创建必要的目录
mountdir 存放实验过程数据,nni存放实验过程日志
mkdir /userhome/mountdir
mkdir /userhome/nni
将共享目录下的相关目录链接到用户home目录下
ln -s /userhome/mountdir /root/mountdir
ln -s /userhome/nni /root/nni
必要的路径及数据配置
将权重文件复制到共享目录/userhome中
wget -P /userhome https://github.com/AI-HPC-Research-Team/Weight/releases/download/AIPerf1.0/resnet50_weights_tf_dim_ordering_tf_kernels.h5
(物理机执行)
提交容器为镜像
sudo docker commit build_AIPerf aiperf:latest
导出镜像
将容器导出到之前创建好的共享目录/userhome,方便其它节点导入
sudo docker save -o /userhome/AIPerf.tar aiperf:latest
导入镜像
参与实验的所有节点导入镜像,由于镜像需要通过NFS传输到其他节点,需要一些时间
sudo docker load -i /userhome/AIPerf.tar
运行容器
参与实验的所有节点运行容器
sudo nvidia-docker run -it --net=host -v /userhome:/userhome -v /root/datasets:/root/datasets aiperf:latest
配置容器
(容器内操作)
所有节点容器重启ssh服务
service ssh restart
配置slurm
以下操作在master节点进行,slurm将获取所有slave节点中cpu核数最低的节点的核数,并将该核数配置为每个slave节点的最高可用核数,而并非每个节点各自的实际核数。
进入/userhome/AIPerf/scripts/autoconfig_slurm目录
cd /userhome/AIPerf/scripts/autoconfig_slurm
进行ip地址配置
- 将所有slave节点ip按行写入slaveip.txt。
- 将master节点ip写入masterip.txt。
- 确保所有节点的ssh用户、密码、端口是一致的,并根据自身情况修改 slurm_autoconfig.sh脚本中的用户名和密码。
运行自动配置脚本
bash slurm_autoconfig.sh
slurm配置完成后会提示当前所有节点最高可用核数并给出后续config.yml中slurm的运行参数srun --cpus-per-task=xx
检查slurm
执行命令查看所有节点状态
sinfo
如果所有节点STATE列为idle则slurm配置正确,运行正常。
如果STATE列为unk,等待一会再执行sinfo查看,如果都为idle,则slurm配置正确,运行正常。
如果STATE列的状态后面带*则该节点网络出现问题master无法访问到该节点。
为了使结果有效,测试满足的基本条件是:
- 测试运行时间应不少于1小时;
- 测试的计算精度不低于FP-16;
- 测试完成时所取得的最高正确率应大于70%;
(以下操作均在master节点进行) 根据需求修改/userhome/AIPerf/examples/trials/network_morphism/imagenet/config.yml配置
可选参数 | 说明 | 默认值 | |
---|---|---|---|
1 | trialConcurrency | 同时运行的trial数 | 1 |
2 | maxExecDuration | 设置测试时间(单位 :h) | 12 |
3 | CUDA_VISIBLE_DEVICES | 指定测试程序可用的gpu索引 | 0,1,2,3,4,5,6,7 |
4 | srun:--cpus-per-task=30 | 参数为slurm可用cpu核数减 1 | 30 |
5 | --slave | 跟 trialConcurrency参数保持一致 | 1 |
6 | --ip | master节点ip | 127.0.0.1 |
7 | --batch_size | batch size | 448 |
8 | --epochs | 正常训练epoch数 | 60 |
9 | --initial_lr | 初始学习率 | 1e-1 |
10 | --final_lr | 最终学习率 | 0 |
11 | --train_data_dir | 训练数据集路径 | None |
12 | --val_data_dir | 验证数据集路径 | None |
13 | --warmup_1 | warm up机制第一轮epoch数 | 15 |
14 | --warmup_2 | warm up机制第二轮epoch数 | 30 |
15 | --warmup_3 | warm up机制第三轮epoch数 | 45 |
16 | --num_parallel_calls | tfrecord数据加载加速 | 48 |
可参照如下配置:
authorName: default
experimentName: example_imagenet-network-morphism-test
trialConcurrency: 1 # 1
maxExecDuration: 12h # 2
maxTrialNum: 30000
trainingServicePlatform: local
useAnnotation: false
tuner:
\#choice: TPE, Random, Anneal, Evolution, BatchTuner, NetworkMorphism
\#SMAC (SMAC should be installed through nnictl)
builtinTunerName: NetworkMorphism
classArgs:
optimize_mode: maximize
task: cv
input_width: 224
input_channel: 3
n_output_node: 1000
trial:
command: CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \ # 3
srun -N 1 -n 1 --ntasks-per-node=1 \
--cpus-per-task=30 \ # 4
python3 imagenet_train.py \
--slave 1 \ # 5
--ip 127.0.0.1 \ # 6
--batch_size 448 \ # 7
--epoch 60 \ # 8
--initial_lr 1e-1 \ # 9
--final_lr 0 \ # 10
--train_data_dir /root/datasets/imagenet/train/ \ # 11
--val_data_dir /root/datasets/imagenet/val/ # 12
codeDir: .
gpuNum: 0
在/userhome/AIPerf/examples/trials/network_morphism/imagenet/目录下执行以下命令运行用例
nnictl create -c config.yml
查看运行过程
执行以下命令查看正在运行的experiment的trial运行信息
nnictl top
当测试运行过程中,运行以下程序会在终端打印experiment的Error、Score、Regulated Score等信息
python3 /userhome/AIPerf/scripts/reports/report.py --id experiment_ID
停止expriments, 执行
nnictl stop
通过命令squeue查看slurm中是否还有未被停止的job,如果存在job且ST列为CG,请等待作业结束,实验才算完全停止。
查看实验报告
当测试运行过程中(超过15mins),运行以下程序会在终端打印experiment的Error、Score、Regulated Score等信息
python3 /userhome/AIPerf/scripts/reports/report.py --id experiment_ID
同时会产生实验报告存放在experiment_ID的对应路径/userhome/mountdir/nni/experiments/experiment_ID/results目录下
实验成功时报告为 Report_Succeed.html
实验失败时报告为 Report_Failed.html
实验失败会报告失败原因,请查阅AI Benchmark测试规范分析失败原因
保存日志&结果数据
运行以下程序可将测试产生的日志以及数据统一保存到/userhome/mountdir/nni/experiments/experiment_ID/results/logs中,便于实验分析
python3 /userhome/AIPerf/scripts/reports/report.py --id experiment_ID --logs True
由于实验数据在复制过程中会导致额外的网络、内存、cpu等资源开销,建议在实验停止/结束后再执行日志保存操作。
- slave计算节点的GPU卡数:默认将单个物理服务器作为一个slave节点,并使用其所有GPU;
- 深度学习框架:默认使用keras+tensorflow;
- 数据集加载方式:默认将数据预处理成TFRecord格式,以加快数据加载的效率;
- 数据集存储方式:默认采用网络共享存储;
- 超参设置:默认初始batch size=448,默认初始学习率=0.1,默认最终学习率=0,默认正常训练epochs=60,默认从第四轮trial开始,每个trial搜索1次,默认超参为kernel size和batch size。
-
环境:Ubuntu16.04,docker=18.09.9,SLURM=v15.08.7
-
软件:TensorFlow2.2.0,CUDA10.1,python3.5
-
Container:36个物理CPU核,512GB内存,8张GPU
NOTE: 推荐基于Intel Xeon Skylake Platinum8268 and NVIDIA Tesla NVLink v100配置
若测试中遇到问题,请联系[email protected],并附上/userhome/mountdir/nni/experiments/experiment_ID/results/
中的html版报告。
基于 MIT license