AIPerf Benchmark v1.0

开发单位：鹏城实验室(PCL)，清华大学(THU)

特别感谢国防科技大学窦勇老师及其团队的宝贵意见和支持

AIPerf Benchmark v1.0

Benchmark结构设计

关于AIPerf设计理念，技术细节，以及测试结果，请参考论文：https://arxiv.org/abs/2008.07141

AIPerf Benchmark基于微软NNI开源框架，以自动化机器学习（AutoML）为负载，使用network morphism进行网络结构搜索和TPE进行超参搜索。

Benchmark安装说明

本文用于在容器环境下运行Benchmark

一、Benchmark环境配置、安装要求

(本文档默认物理机环境已经安装docker、nvidia-docker)

Benchmark运行环境由Master节点-Slaves节点组成，其中Mater节点不参与调度不需要配置GPU/加速卡，Slave节点可配置多块加速卡。

1.物理机环境配置

(物理机执行：默认root用户操作)

配置共享文件系统

配置共享文件系统需要在物理机环境中进行，若集群环境中已有共享文件系统则跳过配置共享文件系统的步骤,若无共享文件系统，则需配置共享文件系统。

安装NFS服务端

将NFS服务端部署在master节点

apt install nfs-kernel-server -y

配置共享目录

创建共享目录/userhome，后面的所有数据共享将会在/userhome进行

mkdir /userhome

修改权限

chmod -R 777 /userhome

打开NFS配置文件，配置NFS

vim /etc/exports

添加以下内容

/userhome   *(rw,sync,insecure,no_root_squash)

重启NFS服务

service nfs-kernel-server restart

安装NFS客户端

所有slave节点安装NFS客户端

apt install nfs-common -y

slave节点创建本地挂载点

mkdir /userhome

slave节点将NFS服务器的共享目录挂载到本地挂载点/userhome

mount NFS-server-ip:/userhome /userhome

检查NFS服务

在任意节点执行

touch /userhome/test

如其他节点能在/userhome下看见 test 文件则运行正常。

2.数据集制作

制作数据集建议在已做好容器内操作，里面包含了制作数据集需要的基本环境。

数据集下载

Imagenet官方地址：https://www.image-net.org/index

官方提供四种数据集： Flowers、CIFAR-10、MNIST、ImageNet-2012 前三个数据集数据量小，直接调用相关脚本自动会完成下载、转换（TFRecord格式）的过程，在 /userhome/AIPerf/scripts/build_data目录下执行以下脚本：

cd  /userhome/AIPerf/scripts/build_data
./download_imagenet.sh

原始的ImageNet-2012下载到当前的imagenet目录并包含以下两个文件:

ILSVRC2012_img_val.tar
ILSVRC2012_img_train.tar

TFReord制作

训练集和验证集需要按照1000个子目录下包含图片的格式，处理步骤：

将train 和 val 的数据按照文件夹分类
指定参数运行build_imagenet_data.py

可以按照以下步骤执行: 假设数据存放在/userhome/AIPerf/scripts/build_data/imagenet目录下，TFRecord文件的输出目录是/userhome/AIPerf/scripts/build_data/ILSVRC2012/output

# 做验证集
cd  /userhome/AIPerf/scripts/build_data
mkdir -p ILSVRC2012/raw-data/imagenet-data/validation/  
tar -xvf imagenet/ILSVRC2012_img_val.tar -C ILSVRC2012/raw-data/imagenet-data/validation/
python preprocess_imagenet_validation_data.py ILSVRC2012/raw-data/imagenet-data/validation/ imagenet_2012_validation_synset_labels.txt

# 做训练集
mkdir -p ILSVRC2012/raw-data/imagenet-data/train/
tar -xvf imagenet/ILSVRC2012_img_train.tar -C ILSVRC2012/raw-data/imagenet-data/train/ && cd ILSVRC2012/raw-data/imagenet-data/train
find . -name "*.tar" | while read NAE ; do mkdir -p "${NAE%.tar}"; tar -xvf "${NAE}" -C "${NAE%.tar}"; rm -f "${NAE}"; done
cd -

# 执行转换
mkdir -p ILSVRC2012/output
python build_imagenet_data.py --train_directory=ILSVRC2012/raw-data/imagenet-data/train --validation_directory=ILSVRC2012/raw-data/imagenet-data/validation --output_directory=ILSVRC2012/output --imagenet_metadata_file=imagenet_metadata.txt --labels_file=imagenet_lsvrc_2015_synsets.txt

上面步骤执行完后，路径ILSVRC2012/output包含128个validation开头的验证集文件和1024个train开头的训练集文件。需要分别将验证集和数据集移动到slave节点的物理机上

mkdir -p /root/datasets/imagenet/train
mkdir -p /root/datasets/imagenet/val
mv ILSVRC2012/output/train-* /root/datasets/imagenet/train
mv ILSVRC2012/output/validation-* /root/datasets/imagenet/val

3.容器制作

(容器内执行)

物理机下载基础镜像

针对NVIDIA V100

docker pull nvidia/cuda:10.1-cudnn7-devel-ubuntu16.04

针对NVIDIA A100

docker pull nvidia/cuda:11.1-cudnn8-devel-ubuntu16.04

启动容器

针对NVIDIA V100

nvidia-docker run -it --name build_AIPerf -v /userhome:/userhome -v /root/datasets:/root/datasets nvidia/cuda:10.1-cudnn7-devel-ubuntu16.04

针对NVIDIA A100

nvidia-docker run -it --name build_AIPerf -v /userhome:/userhome -v /root/datasets:/root/datasets nvcr.io/nvidia/cuda:11.2.0-cudnn8-devel-ubuntu18.04

安装基础工具

apt update && apt install git vim cmake make openssh-client openssh-server wget tzdata  curl sshpass -y

配置ssh-server

开启ssh root登录权限,修改ssh配置文件 /etc/ssh/sshd_config

vim /etc/ssh/sshd_config

找到PermitRootLogin prohibit-password所在行，并修改为

PermitRootLogin yes

避免和物理机端口冲突，打开配置文件 /etc/ssh/sshd_config，修改ssh端口22为222

port 222

为root用户设置密码

passwd

密码设置为123123

配置时区

dpkg-reconfigure tzdata

选择Asia -> Shanghai

配置中文支持和环境变量

在/etc/bash.bashrc最后添加

export LANG=C.UTF-8
export TF_XLA_FLAGS="--tf_xla_auto_jit=2 --tf_xla_cpu_global_jit"

配置python运行环境

安装python3.5

apt install --install-recommends python3 python3-dev python3-pip -y

升级pip

pip3 install --upgrade pip

安装AIPerf

下载源代码到共享目录/userhome

git clone https://github.com/AI-HPC-Research-Team/AIPerf.git /userhome/AIPerf

安装python环境库

cd /userhome/AIPerf
pip3 install -r requirements.txt --timeout 3000
# For NVIDIA A100
# pip3 install -r requirements-a100.txt --timeout 3000

编译安装

source install.sh

检查AIPerf安装

执行

nnictl --help

如果打印帮助信息，则安装正常

安装slurm

apt install munge slurm-llnl -y

目录调整

创建必要的目录

mountdir 存放实验过程数据，nni存放实验过程日志

mkdir /userhome/mountdir
mkdir /userhome/nni

将共享目录下的相关目录链接到用户home目录下

ln -s /userhome/mountdir /root/mountdir
ln -s /userhome/nni /root/nni

必要的路径及数据配置

将权重文件复制到共享目录/userhome中

wget -P /userhome https://github.com/AI-HPC-Research-Team/Weight/releases/download/AIPerf1.0/resnet50_weights_tf_dim_ordering_tf_kernels.h5

4.容器部署

(物理机执行)

提交容器为镜像

sudo docker commit build_AIPerf aiperf:latest

导出镜像

将容器导出到之前创建好的共享目录/userhome，方便其它节点导入

sudo docker save -o /userhome/AIPerf.tar aiperf:latest

导入镜像

参与实验的所有节点导入镜像，由于镜像需要通过NFS传输到其他节点，需要一些时间

sudo docker load -i /userhome/AIPerf.tar

运行容器

参与实验的所有节点运行容器

sudo nvidia-docker run -it --net=host -v /userhome:/userhome -v /root/datasets:/root/datasets aiperf:latest

配置容器

(容器内操作)

所有节点容器重启ssh服务

service ssh restart

配置slurm

以下操作在master节点进行，slurm将获取所有slave节点中cpu核数最低的节点的核数，并将该核数配置为每个slave节点的最高可用核数，而并非每个节点各自的实际核数。

进入/userhome/AIPerf/scripts/autoconfig_slurm目录

cd /userhome/AIPerf/scripts/autoconfig_slurm

进行ip地址配置

将所有slave节点ip按行写入slaveip.txt。
将master节点ip写入masterip.txt。
确保所有节点的ssh用户、密码、端口是一致的，并根据自身情况修改 slurm_autoconfig.sh脚本中的用户名和密码。

运行自动配置脚本

bash slurm_autoconfig.sh

slurm配置完成后会提示当前所有节点最高可用核数并给出后续config.yml中slurm的运行参数srun --cpus-per-task=xx

检查slurm

执行命令查看所有节点状态

sinfo

如果所有节点STATE列为idle则slurm配置正确，运行正常。

如果STATE列为unk，等待一会再执行sinfo查看，如果都为idle，则slurm配置正确，运行正常。

如果STATE列的状态后面带*则该节点网络出现问题master无法访问到该节点。

二、Benchmark测试规范

为了使结果有效，测试满足的基本条件是：

测试运行时间应不少于1小时；
测试的计算精度不低于FP-16；
测试完成时所取得的最高正确率应大于70%；

初始化配置

(以下操作均在master节点进行) 根据需求修改/userhome/AIPerf/examples/trials/network_morphism/imagenet/config.yml配置

	可选参数	说明	默认值
1	trialConcurrency	同时运行的trial数	1
2	maxExecDuration	设置测试时间(单位：h)	12
3	CUDA_VISIBLE_DEVICES	指定测试程序可用的gpu索引	0,1,2,3,4,5,6,7
4	srun：--cpus-per-task=30	参数为slurm可用cpu核数减 1	30
5	--slave	跟 trialConcurrency参数保持一致	1
6	--ip	master节点ip	127.0.0.1
7	--batch_size	batch size	448
8	--epochs	正常训练epoch数	60
9	--initial_lr	初始学习率	1e-1
10	--final_lr	最终学习率	0
11	--train_data_dir	训练数据集路径	None
12	--val_data_dir	验证数据集路径	None
13	--warmup_1	warm up机制第一轮epoch数	15
14	--warmup_2	warm up机制第二轮epoch数	30
15	--warmup_3	warm up机制第三轮epoch数	45
16	--num_parallel_calls	tfrecord数据加载加速	48

可参照如下配置：

authorName: default
experimentName: example_imagenet-network-morphism-test
trialConcurrency: 1		# 1
maxExecDuration: 12h	# 2
maxTrialNum: 30000
trainingServicePlatform: local
useAnnotation: false
tuner:
 \#choice: TPE, Random, Anneal, Evolution, BatchTuner, NetworkMorphism
 \#SMAC (SMAC should be installed through nnictl)
 builtinTunerName: NetworkMorphism
 classArgs:
  optimize_mode: maximize
  task: cv
  input_width: 224
  input_channel: 3
  n_output_node: 1000
  
trial:
 command: CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7  \                                  # 3
       srun -N 1 -n 1 --ntasks-per-node=1 \
       --cpus-per-task=30 \	  # 4
       python3 imagenet_train.py \
       --slave 1 \								  # 5
       --ip 127.0.0.1 \							  # 6
       --batch_size 448 \						  # 7
       --epoch 60 \						          # 8
       --initial_lr 1e-1 \						  # 9
       --final_lr 0 \						  # 10
       --train_data_dir /root/datasets/imagenet/train/ \  # 11
       --val_data_dir /root/datasets/imagenet/val/ # 12

 codeDir: .
 gpuNum: 0

运行benchmark

在/userhome/AIPerf/examples/trials/network_morphism/imagenet/目录下执行以下命令运行用例

nnictl create -c config.yml

查看运行过程

执行以下命令查看正在运行的experiment的trial运行信息

nnictl top

当测试运行过程中，运行以下程序会在终端打印experiment的Error、Score、Regulated Score等信息

python3 /userhome/AIPerf/scripts/reports/report.py --id  experiment_ID

停止实验

停止expriments, 执行

nnictl stop

通过命令squeue查看slurm中是否还有未被停止的job，如果存在job且ST列为CG，请等待作业结束，实验才算完全停止。

查看实验报告

当测试运行过程中（超过15mins），运行以下程序会在终端打印experiment的Error、Score、Regulated Score等信息

python3 /userhome/AIPerf/scripts/reports/report.py --id  experiment_ID

同时会产生实验报告存放在experiment_ID的对应路径/userhome/mountdir/nni/experiments/experiment_ID/results目录下

实验成功时报告为 Report_Succeed.html

实验失败时报告为 Report_Failed.html

实验失败会报告失败原因，请查阅AI Benchmark测试规范分析失败原因

保存日志&结果数据

运行以下程序可将测试产生的日志以及数据统一保存到/userhome/mountdir/nni/experiments/experiment_ID/results/logs中，便于实验分析

python3 /userhome/AIPerf/scripts/reports/report.py --id  experiment_ID  --logs True

由于实验数据在复制过程中会导致额外的网络、内存、cpu等资源开销，建议在实验停止/结束后再执行日志保存操作。

三、测试参数设置及推荐环境配置

可变设置

slave计算节点的GPU卡数：默认将单个物理服务器作为一个slave节点，并使用其所有GPU；
深度学习框架：默认使用keras+tensorflow；
数据集加载方式：默认将数据预处理成TFRecord格式，以加快数据加载的效率；
数据集存储方式：默认采用网络共享存储；
超参设置：默认初始batch size=448，默认初始学习率=0.1，默认最终学习率=0，默认正常训练epochs=60，默认从第四轮trial开始，每个trial搜索1次，默认超参为kernel size和batch size。

Benchmark报告反馈

若测试中遇到问题，请联系[email protected]，并附上/userhome/mountdir/nni/experiments/experiment_ID/results/中的html版报告。

许可

基于 MIT license

Name		Name	Last commit message	Last commit date
Latest commit History 52 Commits
examples/trials/network_morphism		examples/trials/network_morphism
scripts		scripts
src		src
tools		tools
LICENSE		LICENSE
Makefile		Makefile
README.Makefile.md		README.Makefile.md
README.Makefile_zh_CN.md		README.Makefile_zh_CN.md
README.md		README.md
_config.yml		_config.yml
azure-pipelines.yml		azure-pipelines.yml
crowdin.yml		crowdin.yml
install.ps1		install.ps1
install.sh		install.sh
logo.JPG		logo.JPG
logo_PCL.jpg		logo_PCL.jpg
logo_THU.jpg		logo_THU.jpg
package-lock.json		package-lock.json
pylintrc		pylintrc
requirements-a100.txt		requirements-a100.txt
requirements.txt		requirements.txt
setup.py		setup.py
uninstall.ps1		uninstall.ps1

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AIPerf Benchmark v1.0

Benchmark结构设计

Benchmark安装说明

一、Benchmark环境配置、安装要求

1.物理机环境配置

2.数据集制作

3.容器制作

4.容器部署

二、Benchmark测试规范

初始化配置

运行benchmark

停止实验

三、测试参数设置及推荐环境配置

可变设置

推荐环境配置

Benchmark报告反馈

许可

About

Releases

Packages

Languages

License

LTTTDH/AIPerf

Folders and files

Latest commit

History

Repository files navigation

AIPerf Benchmark v1.0

Benchmark结构设计

Benchmark安装说明

一、Benchmark环境配置、安装要求

1.物理机环境配置

2.数据集制作

3.容器制作

4.容器部署

二、Benchmark测试规范

初始化配置

运行benchmark

停止实验

三、测试参数设置及推荐环境配置

可变设置

推荐环境配置

Benchmark报告反馈

许可

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages