深度学习框架 人工智能操作系统 训练&前向推理

OneFlow & 清华计图Jittor & 华为深度学习框架MindSpore & 旷视深度学习框架MegEngine(天元) & caffe & Google的TFBOYS & Facebook的Pytorch & XLA


华为 mindspore

清华计图Jittor gt

依赖: sudo apt install python3.7-dev libomp-dev pip3 install pybind11 numpy tqdm pillow astunparse six wheel


旷视深度学习框架MegEngine gt



基于ARM-v8的Tengine GEMM教程



深度学习编译器,一般是分两阶段优化,一个是high level optimization, 譬如在XLA里叫HLO, 这部分做硬件无关优化; 还有一个阶段是代码生成阶段,即codegen,和硬件体系结构相关。不同的编译器在这俩阶段的处理上各有所长。第一阶段的问题基本上被解决了,难的是第二阶段。

深度学习编译器的价值取决于AI芯片的前途。AI芯片上开发编译器的难度不高,基本上和在GPU上调用cublas, cudnn写程序差不多,因为基本的张量运算都用专用电路固化了,没啥可优化的(当然访存和计算做流水还是要做的),为某款AI芯片研发深度学习编译器,可能只需要关注第一阶段的问题(HLO),不需要解决第二阶段的问题(codegen)。如果对专用芯片上代码怎么写感兴趣,可参照Glow, 它提供了一个为Habana 后端,这可能是唯一一个开源的AI芯片代码示例。


1、前端用DSL还是限定一个算子集合。XLA没有DSL,而是限定了一些基本算子,element-wise, map, reduce, broadcast, matmul 等等,蛮像函数式编程里面那些基本运算,用这些基本算子可以搭建起来tensorflow 里绝大多数更上层的算子,譬如batchnorm, softmax等。这么做当然限制了表示能力,但却给第二阶段codegen 带来极大便利,因为它只需要为这些限定的算子emit LLVM IR, 用固定的套路即可,相当于逃避了第二阶段优化那个难题。Glow实际上采用了和XLA相似的策略,对于第二步取了个巧,对于常见的矩阵运算算子提供了代码生成的模板,用模板并不意味着对不同的参数(譬如矩阵的长宽)都生成一样的代码。模板里面的参数是可调的,这样如果输入代码超参数不同,它也会针对不同的超参数做一些对应的优化。所以对于XLA和Glow可观赏的只有HLO这一层,这也是比较务实的做法,因为第二阶段优化太难了。TVM,TC, Tiramisu, PlaidML使用了DSL,这使得它们能表示的运算范围更广,当然也直面了第二阶段优化的挑战,这也是这些编译器出彩的地方,我们在下一个要点里讨论第二阶段优化。对第一阶段优化来说,XLA做的相当全面了,可能是最全面的。

2,剑宗还是气宗?在特定体系结构上自动生成最优代码,可以看出有俩套路,一个套路可以称之为剑宗,也好似一种自底向上的办法,即把专家手工优化代码的经验提炼出来,形成一些粗线条的rule(规则), 这是TVM的路线,也就是来自Halide的思路,那些rule称为schedule,Halide的最重要贡献是提出了问题表示方法,但没有解决自动化这个问题,当然自动化问题很困难。还有一个套路可称之为气宗,寻求一种高层次的数学抽象来描述和求解代码生成问题,这个代表就是TC, Tiramisu, MLIR等依赖的Polyhedral method(多面体方法)。


Polyhedral method 是一种对多重循环程序的表示方法,问题表示出来之后,并不一定要借助isl求解。isl是什么?对一个比较复杂的cost model, 一个polyhedral 表示的计算,生成什么样的代码最优?这是一个离散解空间上的组合优化问题,有时可描述成整数线性规划,isl (integer set library)就是来求解这个问题的一个开源库。像TC, Tiramisu 用了isl, PlaidML和MLIR仅仅用了多面体表示却没有借助isl, 猜测:问题搜索空间太大时,isl 也不行。多面体方法只解决表示问题,不解决自动化问题。

用多面体与否实际上和前端是否用DSL也有关,用Polyhedral 的都用DSL, 表明多面体的表达能力和能求解的问题范围非常广,用DSL但不用Polyhedral 也有,譬如Halide, TVM, Tiramisu 作者对Halide表达能力有所批评,需要注意的是, Halide和Tiramisu 作者们其实是同一位MIT教授的学生,这是自己对自己的批评。

polyhedral 是近些年发展出来的最优雅的抽象方法,是并行编译领域的一种数学抽象,利用空间几何的仿射变换来实现循环优化。

Pluto是众多Polyhedral编译器中应用范围最广、最成功的编译器之一,以该编译器为平台实现的Pluto调度算法代表了Polyhedral model调度最先进的研究水平。Pluto编译器是一个很好的开发程序并行性和数据局部性的优化工具。

Pluto调度算法至今在众多领域包括将机器学习算法部署在特定加速部件等方面都发挥着重要作用。所以,Pluto编译器是一个很好的循环优化工具,也是研究Polyhedral model一个很好的平台。 Pluto编译器是一个从C程序到OpenMP的source-to-source编译器。

polyhedral compilation的研究内容分为依赖关系分析、调度变换和代码生成几个部分。当然,在做这些之前,polyhedral需要用一个parser来做解析,现在比较常用的parser是pet(“Polyhedral extraction tool”(IMPACT 2012))还有clan。polyhedral涉及到的工具及其链接大部分可以在polyhedral.info这个网站上找到。

现在的polyhedral研究大多被认为是由Feautrier针对数据流分析的工作“Dataflow analysis of array and scalar references”(IJPP 1991)奠基而来的。数据流分析的优势在于把依赖关系分析的粒度从语句细化到语句的实例,所以结果比传统的依赖关系分析结果更精确。但是在polyhedral里面的依赖关系分析,我并不会推荐去读这篇文章,因为这篇文章 比较难懂,我更推荐去看Pugh的“The Omega test: a fast and practical integer programming algorithm for dependence analysis”(ICS 1991)这篇文章,这篇文章对polyhedral的思维构建很有帮助。


现在大部分的polyhedral算法是Bondhugula的pluto算法“A practical automatic polyhedral parallelizer and locality optimizer”(PLDI 2008),这个算法是真正让polyhedral前后贯通的一个scheduling算法。如果对scheduling算法感兴趣,我会建议去阅读pluto算法或者Bondhugula的博士论文“Effective Automatic Parallelization and Locality Optimization using the Polyhedral Model”,这个算法也是Pluto编译器的核心。Bondhugula对scheduling算法后续做了许多优化和提升例如Pluto+,这部分可以参考他的个人主页。

polyhedral的代码生成工具主要有CodeGen+,“Code generation for multiple mappings”(Frontiers 1995)和CLooG,“Code generation in the polyhedral model is easier than you think”(PACT 2004)两个工具。CodeGen+部分主要是在Omega库里使用,而CLooG和CodeGen+的代码生成方式有一些不同。这两篇文章都值得去看一下,了解一下如何生成代码。不过,“Polyhedral AST generation is more than scanning polyhedra”(TOPLAS 2015)这篇文章我建议对AST生成部分有兴趣的话可以仔细阅读一下,这个长达50页的文章系统地介绍了如何生成循环的边界、控制流条件语句还有避免代码膨胀等问题。



1). 编译优化适合解决给定策略,涉及较多routine性质tedious work的问题。比如我们知道loop unrolling会可能带来性能收益是一个策略问题,但是按什么样的strides来unroll,是一个trial-and error的问题。以及我们都知道对于GEMM进行分tile计算可以提升计算访存比,这是一个策略问题,但是给定一款硬件,按什么尺寸,在什么维度上分tile则是一个trial-and-error的问题。这类问题,适合采取编译优化的手段来解,也往往是编译优化能够在生产效率上显著优于手工优化的地方;

2). 手工优化适合那种不容易精确形式化描述成一个清晰策略,带有一定非逻辑思维的直觉性质(由我们认识规律的能力水平决定)的问题,往往涉及到全局性质优化的问题具备这种性质。比如最近我们针对TensorCore在进行手工优化,会在访存pattern上进行精细的优化,以期最大可能将计算与访存overlap,就会发现涉及到精细的访存排布,至少基于目前我们对TVM schedule描述的理解,如果只是基于TVM显式提供的schedule,不去手写TVM IR,是不容易表达出来的。实际上TVM在设计上提供了Tensorize/intrinsics的接口,也是在一定程度上需要将手工优化的经验嵌入到优化流程里,但也并不是所有的手工优化都可以基于目前的tensorize/intrinsics机制来完成扩充的。

3).手工优化是可能向编译优化迁移的。比如通过扩展编译引擎的内核,来加入对应的支持。比如我们最近在TVM社区里针对NV GPU TensorCore提供了基于graph/IR pass/codegen模块改造的作法,能够做到用户完全无感,自动完成TensorCore kernel优化生成的效果,而社区的另一个相关工作作法则是需要显式提供TensorCore相关intrinsics的描述,将一部分工作offload到用户层。这算是一个手工优化,向编译优化层次迁移的示例。

4).总会有些优化在编译优化层面完成会存在事倍功半的效果,这类优化我们就应该考虑either是通过手工优化扩充,或是通过提供pre-defined library,甚至runtime强化的方式来进行协同优化,而不是什么优化都往编译层面压。反过来也一样。手工优化可以在极限场景下找到非常精细的性能优化空间,但是并不是所有的手工优化所探索的性能空间都复杂精细到编译优化不能支持的程度。找到不同技术适合的土壤就好。之前跟NV的同学沟通,他们针对TensorCore kernel的支持,考虑采取设计若干个小的recipe,recipe提供可定制的可能,再进行拼装组合来实现不同尺寸的GEMM kernel,这种作法,包括CUTLASS的设计思想,在我看来,都具备了一定的将手工优化的经验向编译优化层次转移的味道,只是程度不同而已。





Google的Tensorflow最早是按照GraphMode来设计的,GraphMode是系统同学比较偏爱的一个架构。用户通过申明式的API来定义好模型,然后后面具体的优化、执行都交给后端的系统。由于系统能够一次能够拿到整个执行的Graph,因此系统同学便有足够的空间对系统做各种优化。比如在Tensorflow里面,我们可以做各种类型的优化,包括Placement的优化、图优化(Grappler)、内存优化、分布式优化等。不过GraphMode有一个弊端,就是模型调试。许多使用Tensorflow的算法同学对于运行过程中遇到的各种千奇百怪的问题都感到束手无策。不过需要说的是,从Tensorflow上来看的话Google在整个AI系统领域的布局是最完善的,从底层的芯片(推理、训练、端)、到深度学习框架(Tensorflow、、XLA),再到模型部署(TF Serving、TFLite),最后再到TF的训练链路(TFX、TF.js、Tensorboard、federated)。从这些布局来看,整个Tensorflow的设计完全体现出了Google的系统深度,并完全引领了整个AI系统。


PyTorch从一开始就是按照EagerMode来进行架构实现。和Tensorflow v1.0对比,PyTorch非常灵活,对于开发者极其友好。因此,在开发者社区上PyTorch很快就逼近了Tensorflow,从最近两年的论文应用上我们也能看到PyTorch的引用数和Tensorflow越来越接近。从这个角度来看会给人一个感觉就是Tensorflow起了个大早赶了个晚集。我们也能看到Tensorflow也在2.0里面也开始支持EagerMode并将EagerMode设置为默认的运行模式,希望能够补齐易用性这个短板。不过其实对于Tensorflow而言转型支持EagerMode其实不容易。就像前面说道的,Tensorflow自身的架构是完全按照GraphMode来设计的,因此为了支持EagerMode,Tensorflow自身的改动也是很痛苦,从Tensorflow的代码来看许多地方都加入了if(eager_mode)这样的判断条件。不过PyTorch也不是完美无缺。对于PyTorch的开发者而言,PyTorch模型的Deployment过程是一个痛苦的过程。这也是在工业界Tensorflow相比较PyTorch更受欢迎的一个重要原因。




自动并行 Auto Parallel


在深度学习这个领域存在多种并行的范式,比如数据并行(Data Paralle),模型并行(Model Parallel),混合并行(Hybrid Parallel)等。目前在深度学习分布式执行这个领域应用最多的还是数据并行,也就是Data Parallel。业内多个框架,比如Horovod,Tensorflow的DistributeStrategy,PyTorch的DDP,这些都是数据并行的分布式框架。数据并行就是将模型在多个设备上进行复制并行训练,同时基于NCCL进行梯度同步,从而达到分布式执行的效果。数据并行这个架构比较简洁,模型构建也比较清晰,因此目前绝大部分任务都是采用数据并行的训练方式。

MindSpore里面也支持基本的数据并行能力。不过从MindSpore里面他着重强调的是自动并行。这里的自动并行是指从众多的并行可能性里面搜寻出一种最优的并行执行方式,比如将部分算子进行自动拆分从而达到一个比较好的并行效果。从下面的图里面我们能够看到MindSpore的自动并行是基于一个Cost Model来进行并行策略的评估。通过Cost Model,我们可以对不同的并行策略进行评估,从而可以选择一个cost最小的并行策略。在Cost Model里面,我们通常会对通信的cost、计算的cost、算子拆分的cost等进行评估。并行策略的搜寻算法在MindSpore里面我们看到使用了动态规划(dynamic programming)和递归算法(recursive programming)。




1,熟悉常见深度学习模型,CNN, GAN, RNN/LSTM, BERT, Transformer;

2,熟悉后向误差传播算法(BP),完成从标量求导到矩阵求导思维方式的转换,熟悉常见算子的梯度推导(矩阵乘,卷积, 池化,Relu,如果会batch normalization 就一步到位了);


4,熟悉cuda编程(举一反三),熟悉cuda高阶用法,event, stream, 异步/同步,会优化常见cuda kernel, element-wise, reduce, broadcast, MatMul, conv, pooling 等;

5,熟悉c++和python, 对c++高级用法感到舒服,各种模式,惯用法,模板;熟悉vim, gdb 程序调试;

6,熟悉socket, RDMA编程,熟悉常见collective operation代价分析,譬如ring allreduce, tree allreduce 代价分析;

7,熟悉多线程编程,熟悉锁,条件变量,内核线程,用户级线程,对actor, CSP(coroutine)各种技术熟悉;

8,熟悉编译器基本原理,parser什么的不重要,主要是dataflow分析,灵活运用;熟悉多重循环程序优化技巧,譬如polyhedral 模型;

9,熟悉常见分布式系统原理,mapreduce, spark, flink, tensorflow 等;

10,熟悉计算机体系机构,量化分析方法,Amdahl' Law, Roofline Model, 流水线分析(譬如David Patterson 那本书);


12,programming language 原理,命令式编程,函数式编程,逻辑编程,入门书《程序的构造与解释》?

13,熟悉项目构建原理,compiler, assembler, linker, loader之类,有一本书《程序员的自我修养》有比较全面覆盖。

编译器书籍 现代体系结构的优化编译器 高级编译器设计与实现

目标检测 yolov3相关 darknet框架


caffe 实现 MobileNet-YOLOv3

Translate darknet to tensorflow darkflow

FOR Raspberry Pi 3

基于YOLO的3D目标检测:YOLO-6D bounding box在2D图像上的投影的1个中心点和8个角点 + 置信度 + 类别C

yolov1 赛灵思(Xilinx) ZCU102 SoC 16bit量化 x86 / ARM NEON优化加速

自动标注图片工具 A self automatically labeling tool

0. darknet 项目主页

darknet yolov3

darknet yolov3 from scratch in PyTorch 详细

yolov3 PyTorch github

darknet yolov2

darknet yolov1

YOLOv3_SpringEdition C++ Windows and Linux interface library. (Train,Detect both)


1. 多级预测(多尺度预测)

终于为 YOLO 增加了 top down 的多级预测,解决了 YOLO 颗粒度粗,对小目标无力的问题。
v2 只有一个 detection,v3 一下变成了 3 个,分别是一个下采样的,feature map 为 13*13,
还有 2 个上采样的 eltwise sum,feature map 为 26*26,52*52,
也就是说 v3 的 416 版本已经用到了 52 的 feature map,
而 v2 把多尺度考虑到训练的 data 采样上,最后也只是用到了 13 的 feature map,这应该是对小目标影响最大的地方。
在论文中从单层预测五种 boundingbox 变成 每层 3 种 boundongbox(3*3=9种)。

2. loss不同

作者 v3 替换了 v2 的 softmax loss 变成 logistic loss,
由于每个点所对应的 bounding box 少并且差异大,
每个 bounding 与 ground truth 的 matching 策略变成了 1 对 1。

当预测的目标类别很复杂的时候,采用 logistic regression 进行分类是更有效的,
比如在 Open Images Dataset 数据集进行分类。
如果使用 softmax 则意味着每个候选框只对应着一个类别,但是实际上并不总是这样。

3. 加深网络

采用简化的 residual block 取代了原来 1×1 和 3×3 的 block,
其实就是加了一个 shortcut(直通捷径),也是网络加深必然所要采取的手段(梯度就可以传播的更远)。
这和上一点是有关系的,v2 的 darknet-19 变成了 v3 的 darknet-53,
另外作者还是用了一连串的  3*3、1*1 卷积,3*3 的卷积增加 channel,
而 1*1 的卷积在于压缩 3*3 卷积后的特征表示。

4. Router

由于 top down 的多级预测,进而改变了 router(或者说 concatenate,不同尺度特征的融合方式)时的方式,
将原来诡异的 reorg(大尺度拆分成小尺度) 改成了 upsample(上采样合并)。


YOLO 让人联想到龙珠里的沙鲁(cell),不断吸收同化对手,进化自己,提升战斗力:
YOLOv1 吸收了 SSD 的长处(加了 BN 层,扩大输入维度,使用了 Anchor,训练的时候数据增强),进化到了 YOLOv2; 
吸收 DSSD 和 FPN 的长处,仿 ResNet 的 Darknet-53,仿 SqueezeNet 的纵横交叉网络,又进化到 YOLO 第三形态。 


mask = 0,1,2
## 9组anchor对应9个框框
anchors = 10,13,  16,30,  33,23,  30,61,  62,45,  59,119,  116,90,  156,198,  373,326
classes=20   ## VOC20类
ignore_thresh = .5
truth_thresh = 1
没有使用v2中的softmax或softmax tree,而是直接使用了logistic变换。
for (b = 0; b < l.batch; ++b){
    for(n = 0; n < l.n; ++n){
        int index = entry_index(l, b, n*l.w*l.h, 0);
        // 对 tx, ty(4个边框参数) 进行logistic变换
        activate_array(l.output + index, 2*l.w*l.h, LOGISTIC);
        index = entry_index(l, b, n*l.w*l.h, 4);
        // 对confidence和C类 进行logistic变换
        activate_array(l.output + index, (1+l.classes)*l.w*l.h, LOGISTIC);


for (j = 0; j < l.h; ++j) {
    for (i = 0; i < l.w; ++i) {
        for (n = 0; n < l.n; ++n) {
            // 对每个预测的 bounding box
            // 找到与其IoU最大的 ground truth
            int box_index = entry_index(l, b, n*l.w*l.h + j*l.w + i, 0);
            box pred = get_yolo_box(l.output, l.biases, l.mask[n], box_index, i, j, l.w, l.h, net.w, net.h, l.w*l.h);
            float best_iou = 0;
            int best_t = 0;
            for(t = 0; t < l.max_boxes; ++t){
                box truth = float_to_box(net.truth + t*(4 + 1) + b*l.truths, 1);
                if(!truth.x) break;
                float iou = box_iou(pred, truth);
                if (iou > best_iou) {
                    best_iou = iou;
                    best_t = t;
            int obj_index = entry_index(l, b, n*l.w*l.h + j*l.w + i, 4);
            avg_anyobj += l.output[obj_index];
            // 计算梯度
            // 如果大于ignore_thresh, 那么忽略
            // 如果小于ignore_thresh,target = 0
            // diff = -gradient = target - output
            // 为什么是上式,见下面的数学分析
  [obj_index] = 0 - l.output[obj_index];
            if (best_iou > l.ignore_thresh) {
      [obj_index] = 0;
            // 这里仍然有疑问,为何使用 truth_thresh? 这个值是1
            // 按道理,iou无论如何不可能大于1啊。。。
            if (best_iou > l.truth_thresh) {
                // confidence target = 1
      [obj_index] = 1 - l.output[obj_index];
                int class = net.truth[best_t*(4 + 1) + b*l.truths + 4];
                if ( class =[class];
                int class_index = entry_index(l, b, n*l.w*l.h + j*l.w + i, 4 + 1);
                // 对class进行求导
                delta_yolo_class(l.output,, class_index, class, l.classes, l.w*l.h, 0);
                box truth = float_to_box(net.truth + best_t*(4 + 1) + b*l.truths, 1);
                // 对box位置参数进行求导
                delta_yolo_box(truth, l.output, l.biases, l.mask[n], box_index, i, j, l.w, l.h, net.w, net.h,, (2-truth.w*truth.h), l.w*l.h);


// class是类别的ground truth
// classes是类别总数
// index是feature map一维数组里面class prediction的起始索引
void delta_yolo_class(float *output, float *delta, int index, 
  int class, int classes, int stride, float *avg_cat) {
    int n;
    // 这里暂时不懂
    if (delta[index]){
        delta[index + stride*class] = 1 - output[index + stride*class];
        if(avg_cat) *avg_cat += output[index + stride*class];
    for(n = 0; n < classes; ++n){
        // 见上,diff = target - prediction
        delta[index + stride*n] = ((n == class)?1 : 0) - output[index + stride*n];
        if(n == class && avg_cat) *avg_cat += output[index + stride*n];
// box delta这里没什么可说的,就是square error的求导
float delta_yolo_box(box truth, float *x, float *biases, int n, 
  int index, int i, int j, int lw, int lh, int w, int h, 
  float *delta, float scale, int stride) {
    box pred = get_yolo_box(x, biases, n, index, i, j, lw, lh, w, h, stride);
    float iou = box_iou(pred, truth);
    float tx = (truth.x*lw - i);
    float ty = (truth.y*lh - j);
    float tw = log(truth.w*w / biases[2*n]);
    float th = log(truth.h*h / biases[2*n + 1]);
    delta[index + 0*stride] = scale * (tx - x[index + 0*stride]);
    delta[index + 1*stride] = scale * (ty - x[index + 1*stride]);
    delta[index + 2*stride] = scale * (tw - x[index + 2*stride]);
    delta[index + 3*stride] = scale * (th - x[index + 3*stride]);
    return iou;

上面,我们遍历了每一个prediction的bounding box,下面我们还要遍历每个ground truth,根据IoU,为其分配一个最佳的匹配。

// 遍历ground truth
for(t = 0; t < l.max_boxes; ++t){
    box truth = float_to_box(net.truth + t*(4 + 1) + b*l.truths, 1);
    if(!truth.x) break;
    // 找到iou最大的那个bounding box
    float best_iou = 0;
    int best_n = 0;
    i = (truth.x * l.w);
    j = (truth.y * l.h);
    box truth_shift = truth;
    truth_shift.x = truth_shift.y = 0;
    for(n = 0; n <; ++n){
        box pred = {0};
        pred.w = l.biases[2*n]/net.w;
        pred.h = l.biases[2*n+1]/net.h;
        float iou = box_iou(pred, truth_shift);
        if (iou > best_iou){
            best_iou = iou;
            best_n = n;
    int mask_n = int_index(l.mask, best_n, l.n);
    if(mask_n >= 0){
        int box_index = entry_index(l, b, mask_n*l.w*l.h + j*l.w + i, 0);
        float iou = delta_yolo_box(truth, l.output, l.biases, best_n, 
          box_index, i, j, l.w, l.h, net.w, net.h,, 
          (2-truth.w*truth.h), l.w*l.h);
        int obj_index = entry_index(l, b, mask_n*l.w*l.h + j*l.w + i, 4);
        avg_obj += l.output[obj_index];
        // 对应objectness target = 1[obj_index] = 1 - l.output[obj_index];
        int class = net.truth[t*(4 + 1) + b*l.truths + 4];
        if ( class =[class];
        int class_index = entry_index(l, b, mask_n*l.w*l.h + j*l.w + i, 4 + 1);
        delta_yolo_class(l.output,, class_index, class, l.classes, l.w*l.h, &avg_cat);
        if(iou > .5) recall += 1;
        if(iou > .75) recall75 += 1;
        avg_iou += iou;

1.安装 编译darknet

git clone
cd darknet


安装了 opencv之后 可以打开opencv的编译选项
还有多线程 openMP选项

问题    problem:
/usr/bin/ld: 找不到 -lippicv
解决办法 solution:


我的liboppicv.a 在../opencv-3.1.0/3rdparty/ippicv/unpack/ippicv_lnx/lib/intel64/liboppicv.a

先cd 到上面这个路径下,然后sudo cp liboppicv.a /usr/local/lib 


   查看 opencv 是否安装成功    pkg-config --modversion opencv


如需GPU 注意千万不要忘了修改nvcc  实际cuda 安装路径


问题 找不到 cannot open shared object file: No such file or directory

进入目录:cd /etc/
创建:sudo vim opencv.conf
添加:/usr/local/lib           opencv的实际安装路径
执行:sudo ldconfig


scikit-image 安装

命令行安装 sudo apt-get install python-skimage

git clone

sudo apt-get install python-matplotlib python-numpy python-pil python-scipy python-

sudo apt-get install build-essential cython

cd scikit-image
pip install -U -e .

cython 0.25 版本

安装 sudo dpkg -i cython_0.25.2-2build3_amd64.deb 

git pull  # Grab latest source
python build_ext -i  # Compile any modified extensions

from google.protobuf.internal import enum_type_wrapper ImportError: No module named google.protobuf

sudo apt-get install python-protobuf

============================================ =============================================


  wget   对于coco数据集的

  yolo v2 的权重 大 网络
  wget         对于 coco数据集     yolov2.cfg
  ./darknet detect cfg/yolov2.cfg yolov2.weights data/dog.jpg  检测
  yolo v2 的权重 小 网络
  wget    对于 coco数据集     yolov2-tiny.cfg
  ./darknet detect cfg/yolov2-tiny.cfg yolov2-tiny.weights data/dog.jpg  检测

   yolo v2 的权重 大 网络
  wget        对于 voc数据集   yolov2-voc.cfg
  ./darknet detect cfg/yolov2-voc.cfg yolov2.weights data/dog.jpg  检测
  yolo v2 的权重 小 网络
  wget    对于 voc数据集     yolov2-tiny-voc.cfg
  ./darknet detect cfg/yolov2-tiny-voc.cfg yolov2-tiny-voc.weights data/dog.jpg  检测

  yolo v1 的权重 大 网络
  wget       对于 voc数据集
  ./darknet yolo test cfg/yolov1/yolo.cfg yolov1.weights data/dog.jpg   检测

  yolo v1 的权重 小 网络
  wget  对于 voc数据集
  ./darknet yolo test cfg/yolov1/tiny-yolo.cfg tiny-yolov1.weights data/person.jpg 检测


3.执行检测网络 标出框已经分类 和 置信度

  a.  yolo v3 检测
      ./darknet detect cfg/yolov3.cfg yolov3.weights data/dog.jpg
      (模型结构 和 置信度 检测时间 等信息  cpu上 6-12s/张 )
  layer     filters    size              input                output
      0 conv     32  3 x 3 / 1   416 x 416 x   3   --->   416 x 416 x  32  0.299 GFLOPs  all: 0.299 GFLOPs
      1 conv     64  3 x 3 / 2   416 x 416 x  32   --->   208 x 208 x  64  1.595 GFLOPs  all: 1.894 GFLOPs
      2 conv     32  1 x 1 / 1   208 x 208 x  64   --->   208 x 208 x  32  0.177 GFLOPs  all: 2.071 GFLOPs
      3 conv     64  3 x 3 / 1   208 x 208 x  32   --->   208 x 208 x  64  1.595 GFLOPs  all: 3.666 GFLOPs
      4 res    1                 208 x 208 x  64   ->   208 x 208 x  64
      5 conv    128  3 x 3 / 2   208 x 208 x  64   --->   104 x 104 x 128  1.595 GFLOPs  all: 5.261 GFLOPs
      6 conv     64  1 x 1 / 1   104 x 104 x 128   --->   104 x 104 x  64  0.177 GFLOPs  all: 5.438 GFLOPs
      7 conv    128  3 x 3 / 1   104 x 104 x  64   --->   104 x 104 x 128  1.595 GFLOPs  all: 7.033 GFLOPs
      8 res    5                 104 x 104 x 128   ->   104 x 104 x 128
      9 conv     64  1 x 1 / 1   104 x 104 x 128   --->   104 x 104 x  64  0.177 GFLOPs  all: 7.210 GFLOPs
     10 conv    128  3 x 3 / 1   104 x 104 x  64   --->   104 x 104 x 128  1.595 GFLOPs  all: 8.805 GFLOPs
     11 res    8                 104 x 104 x 128   ->   104 x 104 x 128
     12 conv    256  3 x 3 / 2   104 x 104 x 128   --->    52 x  52 x 256  1.595 GFLOPs  all: 10.400 GFLOPs
     13 conv    128  1 x 1 / 1    52 x  52 x 256   --->    52 x  52 x 128  0.177 GFLOPs  all: 10.577 GFLOPs
     14 conv    256  3 x 3 / 1    52 x  52 x 128   --->    52 x  52 x 256  1.595 GFLOPs  all: 12.172 GFLOPs
     15 res   12                  52 x  52 x 256   ->    52 x  52 x 256
     16 conv    128  1 x 1 / 1    52 x  52 x 256   --->    52 x  52 x 128  0.177 GFLOPs  all: 12.349 GFLOPs
     17 conv    256  3 x 3 / 1    52 x  52 x 128   --->    52 x  52 x 256  1.595 GFLOPs  all: 13.944 GFLOPs
     18 res   15                  52 x  52 x 256   ->    52 x  52 x 256
     19 conv    128  1 x 1 / 1    52 x  52 x 256   --->    52 x  52 x 128  0.177 GFLOPs  all: 14.121 GFLOPs
     20 conv    256  3 x 3 / 1    52 x  52 x 128   --->    52 x  52 x 256  1.595 GFLOPs  all: 15.716 GFLOPs
     21 res   18                  52 x  52 x 256   ->    52 x  52 x 256
     22 conv    128  1 x 1 / 1    52 x  52 x 256   --->    52 x  52 x 128  0.177 GFLOPs  all: 15.893 GFLOPs
     23 conv    256  3 x 3 / 1    52 x  52 x 128   --->    52 x  52 x 256  1.595 GFLOPs  all: 17.488 GFLOPs
     24 res   21                  52 x  52 x 256   ->    52 x  52 x 256
     25 conv    128  1 x 1 / 1    52 x  52 x 256   --->    52 x  52 x 128  0.177 GFLOPs  all: 17.666 GFLOPs
     26 conv    256  3 x 3 / 1    52 x  52 x 128   --->    52 x  52 x 256  1.595 GFLOPs  all: 19.260 GFLOPs
     27 res   24                  52 x  52 x 256   ->    52 x  52 x 256
     28 conv    128  1 x 1 / 1    52 x  52 x 256   --->    52 x  52 x 128  0.177 GFLOPs  all: 19.438 GFLOPs
     29 conv    256  3 x 3 / 1    52 x  52 x 128   --->    52 x  52 x 256  1.595 GFLOPs  all: 21.033 GFLOPs
     30 res   27                  52 x  52 x 256   ->    52 x  52 x 256
     31 conv    128  1 x 1 / 1    52 x  52 x 256   --->    52 x  52 x 128  0.177 GFLOPs  all: 21.210 GFLOPs
     32 conv    256  3 x 3 / 1    52 x  52 x 128   --->    52 x  52 x 256  1.595 GFLOPs  all: 22.805 GFLOPs
     33 res   30                  52 x  52 x 256   ->    52 x  52 x 256
     34 conv    128  1 x 1 / 1    52 x  52 x 256   --->    52 x  52 x 128  0.177 GFLOPs  all: 22.982 GFLOPs
     35 conv    256  3 x 3 / 1    52 x  52 x 128   --->    52 x  52 x 256  1.595 GFLOPs  all: 24.577 GFLOPs
     36 res   33                  52 x  52 x 256   ->    52 x  52 x 256
     37 conv    512  3 x 3 / 2    52 x  52 x 256   --->    26 x  26 x 512  1.595 GFLOPs  all: 26.172 GFLOPs
     38 conv    256  1 x 1 / 1    26 x  26 x 512   --->    26 x  26 x 256  0.177 GFLOPs  all: 26.349 GFLOPs
     39 conv    512  3 x 3 / 1    26 x  26 x 256   --->    26 x  26 x 512  1.595 GFLOPs  all: 27.944 GFLOPs
     40 res   37                  26 x  26 x 512   ->    26 x  26 x 512
     41 conv    256  1 x 1 / 1    26 x  26 x 512   --->    26 x  26 x 256  0.177 GFLOPs  all: 28.121 GFLOPs
     42 conv    512  3 x 3 / 1    26 x  26 x 256   --->    26 x  26 x 512  1.595 GFLOPs  all: 29.716 GFLOPs
     43 res   40                  26 x  26 x 512   ->    26 x  26 x 512
     44 conv    256  1 x 1 / 1    26 x  26 x 512   --->    26 x  26 x 256  0.177 GFLOPs  all: 29.893 GFLOPs
     45 conv    512  3 x 3 / 1    26 x  26 x 256   --->    26 x  26 x 512  1.595 GFLOPs  all: 31.488 GFLOPs
     46 res   43                  26 x  26 x 512   ->    26 x  26 x 512
     47 conv    256  1 x 1 / 1    26 x  26 x 512   --->    26 x  26 x 256  0.177 GFLOPs  all: 31.665 GFLOPs
     48 conv    512  3 x 3 / 1    26 x  26 x 256   --->    26 x  26 x 512  1.595 GFLOPs  all: 33.260 GFLOPs
     49 res   46                  26 x  26 x 512   ->    26 x  26 x 512
     50 conv    256  1 x 1 / 1    26 x  26 x 512   --->    26 x  26 x 256  0.177 GFLOPs  all: 33.437 GFLOPs
     51 conv    512  3 x 3 / 1    26 x  26 x 256   --->    26 x  26 x 512  1.595 GFLOPs  all: 35.032 GFLOPs
     52 res   49                  26 x  26 x 512   ->    26 x  26 x 512
     53 conv    256  1 x 1 / 1    26 x  26 x 512   --->    26 x  26 x 256  0.177 GFLOPs  all: 35.209 GFLOPs
     54 conv    512  3 x 3 / 1    26 x  26 x 256   --->    26 x  26 x 512  1.595 GFLOPs  all: 36.804 GFLOPs
     55 res   52                  26 x  26 x 512   ->    26 x  26 x 512
     56 conv    256  1 x 1 / 1    26 x  26 x 512   --->    26 x  26 x 256  0.177 GFLOPs  all: 36.981 GFLOPs
     57 conv    512  3 x 3 / 1    26 x  26 x 256   --->    26 x  26 x 512  1.595 GFLOPs  all: 38.576 GFLOPs
     58 res   55                  26 x  26 x 512   ->    26 x  26 x 512
     59 conv    256  1 x 1 / 1    26 x  26 x 512   --->    26 x  26 x 256  0.177 GFLOPs  all: 38.753 GFLOPs
     60 conv    512  3 x 3 / 1    26 x  26 x 256   --->    26 x  26 x 512  1.595 GFLOPs  all: 40.348 GFLOPs
     61 res   58                  26 x  26 x 512   ->    26 x  26 x 512
     62 conv   1024  3 x 3 / 2    26 x  26 x 512   --->    13 x  13 x1024  1.595 GFLOPs  all: 41.943 GFLOPs
     63 conv    512  1 x 1 / 1    13 x  13 x1024   --->    13 x  13 x 512  0.177 GFLOPs  all: 42.120 GFLOPs
     64 conv   1024  3 x 3 / 1    13 x  13 x 512   --->    13 x  13 x1024  1.595 GFLOPs  all: 43.715 GFLOPs
     65 res   62                  13 x  13 x1024   ->    13 x  13 x1024
     66 conv    512  1 x 1 / 1    13 x  13 x1024   --->    13 x  13 x 512  0.177 GFLOPs  all: 43.893 GFLOPs
     67 conv   1024  3 x 3 / 1    13 x  13 x 512   --->    13 x  13 x1024  1.595 GFLOPs  all: 45.487 GFLOPs
     68 res   65                  13 x  13 x1024   ->    13 x  13 x1024
     69 conv    512  1 x 1 / 1    13 x  13 x1024   --->    13 x  13 x 512  0.177 GFLOPs  all: 45.665 GFLOPs
     70 conv   1024  3 x 3 / 1    13 x  13 x 512   --->    13 x  13 x1024  1.595 GFLOPs  all: 47.260 GFLOPs
     71 res   68                  13 x  13 x1024   ->    13 x  13 x1024
     72 conv    512  1 x 1 / 1    13 x  13 x1024   --->    13 x  13 x 512  0.177 GFLOPs  all: 47.437 GFLOPs
     73 conv   1024  3 x 3 / 1    13 x  13 x 512   --->    13 x  13 x1024  1.595 GFLOPs  all: 49.032 GFLOPs
     74 res   71                  13 x  13 x1024   ->    13 x  13 x1024
     75 conv    512  1 x 1 / 1    13 x  13 x1024   --->    13 x  13 x 512  0.177 GFLOPs  all: 49.209 GFLOPs
     76 conv   1024  3 x 3 / 1    13 x  13 x 512   --->    13 x  13 x1024  1.595 GFLOPs  all: 50.804 GFLOPs
     77 conv    512  1 x 1 / 1    13 x  13 x1024   --->    13 x  13 x 512  0.177 GFLOPs  all: 50.981 GFLOPs
     78 conv   1024  3 x 3 / 1    13 x  13 x 512   --->    13 x  13 x1024  1.595 GFLOPs  all: 52.576 GFLOPs
     79 conv    512  1 x 1 / 1    13 x  13 x1024   --->    13 x  13 x 512  0.177 GFLOPs  all: 52.753 GFLOPs
     80 conv   1024  3 x 3 / 1    13 x  13 x 512   --->    13 x  13 x1024  1.595 GFLOPs  all: 54.348 GFLOPs
     81 conv    255  1 x 1 / 1    13 x  13 x1024   --->    13 x  13 x 255  0.088 GFLOPs  all: 54.436 GFLOPs
     82 detection
     83 route  79
     84 conv    256  1 x 1 / 1    13 x  13 x 512   --->    13 x  13 x 256  0.044 GFLOPs  all: 54.480 GFLOPs
     85 upsample            2x    13 x  13 x 256   ->    26 x  26 x 256
     86 route  85 61
     87 conv    256  1 x 1 / 1    26 x  26 x 768   --->    26 x  26 x 256  0.266 GFLOPs  all: 54.746 GFLOPs
     88 conv    512  3 x 3 / 1    26 x  26 x 256   --->    26 x  26 x 512  1.595 GFLOPs  all: 56.341 GFLOPs
     89 conv    256  1 x 1 / 1    26 x  26 x 512   --->    26 x  26 x 256  0.177 GFLOPs  all: 56.518 GFLOPs
     90 conv    512  3 x 3 / 1    26 x  26 x 256   --->    26 x  26 x 512  1.595 GFLOPs  all: 58.113 GFLOPs
     91 conv    256  1 x 1 / 1    26 x  26 x 512   --->    26 x  26 x 256  0.177 GFLOPs  all: 58.290 GFLOPs
     92 conv    512  3 x 3 / 1    26 x  26 x 256   --->    26 x  26 x 512  1.595 GFLOPs  all: 59.885 GFLOPs
     93 conv    255  1 x 1 / 1    26 x  26 x 512   --->    26 x  26 x 255  0.177 GFLOPs  all: 60.062 GFLOPs
     94 detection
     95 route  91
     96 conv    128  1 x 1 / 1    26 x  26 x 256   --->    26 x  26 x 128  0.044 GFLOPs  all: 60.106 GFLOPs
     97 upsample            2x    26 x  26 x 128   ->    52 x  52 x 128
     98 route  97 36
     99 conv    128  1 x 1 / 1    52 x  52 x 384   --->    52 x  52 x 128  0.266 GFLOPs  all: 60.372 GFLOPs
    100 conv    256  3 x 3 / 1    52 x  52 x 128   --->    52 x  52 x 256  1.595 GFLOPs  all: 61.967 GFLOPs
    101 conv    128  1 x 1 / 1    52 x  52 x 256   --->    52 x  52 x 128  0.177 GFLOPs  all: 62.144 GFLOPs
    102 conv    256  3 x 3 / 1    52 x  52 x 128   --->    52 x  52 x 256  1.595 GFLOPs  all: 63.739 GFLOPs
    103 conv    128  1 x 1 / 1    52 x  52 x 256   --->    52 x  52 x 128  0.177 GFLOPs  all: 63.916 GFLOPs
    104 conv    256  3 x 3 / 1    52 x  52 x 128   --->    52 x  52 x 256  1.595 GFLOPs  all: 65.511 GFLOPs
    105 conv    255  1 x 1 / 1    52 x  52 x 256   --->    52 x  52 x 255  0.353 GFLOPs  all: 65.864 GFLOPs
    106 detection
  Loading weights from yolov3.weights...Done!
  data/dog.jpg: Predicted in 0.025317 seconds.
  dog: 99%
  truck: 92%
  bicycle: 99%

  b. yolov2 检测
     ./darknet detect cfg/yolov2.cfg yolov2.weights data/dog.jpg
     layer     filters    size              input                output
      0 conv     32  3 x 3 / 1   416 x 416 x   3   --->   416 x 416 x  32  0.299 GFLOPs  all: 0.299 GFLOPs
      1 max          2 x 2 / 2   416 x 416 x  32   ->   208 x 208 x  32
      2 conv     64  3 x 3 / 1   208 x 208 x  32   --->   208 x 208 x  64  1.595 GFLOPs  all: 1.894 GFLOPs
      3 max          2 x 2 / 2   208 x 208 x  64   ->   104 x 104 x  64
      4 conv    128  3 x 3 / 1   104 x 104 x  64   --->   104 x 104 x 128  1.595 GFLOPs  all: 3.489 GFLOPs
      5 conv     64  1 x 1 / 1   104 x 104 x 128   --->   104 x 104 x  64  0.177 GFLOPs  all: 3.666 GFLOPs
      6 conv    128  3 x 3 / 1   104 x 104 x  64   --->   104 x 104 x 128  1.595 GFLOPs  all: 5.261 GFLOPs
      7 max          2 x 2 / 2   104 x 104 x 128   ->    52 x  52 x 128
      8 conv    256  3 x 3 / 1    52 x  52 x 128   --->    52 x  52 x 256  1.595 GFLOPs  all: 6.856 GFLOPs
      9 conv    128  1 x 1 / 1    52 x  52 x 256   --->    52 x  52 x 128  0.177 GFLOPs  all: 7.033 GFLOPs
     10 conv    256  3 x 3 / 1    52 x  52 x 128   --->    52 x  52 x 256  1.595 GFLOPs  all: 8.628 GFLOPs
     11 max          2 x 2 / 2    52 x  52 x 256   ->    26 x  26 x 256
     12 conv    512  3 x 3 / 1    26 x  26 x 256   --->    26 x  26 x 512  1.595 GFLOPs  all: 10.223 GFLOPs
     13 conv    256  1 x 1 / 1    26 x  26 x 512   --->    26 x  26 x 256  0.177 GFLOPs  all: 10.400 GFLOPs
     14 conv    512  3 x 3 / 1    26 x  26 x 256   --->    26 x  26 x 512  1.595 GFLOPs  all: 11.995 GFLOPs
     15 conv    256  1 x 1 / 1    26 x  26 x 512   --->    26 x  26 x 256  0.177 GFLOPs  all: 12.172 GFLOPs
     16 conv    512  3 x 3 / 1    26 x  26 x 256   --->    26 x  26 x 512  1.595 GFLOPs  all: 13.767 GFLOPs
     17 max          2 x 2 / 2    26 x  26 x 512   ->    13 x  13 x 512
     18 conv   1024  3 x 3 / 1    13 x  13 x 512   --->    13 x  13 x1024  1.595 GFLOPs  all: 15.362 GFLOPs
     19 conv    512  1 x 1 / 1    13 x  13 x1024   --->    13 x  13 x 512  0.177 GFLOPs  all: 15.539 GFLOPs
     20 conv   1024  3 x 3 / 1    13 x  13 x 512   --->    13 x  13 x1024  1.595 GFLOPs  all: 17.134 GFLOPs
     21 conv    512  1 x 1 / 1    13 x  13 x1024   --->    13 x  13 x 512  0.177 GFLOPs  all: 17.311 GFLOPs
     22 conv   1024  3 x 3 / 1    13 x  13 x 512   --->    13 x  13 x1024  1.595 GFLOPs  all: 18.906 GFLOPs
     23 conv   1024  3 x 3 / 1    13 x  13 x1024   --->    13 x  13 x1024  3.190 GFLOPs  all: 22.096 GFLOPs
     24 conv   1024  3 x 3 / 1    13 x  13 x1024   --->    13 x  13 x1024  3.190 GFLOPs  all: 25.286 GFLOPs
     25 route  16
     26 conv     64  1 x 1 / 1    26 x  26 x 512   --->    26 x  26 x  64  0.044 GFLOPs  all: 25.330 GFLOPs
     27 reorg              / 2    26 x  26 x  64   ->    13 x  13 x 256
     28 route  27 24
     29 conv   1024  3 x 3 / 1    13 x  13 x1280   --->    13 x  13 x1024  3.987 GFLOPs  all: 29.317 GFLOPs
     30 conv    425  1 x 1 / 1    13 x  13 x1024   --->    13 x  13 x 425  0.147 GFLOPs  all: 29.464 GFLOPs
     31 detection
  mask_scale: Using default '1.000000'
  Loading weights from yolov2.weights...Done!
  data/dog.jpg: Predicted in 0.009945 seconds.
  dog: 81%
  truck: 74%
  bicycle: 83%

  c. yolov1 测试
  ./darknet detector test cfg/ cfg/yolov1.cfg ../caffe-yolo/yolov1/yolov1.weights data/dog.jpg 
  layer     filters    size              input                output
      0 conv     64  7 x 7 / 2   448 x 448 x   3   --->   224 x 224 x  64  0.944 GFLOPs  all: 0.944 GFLOPs
      1 max          2 x 2 / 2   224 x 224 x  64   ->   112 x 112 x  64
      2 conv    192  3 x 3 / 1   112 x 112 x  64   --->   112 x 112 x 192  2.775 GFLOPs  all: 3.719 GFLOPs
      3 max          2 x 2 / 2   112 x 112 x 192   ->    56 x  56 x 192
      4 conv    128  1 x 1 / 1    56 x  56 x 192   --->    56 x  56 x 128  0.154 GFLOPs  all: 3.873 GFLOPs
      5 conv    256  3 x 3 / 1    56 x  56 x 128   --->    56 x  56 x 256  1.850 GFLOPs  all: 5.722 GFLOPs
      6 conv    256  1 x 1 / 1    56 x  56 x 256   --->    56 x  56 x 256  0.411 GFLOPs  all: 6.134 GFLOPs
      7 conv    512  3 x 3 / 1    56 x  56 x 256   --->    56 x  56 x 512  7.399 GFLOPs  all: 13.532 GFLOPs
      8 max          2 x 2 / 2    56 x  56 x 512   ->    28 x  28 x 512
      9 conv    256  1 x 1 / 1    28 x  28 x 512   --->    28 x  28 x 256  0.206 GFLOPs  all: 13.738 GFLOPs
     10 conv    512  3 x 3 / 1    28 x  28 x 256   --->    28 x  28 x 512  1.850 GFLOPs  all: 15.587 GFLOPs
     11 conv    256  1 x 1 / 1    28 x  28 x 512   --->    28 x  28 x 256  0.206 GFLOPs  all: 15.793 GFLOPs
     12 conv    512  3 x 3 / 1    28 x  28 x 256   --->    28 x  28 x 512  1.850 GFLOPs  all: 17.643 GFLOPs
     13 conv    256  1 x 1 / 1    28 x  28 x 512   --->    28 x  28 x 256  0.206 GFLOPs  all: 17.848 GFLOPs
     14 conv    512  3 x 3 / 1    28 x  28 x 256   --->    28 x  28 x 512  1.850 GFLOPs  all: 19.698 GFLOPs
     15 conv    256  1 x 1 / 1    28 x  28 x 512   --->    28 x  28 x 256  0.206 GFLOPs  all: 19.903 GFLOPs
     16 conv    512  3 x 3 / 1    28 x  28 x 256   --->    28 x  28 x 512  1.850 GFLOPs  all: 21.753 GFLOPs
     17 conv    512  1 x 1 / 1    28 x  28 x 512   --->    28 x  28 x 512  0.411 GFLOPs  all: 22.164 GFLOPs
     18 conv   1024  3 x 3 / 1    28 x  28 x 512   --->    28 x  28 x1024  7.399 GFLOPs  all: 29.563 GFLOPs
     19 max          2 x 2 / 2    28 x  28 x1024   ->    14 x  14 x1024
     20 conv    512  1 x 1 / 1    14 x  14 x1024   --->    14 x  14 x 512  0.206 GFLOPs  all: 29.768 GFLOPs
     21 conv   1024  3 x 3 / 1    14 x  14 x 512   --->    14 x  14 x1024  1.850 GFLOPs  all: 31.618 GFLOPs
     22 conv    512  1 x 1 / 1    14 x  14 x1024   --->    14 x  14 x 512  0.206 GFLOPs  all: 31.824 GFLOPs
     23 conv   1024  3 x 3 / 1    14 x  14 x 512   --->    14 x  14 x1024  1.850 GFLOPs  all: 33.673 GFLOPs
     24 conv   1024  3 x 3 / 1    14 x  14 x1024   --->    14 x  14 x1024  3.699 GFLOPs  all: 37.373 GFLOPs
     25 conv   1024  3 x 3 / 2    14 x  14 x1024   --->     7 x   7 x1024  0.925 GFLOPs  all: 38.298 GFLOPs
     26 conv   1024  3 x 3 / 1     7 x   7 x1024   --->     7 x   7 x1024  0.925 GFLOPs  all: 39.222 GFLOPs
     27 conv   1024  3 x 3 / 1     7 x   7 x1024   --->     7 x   7 x1024  0.925 GFLOPs  all: 40.147 GFLOPs
     28 Local Layer: 7 x 7 x 1024 image, 256 filters -> 7 x 7 x 256 image
     29 dropout       p = 0.50               12544  ->  12544
     30 connected                            12544  ->  1715
     31 Detection Layer
  forced: Using default '0'
  Loading weights from ../caffe-yolo/yolov1/yolov1.weights...Done!
  data/dog.jpg: Predicted in 1.231002 seconds.
  car: 55%

   ============================================== ==============================================

4. 其他图片

data/eagle.jpg, data/dog.jpg, data/person.jpg, data/horses.jpg



./darknet detector test cfg/ cfg/yolov3.cfg yolov3.weights data/dog.jpg


6、检测多幅图像 会提示输入图像 检测完成 再次提示输入图像

./darknet detect cfg/yolov3.cfg yolov3.weights



./darknet detect cfg/yolov3.cfg yolov3.weights data/dog.jpg -thresh 0


8、网络摄像头 实时检测

./darknet detector demo cfg/ cfg/yolov3.cfg yolov3.weights



./darknet detector demo cfg/ cfg/yolov3.cfg yolov3.weights <video file>


9.5 训练问题记录


Tips0: 数据集问题


Tips1: CUDA: out of memory 以及 resizing 问题

显存不够,调小batch,关闭多尺度训练:random = 0。

Tips2: 在迭代前期,loss很大,正常吗?


Tips3: YOLOV3中的mask作用?

   三个尺度上预测不同大小的框    82卷积层 为最大的预测尺度,使用较大的mask,但是可以预测出较小的物体    94卷积层 为中间的预测尺度,使用中等的mask,    106卷积层为最小的预测尺度,使用较小的mask,可以预测出较大的物体

Tips4: YOLOV3中的num作用? 

   总共提供9种不同尺度的先验框,    每个尺度预测三种,先验框。预测20类的话,3*(5+20)=75

Tips5: YOLOV3训练出现nan的问题?


Tips6: Anchor box作用是?

   F-rcnn使用人工指定的预设款尺寸,可能没有宏观特性    在数据集上 对真实边框 使用 K-means 聚类得到的边款长宽比例更具有宏观特性    预测的坐标值是,相对应格子的坐上点的偏移量    而长宽是相对于 整幅图像大小的比例,    b.w = exp(x[index + 2stride]) * biases[2n]/w b.h = exp(x[index + 3stride]) * biases[2n+1]/h    x[] 为网络输出    biases[]为 预设边框的大小    意识就是说,每个格子预测的边框输出为0~1之间    且网络输出 x[] 是相对于预设格子尺寸的 指数对数    就是在预设格子尺寸上调整,预测输出

   v2 版本的格子尺寸 cfg文件中定义的是 相对于最后特征图(原图/32)    v3 版本的格子尺寸 cfg文件中定义的是 相对于网络输入图的尺寸


   迭代次数小于1000时,每100次保存一次,大于1000时,没10000次保存一次。 自己可以根据需求进行更改,然后重新编译即可[ 先 make clean ,然后再 make]。   代码位置: examples/detector.c line 138    if(i%10000 == 0) || (i<1000 && i%100 == 0)

Tips8: 中文标签

A:首先生成对应的中文标签, 修改代码中的字体,将其替换成指中文字体,如果提示提示缺少**模块,安装就行了。




Tips9: 图片上添加置信值




10.在 Pascal VOC 数据集上训练


10.1 Pascal VOC数据集介绍:

给定自然图片, 从中识别出特定物体。



  ├── VOC2007
  │   ├── Annotations           // 放的是.xml文件
  │   ├── ImageSets             // 稍微复杂
  │   ├── JPEGImages            // 存放的是对应的.jpg图像
  │   ├── SegmentationClass     // 语义分割类
  │   └── SegmentationObject    // 语义分割区域
  └── VOC2012
      ├── Annotations
      ├── ImageSets
      ├── JPEGImages
      ├── SegmentationClass
      └── SegmentationObject

  ImageSets目录中结构如下, 主要关注的是Main文件夹中的trainval.txt, train.txt , val.txt以及test.txt四个文件.

  ├── Layout
  │   ├── test.txt
  │   ├── train.txt
  │   ├── trainval.txt
  │   └── val.txt
  ├── Main
  │   ├── aeroplane_test.txt
  │   ├── aeroplane_train.txt
  │   ├── aeroplane_trainval.txt
  │   ├── aeroplane_val.txt
  │   ├── ...
  │   ├── test.txt       //重要
  │   ├── train.txt      //重要    
  │   ├── trainval.txt   //重要
  │   └── val.txt        //重要
  └── Segmentation
      ├── test.txt
      ├── train.txt
      ├── trainval.txt
      └── val.txt

  调整自己数据集的格式 成 voc数据及格式:

  1 . 首先是把之前杂乱的图片文件名重新整理, 如下所示:

  ├── image00001.jpg
  ├── image00002.jpg
  ├── image00012.jpg
  ├── ...
  ├── image04524.jpg
  ├── image04525.jpg
  └── image04526.jpg
  2. 随后用labelImg重新标注这些图. 标注完成后, 建立我们自己的数据集的结构, 
    ├── ROB2017
    │   ├── Annotations
    │   ├── ImageSets
    │   ├── JPEGImages
    │   └── JPEGImages_original
    └── scripts
        ├── conf.json

  之后写了几个脚本, 其中clean.py用来清理未标注的图片; 
  split_dataset.py用来分割训练集验证集测试集, 并且保存到ImageSets/Main中.

 ### 10.2 下载数据集: wget wget wget tar xf VOCtrainval_11-May-2012.tar tar xf VOCtrainval_06-Nov-2007.tar tar xf VOCtest_06-Nov-2007.tar 存在于 VOCdevkit/ 子目录下


10.3创建标记文件 .txt :

每个框 类别 一行  x, y, width, and height  与图像长和宽相关
<object-class> <x> <y> <width> <height>

运行标记文件 脚本
run scripts/

会在  VOCdevkit/VOC2007/labels/ and VOCdevkit/VOC2012/labels/
2007_test.txt   VOCdevkit
2007_val.txt    VOCtest_06-Nov-2007.tar
2012_train.txt  VOCtrainval_06-Nov-2007.tar
2012_val.txt    VOCtrainval_11-May-2012.tar

除去2007_test.txt 生成一个文件
cat 2007_train.txt 2007_val.txt 2012_*.txt > train.txt


10.4 修改 数据配置文件 cfg/

  classes= 20
  train  = <path-to-voc>/train.txt
  valid  = <path-to-voc>2007_test.txt
  names = data/voc.names
  backup = backup


classes= 20
train  = /home/sujun/ewenwan/software/darknet/data/voc/my_train_data.txt
valid  = /home/sujun/ewenwan/software/darknet/data/voc/2007_test.txt
names = data/voc.names
backup = backup

以及 网络配置文件

# Testing    # 测试模式
# batch=1 # bigger gpu memory cost higher 
#  subdivisions=1

# Training   训练
batch=64          # 一次训练使用多张图片
subdivisions=16   # 分成16次载入gpu内存 也就是一次载入 4张图片
width=416         # 网络输入的 宽 高 通道数量
momentum=0.9      # 动量 
decay=0.0005      # 衰减权重
angle=0           # 图片旋转
saturation = 1.5  # 饱和度 图像预处理
exposure = 1.5    # 曝光度
hue=.1            # 色调

learning_rate=0.0001#  bigger easy spread学习率
burn_in=1000        # 学习率控制参数
max_batches = 50200 # 最大迭代次数
policy=steps        # 学习策略 随时间递减,还是按步长递减
steps=40000,45000   # 学习率变动步长 逐步降低 学习率 牛顿下山法
scales=.1,.1        # 学习率变动因子
filters=75          # 最后输出 = 3*(20+5)  三个尺度,每个尺度预测3种格子,每个格子预测20类,5个框参数

mask = 0,1,2        # 前三个 预设边框尺寸  kmeans聚类的结果
anchors = 10,13,  16,30,  33,23,  30,61,  62,45,  59,119,  116,90,  156,198,  373,326
classes=20          # 类别数量
num=9               # 总共的预设边框数量
jitter=.3           # 数据扩充的抖动
ignore_thresh = .5  # 阈值
truth_thresh = 1   
random=1            # 多尺度训练开关


10.5 下载预训练分类网络参数 imagenet数据集的 分类网络参数

yolo v3 的预训练文件
from  darknet53 
wget   对于 yolov3.cfg / 对于 yolov3-voc.cfg 等

yolo v2 的预训练文件

yolo v1 的预训练文件   对于 yolov1.cfg      对于 yolov1-tiny.cfg


10.6 . 在 VOC 训练

./darknet detector train cfg/ cfg/yolov3-voc.cfg darknet53.conv.74
./darknet detector train cfg/ cfg/yolov3-voc.cfg backup/yolov3-voc.backup

10.7 使用训练结果 测试、

./darknet detect cfg/yolov3-voc.cfg backup/yolov3-voc_20000.weights data/dog.jpg




先 单GPU 训练

./darknet detector train cfg/ cfg/yolov3-voc.cfg darknet53.conv.74 2>1 | tee paul_train_log.txt


### 单GPU与多GPU的切换技巧
recall在上升,然而Obj几乎为零,最终得到的权重文件无法预测出bounding box。


./darknet detector train cfg/ cfg/yolov3-voc.cfg backup/yolov3-voc_1000.weights -gpus 0,1,2,3 2>1 | sudo tee paul_train_log.txt

nvidia-smi 差看GPU使用情况




v3 各项参数
log 参数:
Region xx: cfg文件中yolo-layer的索引;
Avg IOU:当前迭代中,预测的box与标注的box的平均交并比,越大越好,期望数值为1;
Class:  标注物体的分类准确率,越大越好,期望数值为1;
obj:    越大越好,期望数值为1;
No obj: 越小越好;
.5R:    查全率较低 以IOU=0.5为阈值时候的recall; recall = 检出的正样本/实际的正样本
0.75R:  查全率较低 以IOU=0.75为阈值时候的recall;
count:  正样本数目。

训练log中各参数的意义 v2
Region Avg IOU:平均的IOU,代表预测的bounding box和ground truth的交集与并集之比,期望该值趋近于1。
No Obj:期望该值越来越小但不为零.
Avg Recall:期望该值趋近1



Learning Rate: 1e-05, Momentum: 0.9, Decay: 0.0005

shift +g 到最后
497001: 0.863348, 0.863348 avg, 0.001200 rate, 5.422251 seconds, 107352216 images


Loaded: 5.588888 seconds
Region Avg IOU: 0.649881, Class: 0.854394, Obj: 0.476559, No Obj: 0.007302, Avg Recall: 0.737705,  count: 61
Region Avg IOU: 0.671544, Class: 0.959081, Obj: 0.523326, No Obj: 0.006902, Avg Recall: 0.780000,  count: 50
Region Avg IOU: 0.525841, Class: 0.815314, Obj: 0.449031, No Obj: 0.006602, Avg Recall: 0.484375,  count: 64
Region Avg IOU: 0.583596, Class: 0.830763, Obj: 0.377681, No Obj: 0.007916, Avg Recall: 0.629214,  count: 89
Region Avg IOU: 0.651377, Class: 0.908635, Obj: 0.460094, No Obj: 0.008060, Avg Recall: 0.753425,  count: 73
Region Avg IOU: 0.571363, Class: 0.880554, Obj: 0.341659, No Obj: 0.007820, Avg Recall: 0.633663,  count: 101
Region Avg IOU: 0.585424, Class: 0.935552, Obj: 0.358635, No Obj: 0.008192, Avg Recall: 0.644860,  count: 107
Region Avg IOU: 0.599972, Class: 0.832793, Obj: 0.382910, No Obj: 0.009005, Avg Recall: 0.650602,  count: 83
497001: 0.863348, 0.863348 avg, 0.000012 rate, 5.422251 seconds, 107352216 images

skiprows=[x for x in range(lines) if ((x%10!=9) |(x<1000))]



./darknet detector train cfg/ cfg/yolov3-voc.cfg backup/yolov3-voc_97000.weights -gpus 0,1,2,3 2>1 | sudo tee paul_train_log.txt

除了可视化loss,还可以可视化Avg IOU,Avg Recall等参数。
可视化’Region Avg IOU’, ‘Class’, ‘Obj’, ‘No Obj’, ‘Avg Recall’,’count’



在 末尾添加
eval = imagenet #有voc、coco、imagenet三种模式
float thresh = .1;
./darknet detector valid cfg/ cfg/yolov3-voc.cfg backup/yolov3-voc_final.weights


修改 Detector.c文件的validate_detector_recall函数:

float thresh = .25;

list *plist = get_paths("/mnt/large4t/pengchong_data/Data/Paul/filelist/val.txt");

//fprintf(stderr, "%5d %5d %5d\tRPs/Img: %.2f\tIOU: %.2f%%\tRecall:%.2f%%\n", i, correct, total, (float)proposals/(i+1), avg_iou*100/total, 100.*correct/total);
fprintf(stderr, "ID:%5d Correct:%5d Total:%5d\tRPs/Img: %.2f\tIOU: %.2f%%\tRecall:%.2f%%\t", i, correct, total, (float)proposals/(i+1), avg_iou*100/total, 100.*correct/total);
fprintf(stderr, "proposals:%5d\tPrecision:%.2f%%\n",proposals,100.*correct/(float)proposals
./darknet detector recall cfg/ cfg/yolov3-voc.cfg backup/yolov3-voc_final.weights


11 在coco数据集上训练


微软发布的COCO数据库, 除了图片以外还提供物体检测, 分割(segmentation)和对图像的语义文本描述信息.

COCO数据库的网址是: MS COCO API -

Github网址 -


数据库提供Matlab, Python和Lua的API接口. 其中matlab和python的API接口可以提供完整的图像标签数据的加载, 

   parsing和可视化.此外,网站还提供了数据相关的文章, 教程等. 在使用COCO数据库提供的API和demo时, 需要首先下载COCO的图像和标签数据.

11.1 COCO的数据标注信息包括:

  - 类别标志 
  - 类别数量区分 
  - 像素级的分割 
  COCO数据集有超过 200,000 张图片,80种物体类别. 所有的物体实例都用详细的分割mask进行了标注,共标注了超过 500,000 个物体实体.     
  person  # 1    
  vehicle 交通工具 #8        
  { bicycle         自行车
  car             小汽车       
  motorcycle      摩托车
  airplane        飞机       
  bus             公交车
  train           火车       
  truck           卡车
  boat}           船    
  outdoor  室外#5        
  { traffic light   交通灯     
  fire hydrant    消防栓     
  stop sign       
  parking meter      
  animal  动物 #10        
  { bird       
  accessory 饰品 #5        
  { backpack 背包       
  umbrella 雨伞       
  handbag 手提包       
  tie 领带       
  suitcase 手提箱 }   
  sports  运动 #10        
  { frisbee      
  sports ball       
  baseball bat       
  baseball glove       
  tennis racket        } 

  kitchen  厨房 #7       
  { bottle        
  wine glass       
  bowl        }  
  food  食物#10        
  { banana        
  hot dog        
  cake        }    
  furniture 家具 #6        
  { chair       
  potted plant       
  dining table       
  toilet        }    
  electronic 电子产品 #6        
  { tv        
  cell phone        }   
  appliance 家用电器 #5        
  { microwave       
  refrigerator        }    
  indoor  室内物品#7        
  { book        
  teddy bear        
  hair drier       
  toothbrush        }}



cp scripts/ data
cd data

1. 下载 数据库API
 git clone
 cd coco
2. 创建 images文件夹 并下载 图像数据 解压
 在images文件夹下下载  点击链接可直接下载
 wget -c
 wget -c

 unzip -q
 unzip -q
3. 下载标注文件等
  cd ..
  wget -c
  wget -c
  wget -c
  wget -c
  sudo tar xzf labels.tgz                        标签
  sudo unzip -q     分割  得到 annotations  实例分割

  paste <(awk "{print \"$PWD\"}" <5k.part) 5k.part | tr -d '\t' > 5k.txt   测试验证数据
  paste <(awk "{print \"$PWD\"}" <trainvalno5k.part) trainvalno5k.part | tr -d '\t' > trainvalno5k.txt  训练数据

11.3修改 coco数据集的配置文件

   vim cfg/

classes= 80
train  = <path-to-coco>/trainvalno5k.txt
valid  = <path-to-coco>/5k.txt
names = data/coco.names
backup = backup



   cp cfg/yolov3.cfg yolov3_my.cfg vim yolov3_my.cfg


   ./darknet detector train cfg/ cfg/yolov3_my.cfg darknet53.conv.74 2>1 -gpus 1 2>1 | sudo tee coco_train_log.txt

多gpu训练 记录log 以便可视化loss

   ./darknet detector train cfg/ cfg/yolov3.cfg darknet53.conv.74 -gpus 0,1,2,3 2>1 | sudo tee paul_train_log.txt

中断后 断点接着 训练

   ./darknet detector train cfg/ cfg/yolov3.cfg backup/yolov3.backup -gpus 0,1,2,3