Merge branch 'dygraph' of https://github.com/PaddlePaddle/PaddleOCR i…

…nto kie_doc
Evezerest · Jan 13, 2022 · 3837252 · 3837252
2 parents 11f6ff3 + 05ca1b4
commit 3837252
Show file tree

Hide file tree

Showing 20 changed files with 877 additions and 236 deletions.
diff --git a/doc/doc_ch/algorithm_overview.md b/doc/doc_ch/algorithm_overview.md
@@ -25,8 +25,8 @@ PaddleOCR开源的文本检测算法列表：
 在ICDAR2015文本检测公开数据集上，算法效果如下：
 |模型|骨干网络|precision|recall|Hmean|下载链接|
 | --- | --- | --- | --- | --- | --- |
-|EAST|ResNet50_vd|85.80%|86.71%|86.25%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_east_v2.0_train.tar)|
-|EAST|MobileNetV3|79.42%|80.64%|80.03%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_mv3_east_v2.0_train.tar)|
+|EAST|ResNet50_vd|88.71%|81.36%|84.88%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_east_v2.0_train.tar)|
+|EAST|MobileNetV3|78.2%|79.1%|78.65%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_mv3_east_v2.0_train.tar)|
 |DB|ResNet50_vd|86.41%|78.72%|82.38%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_db_v2.0_train.tar)|
 |DB|MobileNetV3|77.29%|73.08%|75.12%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_mv3_db_v2.0_train.tar)|
 |SAST|ResNet50_vd|91.39%|83.77%|87.42%|[训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_sast_icdar15_v2.0_train.tar)|

diff --git a/doc/doc_ch/code_and_doc.md b/doc/doc_ch/code_and_doc.md
@@ -153,7 +153,7 @@ cd PaddleOCR
 
 > 多数情况下clone失败是由于网络原因，请稍后重试或配置代理
 
-#### 3.2.2 和 `远程仓库` 建立连接
+#### 3.2.2 通过Token方式登录与建立连接
 
 首先查看当前 `远程仓库` 的信息。
 
@@ -163,7 +163,24 @@ git remote -v
 # origin https://github.com/{your_name}/PaddleOCR.git (push)
 ```
 
-只有clone的 `远程仓库` 的信息，也就是自己用户名下的 PaddleOCR，接下来我们创建一个原始 PaddleOCR 仓库的远程主机，命名为 upstream。
+只有clone的 `远程仓库` 的信息，也就是自己用户名下的 PaddleOCR。由于Github的登录方式变化，需要通过Token的方式重新配置 `远程仓库` 的地址。生成Token的方式如下：
+
+1. 找到个人访问令牌（token）：在Github页面右上角点击自己的头像，然后依次选择 Settings --> Developer settings --> Personal access tokens
+2. 点击 Generate new token：在Note中填入token名称，例如’paddle‘。在Select scopes选择repo（必选）、admin:repo_hook、delete_repo等，可根据自身需要勾选。然后点击Generate token生成token。最后复制生成的token。
+
+删除原始的origin配置
+
+```
+git remote rm origin
+```
+
+将remote分支改成 `https://oauth2:{token}@github.com/{your_name}/PaddleOCR.git`。例如：如果token值为12345，你的用户名为PPOCR，则运行下方命令
+
+```
+git remote add origin https://oauth2:[email protected]/PPOCR/PaddleOCR.git
+```
+
+这样我们就与自己的 `远程仓库` 建立了连接。接下来我们创建一个原始 PaddleOCR 仓库的远程主机，命名为 upstream。
 
 ```
 git remote add upstream https://github.com/PaddlePaddle/PaddleOCR.git
@@ -172,8 +189,8 @@ git remote add upstream https://github.com/PaddlePaddle/PaddleOCR.git
 使用 `git remote -v` 查看当前 `远程仓库` 的信息，输出如下，发现包括了origin和upstream 2个 `远程仓库` 。
 
 ```
-origin https://github.com/{your_name}/PaddleOCR.git (fetch)
-origin https://github.com/{your_name}/PaddleOCR.git (push)
+origin https://oauth2:{token}@github.com/{your_name}/PaddleOCR.git (fetch)
+origin https://oauth2:{token}@github.com/{your_name}/PaddleOCR.git (push)
 upstream https://github.com/PaddlePaddle/PaddleOCR.git (fetch)
 upstream https://github.com/PaddlePaddle/PaddleOCR.git (push)
 ```
@@ -182,29 +199,32 @@ upstream https://github.com/PaddlePaddle/PaddleOCR.git (push)
 
 #### 3.2.3 创建本地分支
 
-可以基于当前分支创建新的本地分支，命令如下。
+首先获取 upstream 的最新代码，然后基于上游仓库 (upstream)的dygraph创建new_branch分支。
 
 ```
-git checkout -b new_branch
-```
-
-也可以基于远程或者上游的分支创建新的分支，命令如下。
-
-```
-# 基于用户远程仓库(origin)的dygraph创建new_branch分支
-git checkout -b new_branch origin/dygraph
-# 基于上游远程仓库(upstream)的dygraph创建new_branch分支
-# 如果需要从upstream创建新的分支，需要首先使用git fetch upstream获取上游代码
+git fetch upstream
 git checkout -b new_branch upstream/dygraph
 ```
 
+> 如果对于新Fork的PaddleOCR项目，用户远程仓库(origin)与上游(upstream)仓库的分支更新情况相同，也可以基于origin仓库的默认分支或指定分支创建新的本地分支，命令如下。
+>
+> ```
+> # 基于用户远程仓库(origin)的dygraph创建new_branch分支
+> git checkout -b new_branch origin/dygraph
+> 
+> # 基于用户远程仓库(origin)的默认分支创建new_branch分支
+> git checkout -b new_branch
+> ```
+
 最终会显示切换到新的分支，输出信息如下
 
 ```
 Branch new_branch set up to track remote branch develop from upstream.
 Switched to a new branch 'new_branch'
 ```
 
+切换分支之后即可在此分支上进行文件改动
+
 #### 3.2.4 使用pre-commit勾子
 
 Paddle 开发人员使用 pre-commit 工具来管理 Git 预提交钩子。 它可以帮助我们格式化源代码（C++，Python），在提交（commit）前自动检查一些基本事宜（如每个文件只有一个 EOL，Git 中不要添加大文件等）。
@@ -234,31 +254,23 @@ pre-commit
 
 ![img](../precommit_pass.png)
 
-使用下面的命令完成提交。
+提交修改，并写明修改内容（"your commit info"）
 
 ```
-git commit -m "your commit info"
+git commit -m "your commit info" 
 ```
 
-#### 3.2.6 保持本地仓库最新
+#### 3.2.6 Push到远程仓库
 
-获取 upstream 的最新代码并更新当前分支。这里的upstream来自于2.2节的`和远程仓库建立连接`部分。
-
-```
-git fetch upstream
-# 如果是希望提交到其他分支，则需要从upstream的其他分支pull代码，这里是dygraph
-git pull upstream dygraph
-```
-
-#### 3.2.7 push到远程仓库
+使用push命令将修改的commit提交到 `远程仓库` 
 
 ```
 git push origin new_branch
 ```
 
 #### 3.2.7 提交Pull Request
 
-点击new pull request，选择本地分支和目标分支，如下图所示。在PR的描述说明中，填写该PR所完成的功能。接下来等待review，如果有需要修改的地方，参照上述步骤更新 origin 中的对应分支即可。
+打开自己的远程仓库界面，选择提交的分支。点击new pull request或contribute进入PR界面。选择本地分支和目标分支，如下图所示。在PR的描述说明中，填写该PR所完成的功能。接下来等待review，如果有需要修改的地方，参照上述步骤更新 origin 中的对应分支即可。
 
 ![banner](../pr.png)
 
@@ -285,8 +297,8 @@ git push origin new_branch
 - 删除本地分支
 
  ```
- # 切换到develop分支，否则无法删除当前分支
- git checkout develop
+ # 切换到dygraph分支，否则无法删除当前分支
+ git checkout dygraph
  
  # 删除new_branch分支
  git branch -D new_branch
@@ -310,7 +322,6 @@ git push origin new_branch
 
 - 请注意每个commit的名称：应能反映当前commit的内容，不能太随意。
 
-
 3）如果解决了某个Issue的问题，请在该Pull Request的第一个评论框中加上：fix #issue_number，这样当该Pull Request被合并后，会自动关闭对应的Issue。关键词包括：close, closes, closed, fix, fixes, fixed, resolve, resolves, resolved，请选择合适的词汇。详细可参考[Closing issues via commit messages](https://help.github.com/articles/closing-issues-via-commit-messages)。
 
 此外，在回复评审人意见时，请您遵守以下约定：

diff --git a/doc/doc_ch/detection.md b/doc/doc_ch/detection.md
@@ -78,11 +78,11 @@ json.dumps编码前的图像标注信息是包含多个字典的list，字典中
 cd PaddleOCR/
 # 根据backbone的不同选择下载对应的预训练模型
 # 下载MobileNetV3的预训练模型
-wget -P ./pretrain_models/ https://paddle-imagenet-models-name.bj.bcebos.com/dygraph/MobileNetV3_large_x0_5_pretrained.pdparams
+wget -P ./pretrain_models/ https://paddleocr.bj.bcebos.com/pretrained/MobileNetV3_large_x0_5_pretrained.pdparams
 # 或，下载ResNet18_vd的预训练模型
-wget -P ./pretrain_models/ https://paddle-imagenet-models-name.bj.bcebos.com/dygraph/ResNet18_vd_pretrained.pdparams
+wget -P ./pretrain_models/ https://paddleocr.bj.bcebos.com/pretrained/ResNet18_vd_pretrained.pdparams
 # 或，下载ResNet50_vd的预训练模型
-wget -P ./pretrain_models/ https://paddle-imagenet-models-name.bj.bcebos.com/dygraph/ResNet50_vd_ssld_pretrained.pdparams
+wget -P ./pretrain_models/ https://paddleocr.bj.bcebos.com/pretrained/ResNet50_vd_ssld_pretrained.pdparams
 ```
 
 <a name="2-----"></a>

diff --git a/doc/doc_ch/knowledge_distillation.md b/doc/doc_ch/knowledge_distillation.md
@@ -1,8 +1,27 @@
+<a name="0"></a>
 # 知识蒸馏
 
-
++ [知识蒸馏](#0)
+ + [1. 简介](#1)
+ - [1.1 知识蒸馏介绍](#11)
+ - [1.2 PaddleOCR知识蒸馏简介](#12)
+ + [2. 配置文件解析](#2)
+ + [2.1 识别配置文件解析](#21)
+ - [2.1.1 模型结构](#211)
+ - [2.1.2 损失函数](#212)
+ - [2.1.3 后处理](#213)
+ - [2.1.4 指标计算](#214)
+ - [2.1.5 蒸馏模型微调](#215)
+ + [2.2 检测配置文件解析](#22)
+ - [2.2.1 模型结构](#221)
+ - [2.2.2 损失函数](#222)
+ - [2.2.3 后处理](#223)
+ - [2.2.4 蒸馏指标计算](#224)
+ - [2.2.5 检测蒸馏模型Fine-tune](#225)
+
+<a name="1"></a>
 ## 1. 简介
-
+<a name="11"></a>
 ### 1.1 知识蒸馏介绍
 
 近年来，深度神经网络在计算机视觉、自然语言处理等领域被验证是一种极其有效的解决问题的方法。通过构建合适的神经网络，加以训练，最终网络模型的性能指标基本上都会超过传统算法。
@@ -13,6 +32,7 @@
 
 此外，在知识蒸馏任务中，也衍生出了互学习的模型训练方法，论文[Deep Mutual Learning](https://arxiv.org/abs/1706.00384)中指出，使用两个完全相同的模型在训练的过程中互相监督，可以达到比单个模型训练更好的效果。
 
+<a name="12"></a>
 ### 1.2 PaddleOCR知识蒸馏简介
 
 无论是大模型蒸馏小模型，还是小模型之间互相学习，更新参数，他们本质上是都是不同模型之间输出或者特征图(feature map)之间的相互监督，区别仅在于 (1) 模型是否需要固定参数。(2) 模型是否需要加载预训练模型。
@@ -30,17 +50,19 @@ PaddleOCR中集成了知识蒸馏的算法，具体地，有以下几个主要
 通过知识蒸馏，在中英文通用文字识别任务中，不增加任何预测耗时的情况下，可以给模型带来3%以上的精度提升，结合学习率调整策略以及模型结构微调策略，最终提升提升超过5%。
 
 
-
+<a name="2"></a>
 ## 2. 配置文件解析
 
 在知识蒸馏训练的过程中，数据预处理、优化器、学习率、全局的一些属性没有任何变化。模型结构、损失函数、后处理、指标计算等模块的配置文件需要进行微调。
 
 下面以识别与检测的知识蒸馏配置文件为例，对知识蒸馏的训练与配置进行解析。
 
+<a name="21"></a>
 ### 2.1 识别配置文件解析
 
 配置文件在[ch_PP-OCRv2_rec_distillation.yml](../../configs/rec/ch_PP-OCRv2/ch_PP-OCRv2_rec_distillation.yml)。
 
+<a name="211"></a>
 #### 2.1.1 模型结构
 
 知识蒸馏任务中，模型结构配置如下所示。
@@ -176,6 +198,7 @@ Architecture:
 }
 ```
 
+<a name="212"></a>
 #### 2.1.2 损失函数
 
 知识蒸馏任务中，损失函数配置如下所示。
@@ -212,7 +235,7 @@ Loss:
 
 关于`CombinedLoss`更加具体的实现可以参考: [combined_loss.py](../../ppocr/losses/combined_loss.py#L23)。关于`DistillationCTCLoss`等蒸馏损失函数更加具体的实现可以参考[distillation_loss.py](../../ppocr/losses/distillation_loss.py)。
 
-
+<a name="213"></a>
 #### 2.1.3 后处理
 
 知识蒸馏任务中，后处理配置如下所示。
@@ -228,7 +251,7 @@ PostProcess:
 
 关于`DistillationCTCLabelDecode`更加具体的实现可以参考: [rec_postprocess.py](../../ppocr/postprocess/rec_postprocess.py#L128)
 
-
+<a name="214"></a>
 #### 2.1.4 指标计算
 
 知识蒸馏任务中，指标计算配置如下所示。
@@ -245,7 +268,7 @@ Metric:
 
 关于`DistillationMetric`更加具体的实现可以参考: [distillation_metric.py](../../ppocr/metrics/distillation_metric.py#L24)。
 
-
+<a name="215"></a>
 #### 2.1.5 蒸馏模型微调
 
 对蒸馏得到的识别蒸馏进行微调有2种方式。
@@ -279,15 +302,15 @@ paddle.save(s_params, "ch_PP-OCRv2_rec_train/student.pdparams")
 
 转化完成之后，使用[ch_PP-OCRv2_rec.yml](../../configs/rec/ch_PP-OCRv2/ch_PP-OCRv2_rec.yml)，修改预训练模型的路径（为导出的`student.pdparams`模型路径）以及自己的数据路径，即可进行模型微调。
 
+<a name="22"></a>
 ### 2.2 检测配置文件解析
 
-
 检测模型蒸馏的配置文件在PaddleOCR/configs/det/ch_PP-OCRv2/目录下，包含三个蒸馏配置文件：
 - ch_PP-OCRv2_det_cml.yml，采用cml蒸馏，采用一个大模型蒸馏两个小模型，且两个小模型互相学习的方法
 - ch_PP-OCRv2_det_dml.yml，采用DML的蒸馏，两个Student模型互蒸馏的方法
 - ch_PP-OCRv2_det_distill.yml，采用Teacher大模型蒸馏小模型Student的方法
 
-
+<a name="221"></a>
 #### 2.2.1 模型结构
 
 知识蒸馏任务中，模型结构配置如下所示：
@@ -419,7 +442,8 @@ Architecture:
 }
 ```
 
-#### 2.1.2 损失函数
+<a name="222"></a>
+#### 2.2.2 损失函数
 
 知识蒸馏任务中，检测ch_PP-OCRv2_det_distill.yml蒸馏损失函数配置如下所示。
 
@@ -484,8 +508,8 @@ Loss:
 
 关于`DistillationDilaDBLoss`更加具体的实现可以参考: [distillation_loss.py](https://github.com/PaddlePaddle/PaddleOCR/blob/release%2F2.4/ppocr/losses/distillation_loss.py#L185)。关于`DistillationDBLoss`等蒸馏损失函数更加具体的实现可以参考[distillation_loss.py](https://github.com/PaddlePaddle/PaddleOCR/blob/04c44974b13163450dfb6bd2c327863f8a194b3c/ppocr/losses/distillation_loss.py?_pjax=%23js-repo-pjax-container%2C%20div%5Bitemtype%3D%22http%3A%2F%2Fschema.org%2FSoftwareSourceCode%22%5D%20main%2C%20%5Bdata-pjax-container%5D#L148)。
 
-
-#### 2.1.3 后处理
+<a name="223"></a>
+#### 2.2.3 后处理
 
 知识蒸馏任务中，检测蒸馏后处理配置如下所示。
 
@@ -503,8 +527,8 @@ PostProcess:
 
 关于`DistillationDBPostProcess`更加具体的实现可以参考: [db_postprocess.py](../../ppocr/postprocess/db_postprocess.py#L195)
 
-
-#### 2.1.4 蒸馏指标计算
+<a name="224"></a>
+#### 2.2.4 蒸馏指标计算
 
 知识蒸馏任务中，检测蒸馏指标计算配置如下所示。
 
@@ -518,8 +542,8 @@ Metric:
 
 由于蒸馏需要包含多个网络，甚至多个Student网络，在计算指标的时候只需要计算一个Student网络的指标即可，`key`字段设置为`Student`则表示只计算`Student`网络的精度。
 
-
-#### 2.1.5 检测蒸馏模型finetune
+<a name="225"></a>
+#### 2.2.5 检测蒸馏模型finetune
 
 检测蒸馏有三种方式：
 - 采用ch_PP-OCRv2_det_distill.yml，Teacher模型设置为PaddleOCR提供的模型或者您训练好的大模型

diff --git a/doc/doc_ch/recognition.md b/doc/doc_ch/recognition.md
@@ -63,6 +63,17 @@ train_data/rec/train/word_002.jpg 用科技让复杂的世界更简单
  | ...
 ```
 
+除上述单张图像为一行格式之外，PaddleOCR也支持对离线增广后的数据进行训练，为了防止相同样本在同一个batch中被多次采样，我们可以将相同标签对应的图片路径写在一行中，以列表的形式给出，在训练中，PaddleOCR会随机选择列表中的一张图片进行训练。对应地，标注文件的格式如下。
+
+```
+["11.jpg", "12.jpg"] 简单可依赖
+["21.jpg", "22.jpg", "23.jpg"] 用科技让复杂的世界更简单
+3.jpg ocr
+```
+
+上述示例标注文件中，"11.jpg"和"12.jpg"的标签相同，都是`简单可依赖`，在训练的时候，对于该行标注，会随机选择其中的一张图片进行训练。
+
+
 - 测试集
 
 同训练集类似，测试集也需要提供一个包含所有图片的文件夹（test）和一个rec_gt_test.txt，测试集的结构如下所示：

diff --git a/doc/doc_en/algorithm_overview_en.md b/doc/doc_en/algorithm_overview_en.md
@@ -30,8 +30,8 @@ On the ICDAR2015 dataset, the text detection result is as follows:
 
 |Model|Backbone|Precision|Recall|Hmean|Download link|
 | --- | --- | --- | --- | --- | --- |
-|EAST|ResNet50_vd|85.80%|86.71%|86.25%|[trained model](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_east_v2.0_train.tar)|
-|EAST|MobileNetV3|79.42%|80.64%|80.03%|[trained model](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_mv3_east_v2.0_train.tar)|
+|EAST|ResNet50_vd|88.71%|81.36%|84.88%|[trained model](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_east_v2.0_train.tar)|
+|EAST|MobileNetV3|78.2%|79.1%|78.65%|[trained model](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_mv3_east_v2.0_train.tar)|
 |DB|ResNet50_vd|86.41%|78.72%|82.38%|[trained model](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_db_v2.0_train.tar)|
 |DB|MobileNetV3|77.29%|73.08%|75.12%|[trained model](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_mv3_db_v2.0_train.tar)|
 |SAST|ResNet50_vd|91.39%|83.77%|87.42%|[trained model](https://paddleocr.bj.bcebos.com/dygraph_v2.0/en/det_r50_vd_sast_icdar15_v2.0_train.tar)|

diff --git a/doc/doc_en/detection_en.md b/doc/doc_en/detection_en.md
@@ -67,11 +67,11 @@ And the responding download link of backbone pretrain weights can be found in (h
 ```shell
 cd PaddleOCR/
 # Download the pre-trained model of MobileNetV3
-wget -P ./pretrain_models/ https://paddle-imagenet-models-name.bj.bcebos.com/dygraph/MobileNetV3_large_x0_5_pretrained.pdparams
+wget -P ./pretrain_models/ https://paddleocr.bj.bcebos.com/pretrained/MobileNetV3_large_x0_5_pretrained.pdparams
 # or, download the pre-trained model of ResNet18_vd
-wget -P ./pretrain_models/ https://paddle-imagenet-models-name.bj.bcebos.com/dygraph/ResNet18_vd_pretrained.pdparams
+wget -P ./pretrain_models/ https://paddleocr.bj.bcebos.com/pretrained/ResNet18_vd_pretrained.pdparams
 # or, download the pre-trained model of ResNet50_vd
-wget -P ./pretrain_models/ https://paddle-imagenet-models-name.bj.bcebos.com/dygraph/ResNet50_vd_ssld_pretrained.pdparams
+wget -P ./pretrain_models/ https://paddleocr.bj.bcebos.com/pretrained/ResNet50_vd_ssld_pretrained.pdparams
 
 ```