Add PP-OCR inference doc

Evezerest · Sep 6, 2021 · 147d185 · 147d185
1 parent 20bf092
commit 147d185
Show file tree

Hide file tree

Showing 12 changed files with 391 additions and 179 deletions.
diff --git a/doc/doc_ch/config.md b/doc/doc_ch/config.md
@@ -168,7 +168,7 @@ PaddleOCR目前已支持80种（除中文外）语种识别，`configs/rec/multi
  --dict {path/of/dict} \  # 字典文件路径
  -o Global.use_gpu=False # 是否使用gpu
  ...
-
+ 
  ```
 
 意大利文由拉丁字母组成，因此执行完命令后会得到名为 rec_latin_lite_train.yml 的配置文件。
@@ -184,21 +184,21 @@ PaddleOCR目前已支持80种（除中文外）语种识别，`configs/rec/multi
  ...
  character_type: it # 需要识别的语种
  character_dict_path: {path/of/dict} # 字典文件所在路径
-
+ 
  Train:
  dataset:
  name: SimpleDataSet
  data_dir: train_data/ # 数据存放根目录
  label_file_list: ["./train_data/train_list.txt"] # 训练集label路径
  ...
-
+ 
  Eval:
  dataset:
  name: SimpleDataSet
  data_dir: train_data/ # 数据存放根目录
  label_file_list: ["./train_data/val_list.txt"] # 验证集label路径
  ...
-
+ 
  ```
 
 目前PaddleOCR支持的多语言算法有：
@@ -217,7 +217,3 @@ PaddleOCR目前已支持80种（除中文外）语种识别，`configs/rec/multi
 | rec_devanagari_lite_train.yml | CRNN | Mobilenet_v3 small 0.5 | None | BiLSTM | ctc | 梵文字母 | devanagari |
 
 更多支持语种请参考: [多语言模型](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.1/doc/doc_ch/multi_languages.md#%E8%AF%AD%E7%A7%8D%E7%BC%A9%E5%86%99)
-
-多语言模型训练方式与中文模型一致，训练数据集均为100w的合成数据，少量的字体可以通过下面两种方式下载。
-* [百度网盘](https://pan.baidu.com/s/1bS_u207Rm7YbY33wOECKDA)。提取码：frgi。
-* [google drive](https://drive.google.com/file/d/18cSWX7wXSy4G0tbKJ0d9PuIaiwRLHpjA/view)
diff --git a/doc/doc_ch/environment.md b/doc/doc_ch/environment.md
@@ -1,7 +1,5 @@
 # 运行环境准备
 
-[运行环境准备](#运行环境准备)
-
 * [1. Python环境搭建](#1)
  + [1.1 Windows](#1.1)
  + [1.2 Mac](#1.2)

diff --git a/doc/doc_ch/inference_ppocr.md b/doc/doc_ch/inference_ppocr.md
@@ -0,0 +1,136 @@
+# PP-OCR模型库快速推理
+
+本文介绍针对PP-OCR模型库的Python推理引擎使用方法，内容依次为文本检测、文本识别、方向分类器以及三者串联在CPU、GPU上的预测方法。
+
+
+- [1. 文本检测模型推理](#文本检测模型推理)
+
+- [2. 文本识别模型推理](#文本识别模型推理)
+ - [2.1 超轻量中文识别模型推理](#超轻量中文识别模型推理)
+ - [2.2 多语言模型的推理](#多语言模型的推理)
+
+- [3. 方向分类模型推理](#方向分类模型推理)
+
+- [4. 文本检测、方向分类和文字识别串联推理](#文本检测、方向分类和文字识别串联推理)
+
+<a name="文本检测模型推理"></a>
+
+## 1. 文本检测模型推理
+
+文本检测模型推理，默认使用DB模型的配置参数。超轻量中文检测模型推理，可以执行如下命令：
+
+```
+# 下载超轻量中文检测模型：
+wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_det_infer.tartar xf ch_ppocr_mobile_v2.0_det_infer.tarpython3 tools/infer/predict_det.py --image_dir="./doc/imgs/00018069.jpg" --det_model_dir="./ch_ppocr_mobile_v2.0_det_infer/"
+```
+
+可视化文本检测结果默认保存到`./inference_results`文件夹里面，结果文件的名称前缀为'det_res'。结果示例如下：
+
+![](/Users/zhulingfeng01/OCR/PaddleOCR/doc/imgs_results/det_res_00018069.jpg)
+
+通过参数`limit_type`和`det_limit_side_len`来对图片的尺寸进行限制，
+`limit_type`可选参数为[`max`, `min`]，
+`det_limit_size_len` 为正整数，一般设置为32 的倍数，比如960。
+
+参数默认设置为`limit_type='max', det_limit_side_len=960`。表示网络输入图像的最长边不能超过960，
+如果超过这个值，会对图像做等宽比的resize操作，确保最长边为`det_limit_side_len`。
+设置为`limit_type='min', det_limit_side_len=960` 则表示限制图像的最短边为960。
+
+如果输入图片的分辨率比较大，而且想使用更大的分辨率预测，可以设置det_limit_side_len 为想要的值，比如1216：
+
+```
+python3 tools/infer/predict_det.py --image_dir="./doc/imgs/1.jpg" --det_model_dir="./inference/det_db/" --det_limit_type=max --det_limit_side_len=1216
+```
+
+如果想使用CPU进行预测，执行命令如下
+
+```
+python3 tools/infer/predict_det.py --image_dir="./doc/imgs/1.jpg" --det_model_dir="./inference/det_db/" --use_gpu=False
+```
+
+
+
+<a name="文本识别模型推理"></a>
+
+## 2. 文本识别模型推理
+
+<a name="超轻量中文识别模型推理"></a>
+
+### 2.1 超轻量中文识别模型推理
+
+超轻量中文识别模型推理，可以执行如下命令：
+
+```
+# 下载超轻量中文识别模型：
+wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_rec_infer.tar
+tar xf ch_ppocr_mobile_v2.0_rec_infer.tar
+python3 tools/infer/predict_rec.py --image_dir="./doc/imgs_words/ch/word_4.jpg" --rec_model_dir="ch_ppocr_mobile_v2.0_rec_infer"
+```
+
+![](/Users/zhulingfeng01/OCR/PaddleOCR/doc/imgs_words/ch/word_4.jpg)
+
+执行命令后，上面图像的预测结果（识别的文本和得分）会打印到屏幕上，示例如下：
+
+```bash
+Predicts of ./doc/imgs_words/ch/word_4.jpg:('实力活力', 0.98458153)
+```
+
+<a name="多语言模型的推理"></a>
+
+### 2.2 多语言模型的推理
+
+如果您需要预测的是其他语言模型，在使用inference模型预测时，需要通过`--rec_char_dict_path`指定使用的字典路径, 同时为了得到正确的可视化结果，
+需要通过 `--vis_font_path` 指定可视化的字体路径，`doc/fonts/` 路径下有默认提供的小语种字体，例如韩文识别：
+
+```
+python3 tools/infer/predict_rec.py --image_dir="./doc/imgs_words/korean/1.jpg" --rec_model_dir="./your inference model" --rec_char_type="korean" --rec_char_dict_path="ppocr/utils/dict/korean_dict.txt" --vis_font_path="doc/fonts/korean.ttf"
+```
+
+![](/Users/zhulingfeng01/OCR/PaddleOCR/doc/imgs_words/korean/1.jpg)
+
+执行命令后，上图的预测结果为：
+
+``` text
+Predicts of ./doc/imgs_words/korean/1.jpg:('바탕으로', 0.9948904)
+```
+
+<a name="方向分类模型推理"></a>
+
+## 3. 方向分类模型推理
+
+方向分类模型推理，可以执行如下命令：
+
+```
+# 下载超轻量中文方向分类器模型：
+wget https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar
+tar xf ch_ppocr_mobile_v2.0_cls_infer.tar
+python3 tools/infer/predict_cls.py --image_dir="./doc/imgs_words/ch/word_4.jpg" --cls_model_dir="ch_ppocr_mobile_v2.0_cls_infer"
+```
+
+![](/Users/zhulingfeng01/OCR/PaddleOCR/doc/imgs_words/ch/word_1.jpg)
+
+执行命令后，上面图像的预测结果（分类的方向和得分）会打印到屏幕上，示例如下：
+
+```
+Predicts of ./doc/imgs_words/ch/word_4.jpg:['0', 0.9999982]
+```
+
+<a name="文本检测、方向分类和文字识别串联推理"></a>
+
+## 4. 文本检测、方向分类和文字识别串联推理
+
+以超轻量中文OCR模型推理为例，在执行预测时，需要通过参数`image_dir`指定单张图像或者图像集合的路径、参数`det_model_dir`,`cls_model_dir`和`rec_model_dir`分别指定检测，方向分类和识别的inference模型路径。参数`use_angle_cls`用于控制是否启用方向分类模型。`use_mp`表示是否使用多进程。`total_process_num`表示在使用多进程时的进程数。可视化识别结果默认保存到 ./inference_results 文件夹里面。
+
+```shell
+# 使用方向分类器
+python3 tools/infer/predict_system.py --image_dir="./doc/imgs/00018069.jpg" --det_model_dir="./inference/det_db/" --cls_model_dir="./inference/cls/" --rec_model_dir="./inference/rec_crnn/" --use_angle_cls=true
+# 不使用方向分类器
+python3 tools/infer/predict_system.py --image_dir="./doc/imgs/00018069.jpg" --det_model_dir="./inference/det_db/" --rec_model_dir="./inference/rec_crnn/" --use_angle_cls=false
+# 使用多进程
+python3 tools/infer/predict_system.py --image_dir="./doc/imgs/00018069.jpg" --det_model_dir="./inference/det_db/" --rec_model_dir="./inference/rec_crnn/" --use_angle_cls=false --use_mp=True --total_process_num=6
+```
+
+执行命令后，识别结果图像如下：
+
+![](/Users/zhulingfeng01/OCR/PaddleOCR/doc/imgs_results/system_res_00018069.jpg)
+
diff --git a/doc/doc_ch/models_and_config.md b/doc/doc_ch/models_and_config.md
@@ -1,20 +1,30 @@
 
-# 目录
+# PP-OCR模型与配置文件
+PP-OCR模型与配置文件一节主要介绍OCR模型的基本概念、配置文件的内容与作用以便在后续模型训练过程中拥有更好的体验。
+
+本节包含三个部分，首先在[PP-OCR模型下载](./models_list.md)中解释PP-OCR模型的类型概念，并提供所有模型的下载链接。然后在[配置文件内容与生成](./doc/doc_ch/config.md)中详细说明调整PP-OCR模型所需的参数。最后的[模型库快速使用](./inference.md)是对PP-OCR模型库使用方法的介绍，可以。
+
+总体而言，
+
+下面我们首先了解一些OCR相关的基本概念：
+
+
+
 - [1. OCR 简要介绍](#1-ocr-----)
  * [1.1 OCR 检测模型基本概念](#11-ocr---------)
  * [1.2 OCR 识别模型基本概念](#12-ocr---------)
  * [1.3 PP-OCR模型](#13-pp-ocr--)
 
 <a name="1-ocr-----"></a>
-# 1. OCR 简要介绍
+## 1. OCR 简要介绍
 本节简要介绍OCR检测模型、识别模型的基本概念，并介绍PaddleOCR的PP-OCR模型。
 
 OCR（Optical Character Recognition，光学字符识别）目前是文字识别的统称，已不限于文档或书本文字识别，更包括识别自然场景下的文字，又可以称为STR（Scene Text Recognition）。
 
 OCR文字识别一般包括两个部分，文本检测和文本识别；文本检测首先利用检测算法检测到图像中的文本行；然后检测到的文本行用识别算法去识别到具体文字。
 
 <a name="11-ocr---------"></a>
-## 1.1 OCR 检测模型基本概念
+### 1.1 OCR 检测模型基本概念
 
 文本检测就是要定位图像中的文字区域，然后通常以边界框的形式将单词或文本行标记出来。传统的文字检测算法多是通过手工提取特征的方式，特点是速度快，简单场景效果好，但是面对自然场景，效果会大打折扣。当前多是采用深度学习方法来做。
 
@@ -24,15 +34,16 @@ OCR文字识别一般包括两个部分，文本检测和文本识别；文本
 3. 混合目标检测和分割的方法；
 
 <a name="12-ocr---------"></a>
-## 1.2 OCR 识别模型基本概念
+### 1.2 OCR 识别模型基本概念
 
 OCR识别算法的输入数据一般是文本行，背景信息不多，文字占据主要部分，识别算法目前可以分为两类算法：
 1. 基于CTC的方法；即识别算法的文字预测模块是基于CTC的，常用的算法组合为CNN+RNN+CTC。目前也有一些算法尝试在网络中加入transformer模块等等。
 2. 基于Attention的方法；即识别算法的文字预测模块是基于Attention的，常用算法组合是CNN+RNN+Attention。
 
 <a name="13-pp-ocr--"></a>
-## 1.3 PP-OCR模型
+### 1.3 PP-OCR模型
 
 PaddleOCR 中集成了很多OCR算法，文本检测算法有DB、EAST、SAST等等，文本识别算法有CRNN、RARE、StarNet、Rosetta、SRN等算法。
 
 其中PaddleOCR针对中英文自然场景通用OCR，推出了PP-OCR系列模型，PP-OCR模型由DB+CRNN算法组成，利用海量中文数据训练加上模型调优方法，在中文场景上具备较高的文本检测识别能力。并且PaddleOCR推出了高精度超轻量PP-OCRv2模型，检测模型仅3M，识别模型仅8.5M，利用[PaddleSlim](https://github.com/PaddlePaddle/PaddleSlim)的模型量化方法，可以在保持精度不降低的情况下，将检测模型压缩到0.8M，识别压缩到3M，更加适用于移动端部署场景。
+
diff --git a/doc/doc_ch/models_list.md b/doc/doc_ch/models_list.md
@@ -66,46 +66,6 @@ PaddleOCR提供的可下载模型包括`推理模型`、`训练模型`、`预训
 <a name="多语言识别模型"></a>
 #### 3. 多语言识别模型（更多语言持续更新中...）
 
-**说明：** 新增的多语言模型的配置文件通过代码方式生成，您可以通过`--help`参数查看当前PaddleOCR支持生成哪些多语言的配置文件：
-```bash
-# 该代码需要在指定目录运行
-cd {your/path/}PaddleOCR/configs/rec/multi_language/
-python3 generate_multi_language_configs.py --help
-```
-下面以生成意大利语配置文件为例：
-##### 1. 生成意大利语配置文件测试现有模型
-
-如果您仅仅想用配置文件测试PaddleOCR提供的多语言模型可以通过下面命令生成默认的配置文件，使用PaddleOCR提供的小语种字典进行预测。
-```bash
-# 该代码需要在指定目录运行
-cd {your/path/}PaddleOCR/configs/rec/multi_language/
-# 通过-l或者--language参数设置需要生成的语种的配置文件，该命令会将默认参数写入配置文件
-python3 generate_multi_language_configs.py -l it
-```
-##### 2. 生成意大利语配置文件训练自己的数据
-如果您想训练自己的小语种模型，可以准备好训练集文件、验证集文件、字典文件和训练数据路径，这里假设准备的意大利语的训练集、验证集、字典和训练数据路径为：
-- 训练集:{your/path/}PaddleOCR/train_data/train_list.txt
-- 验证集:{your/path/}PaddleOCR/train_data/val_list.txt
-- 使用PaddleOCR提供的默认字典：{your/path/}PaddleOCR/ppocr/utils/dict/it_dict.txt
-- 训练数据路径:{your/path/}PaddleOCR/train_data
-
-使用以下命令生成配置文件：
-```bash
-# 该代码需要在指定目录运行
-cd {your/path/}PaddleOCR/configs/rec/multi_language/
-# -l或者--language字段是必须的
-# --train修改训练集，--val修改验证集，--data_dir修改数据集目录，-o修改对应默认参数
-# --dict命令改变字典路径，示例使用默认字典路径则该参数可不填
-python3 generate_multi_language_configs.py -l it \
---train train_data/train_list.txt \
---val train_data/val_list.txt \
---data_dir train_data \
--o Global.use_gpu=False
-```
-
-<a name="多语言模型与配置文件"></a>
-##### 3. 多语言模型与配置文件
-
 |模型名称|字典文件|模型简介|配置文件|推理模型大小|下载地址|
 | --- | --- | --- | --- |--- | --- |
 | french_mobile_v2.0_rec | ppocr/utils/dict/french_dict.txt |法文识别|[rec_french_lite_train.yml](../../configs/rec/multi_language/rec_french_lite_train.yml)|2.65M|[推理模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/french_mobile_v2.0_rec_infer.tar) / [训练模型](https://paddleocr.bj.bcebos.com/dygraph_v2.0/multilingual/french_mobile_v2.0_rec_train.tar) |

diff --git a/doc/doc_ch/quickstart.md b/doc/doc_ch/quickstart.md
@@ -1,5 +1,8 @@
 # PaddleOCR快速开始
+
+
 - [PaddleOCR快速开始](#paddleocr)
+
  + [1. 安装PaddleOCR whl包](#1)
  * [2. 便捷使用](#2)
  + [2.1 命令行使用](#21)
@@ -8,7 +11,7 @@
  - [2.1.3 版面分析](#213)
  + [2.2 Python脚本使用](#22)
  - [2.2.1 中英文与多语言使用](#221)
- - [2.2.2 版面分析使用](#222)
+ - [2.2.2 版面分析](#222)
 
 <a name="1"></a>
 
@@ -87,7 +90,7 @@ cd /path/to/ppocr_img
  ```
 
 
-更多whl包使用包括， whl包参数说明
+更多whl包使用可参考[whl包文档](./whl.md)
 
 
 <a name="212"></a>
@@ -127,8 +130,11 @@ paddleocr --image_dir ./imgs_en/254.jpg --lang=en
 
 全部语种及其对应的缩写列表可查看[多语言模型教程](./multi_languages.md)
 <a name="213"></a>
+
 #### 2.1.3 版面分析
 
+版面分析是指对文档图片中的文字、标题、列表、图片和表格5类区域进行划分。对于前三类区域，直接使用OCR模型完成对应区域文字检测与识别，并将结果保存在txt中。对于表格类区域，经过表格结构化处理后，表格图片转换为相同表格样式的Excel文件。图片区域会被单独裁剪成图像。
+
 使用PaddleOCR的版面分析功能，需要指定`--type=structure`
 
 ```bash
@@ -175,7 +181,7 @@ paddleocr --image_dir=./table/1.png --type=structure
  | table_model_dir | 表格结构模型 inference 模型地址 | None |
  | table_char_type | 表格结构模型所用字典地址 | ../ppocr/utils/dict/table_structure_dict.txt |
 
- 大部分参数和paddleocr whl包保持一致，见 [whl包文档](../doc/doc_ch/whl.md)
+ 大部分参数和paddleocr whl包保持一致，见 [whl包文档](./whl.md)
 
  
 
@@ -184,7 +190,7 @@ paddleocr --image_dir=./table/1.png --type=structure
 <a name="221"></a>
 #### 2.2.1 中英文与多语言使用
 
-通过脚本使用PaddleOCR whl包。whl包会自动下载ppocr轻量级模型作为默认模型，
+通过Python脚本使用PaddleOCR whl包，whl包会自动下载ppocr轻量级模型作为默认模型。
 
 * 检测+方向分类器+识别全流程
 
@@ -226,7 +232,7 @@ im_show.save('result.jpg')
  <img src="../imgs_results/whl/11_det_rec.jpg" width="800">
 </div>
 <a name="222"></a>
-#### 2.2.2 版面分析使用
+#### 2.2.2 版面分析
 
 ```python
 import os