update dataset doc

PaddlePaddle · Apr 27, 2022 · f0c7369 · f0c7369
1 parent f28d8ae
commit f0c7369
Show file tree

Hide file tree

Showing 8 changed files with 302 additions and 324 deletions.
diff --git a/doc/doc_ch/dataset/ocr_datasets.md b/doc/doc_ch/dataset/ocr_datasets.md
@@ -1,23 +1,43 @@
-## OCR数据集
+# OCR数据集
 
-- [1. 文本检测](#1)
- - [1.1 ICDAR 2015](#11)
-- [2. 文本识别](#2)
+- [OCR数据集](#ocr数据集)
+ - [1. 文本检测](#1-文本检测)
+ - [1.1 PaddleOCR 文字检测数据格式](#11-paddleocr-文字检测数据格式)
+ - [1.2 公开数据集](#12-公开数据集)
+ - [1.2.1 ICDAR 2015](#121-icdar-2015)
+ - [2. 文本识别](#2-文本识别)
+ - [2.1 PaddleOCR 文字识别数据格式](#21-paddleocr-文字识别数据格式)
+ - [2.2 公开数据集](#22-公开数据集)
+ - [2.1 ICDAR 2015](#21-icdar-2015)
+ - [3. 数据存放路径](#3-数据存放路径)
 
 这里整理了OCR中常用的公开数据集，持续更新中，欢迎各位小伙伴贡献数据集～
 
-<a name="1"></a>
-### 1. 文本检测
+## 1. 文本检测
 
-| 数据集名称 |图片下载地址| PPOCR标注下载地址 |
+### 1.1 PaddleOCR 文字检测数据格式
+
+
+PaddleOCR 中的文本检测算法支持的标注文件格式如下，中间用"\t"分隔：
+```
+" 图像文件名 json.dumps编码的图像标注信息"
+ch4_test_images/img_61.jpg [{"transcription": "MASA", "points": [[310, 104], [416, 141], [418, 216], [312, 179]]}, {...}]
+```
+json.dumps编码前的图像标注信息是包含多个字典的list，字典中的 `points` 表示文本框的四个点的坐标(x, y)，从左上角的点开始顺时针排列。
+`transcription` 表示当前文本框的文字，**当其内容为“###”时，表示该文本框无效，在训练时会跳过。**
+
+如果您想在我们未提供的数据集上训练，可以按照上述形式构建标注文件。
+
+### 1.2 公开数据集
+
+| 数据集名称 |图片下载地址| PaddleOCR 标注下载地址 |
 |---|---|---|
 | ICDAR 2015 |https://rrc.cvc.uab.es/?ch=4&com=downloads| [train](https://paddleocr.bj.bcebos.com/dataset/train_icdar2015_label.txt) / [test](https://paddleocr.bj.bcebos.com/dataset/test_icdar2015_label.txt) |
 | ctw1500 |https://paddleocr.bj.bcebos.com/dataset/ctw1500.zip| 图片下载地址中已包含 |
 | total text |https://paddleocr.bj.bcebos.com/dataset/total_text.tar| 图片下载地址中已包含 |
 
-<a name="11"></a>
-#### 1.1 ICDAR 2015
-icdar2015 数据集包含1000张训练图像和500张测试图像。icdar2015数据集可以从上表中链接下载，首次下载需注册。
+#### 1.2.1 ICDAR 2015
+ICDAR 2015 数据集包含1000张训练图像和500张测试图像。ICDAR 2015 数据集可以从上表中链接下载，首次下载需注册。
 注册完成登陆后，下载下图中红色框标出的部分，其中， `Training Set Images`下载的内容保存在`icdar_c4_train_imgs`文件夹下，`Test Set Images` 下载的内容保存早`ch4_test_images`文件夹下
 
 <p align="center">
@@ -44,9 +64,102 @@ python gen_label.py --mode="det" --root_path="/path/to/icdar_c4_train_imgs/" \
  └─ test_icdar2015_label.txt icdar 2015 数据集的测试标注
 ```
 
-<a name="2"></a>
-### 2. 文本识别
+## 2. 文本识别
+
+### 2.1 PaddleOCR 文字识别数据格式
+
+PaddleOCR 中的文字识别算法支持两种数据格式:
+
+ - `lmdb` 用于训练以lmdb格式存储的数据集，使用 [lmdb_dataset.py](../../../ppocr/data/lmdb_dataset.py) 进行读取;
+ - `通用数据` 用于训练以文本文件存储的数据集，使用 [simple_dataset.py](../../../ppocr/data/simple_dataset.py)进行读取。
+
+下面以通用数据集为例， 介绍如何准备数据集：
+
+* 训练集
+
+建议将训练图片放入同一个文件夹，并用一个txt文件（rec_gt_train.txt）记录图片路径和标签，txt文件里的内容如下:
+
+**注意：** txt文件中默认请将图片路径和图片标签用 \t 分割，如用其他方式分割将造成训练报错。
+
+```
+" 图像文件名 图像标注信息 "
+
+train_data/rec/train/word_001.jpg 简单可依赖
+train_data/rec/train/word_002.jpg 用科技让复杂的世界更简单
+...
+```
+
+最终训练集应有如下文件结构：
+```
+|-train_data
+ |-rec
+ |- rec_gt_train.txt
+ |- train
+ |- word_001.png
+ |- word_002.jpg
+ |- word_003.jpg
+ | ...
+```
+
+除上述单张图像为一行格式之外，PaddleOCR也支持对离线增广后的数据进行训练，为了防止相同样本在同一个batch中被多次采样，我们可以将相同标签对应的图片路径写在一行中，以列表的形式给出，在训练中，PaddleOCR会随机选择列表中的一张图片进行训练。对应地，标注文件的格式如下。
+
+```
+["11.jpg", "12.jpg"] 简单可依赖
+["21.jpg", "22.jpg", "23.jpg"] 用科技让复杂的世界更简单
+3.jpg ocr
+```
+
+上述示例标注文件中，"11.jpg"和"12.jpg"的标签相同，都是`简单可依赖`，在训练的时候，对于该行标注，会随机选择其中的一张图片进行训练。
+
+
+- 验证集
+
+同训练集类似，验证集也需要提供一个包含所有图片的文件夹（test）和一个rec_gt_test.txt，验证集的结构如下所示：
+
+```
+|-train_data
+ |-rec
+ |- rec_gt_test.txt
+ |- test
+ |- word_001.jpg
+ |- word_002.jpg
+ |- word_003.jpg
+ | ...
+```
+
 
-| 数据集名称 | 图片下载地址 | PPOCR标注下载地址 |
+### 2.2 公开数据集
+
+| 数据集名称 | 图片下载地址 | PaddleOCR 标注下载地址 |
 |---|---|---------------------------------------------------------------------|
 | en benchmark(MJ, SJ, IIIT, SVT, IC03, IC13, IC15, SVTP, and CUTE.) | [DTRB](https://github.com/clovaai/deep-text-recognition-benchmark#download-lmdb-dataset-for-traininig-and-evaluation-from-here) | LMDB格式，可直接用[lmdb_dataset.py](../../../ppocr/data/lmdb_dataset.py)加载 |
+|ICDAR 2015| https://rrc.cvc.uab.es/?ch=4&com=downloads | [train](https://paddleocr.bj.bcebos.com/dataset/rec_gt_train.txt)/ [test](https://paddleocr.bj.bcebos.com/dataset/rec_gt_test.txt) |
+| 多语言数据集 |[百度网盘](https://pan.baidu.com/s/1bS_u207Rm7YbY33wOECKDA) 提取码：frgi <br> [google drive](https://drive.google.com/file/d/18cSWX7wXSy4G0tbKJ0d9PuIaiwRLHpjA/view) | 图片下载地址中已包含 |
+
+#### 2.1 ICDAR 2015
+
+ICDAR 2015 数据集可以在上表中链接下载，用于快速验证。也可以从上表中下载 en benchmark 所需的lmdb格式数据集。
+
+下载完图片后从上表中下载转换好的标注文件。
+
+PaddleOCR 也提供了数据格式转换脚本，可以将ICDAR官网 label 转换为PaddleOCR支持的数据格式。 数据转换工具在 `ppocr/utils/gen_label.py`, 这里以训练集为例：
+
+```
+# 将官网下载的标签文件转换为 rec_gt_label.txt
+python gen_label.py --mode="rec" --input_path="{path/of/origin/label}" --output_label="rec_gt_label.txt"
+```
+
+数据样式格式如下，(a)为原始图片,(b)为每张图片对应的 Ground Truth 文本文件：
+![](../../datasets/icdar_rec.png)
+
+
+## 3. 数据存放路径
+
+PaddleOCR训练数据的默认存储路径是 `PaddleOCR/train_data`,如果您的磁盘上已有数据集，只需创建软链接至数据集目录：
+
+```
+# linux and mac os
+ln -sf <path/to/dataset> <path/to/paddle_ocr>/train_data/dataset
+# windows
+mklink /d <path/to/paddle_ocr>/train_data/dataset <path/to/dataset>
+```
diff --git a/doc/doc_ch/dataset/table_datasets.md b/doc/doc_ch/dataset/table_datasets.md
@@ -5,8 +5,7 @@
  - [1. PubTabNet数据集](#1-pubtabnet数据集)
  - [2. 好未来表格识别竞赛数据集](#2-好未来表格识别竞赛数据集)
 
-这里整理了常用版面分析数据集，持续更新中，欢迎各位小伙伴贡献数据集～
-版面分析数据集多为目标检测数据集，除了开源数据，用户还可使用合成工具自行合成，如[labelme](https://github.com/wkentaro/labelme)等。
+这里整理了常用表格识别数据集，持续更新中，欢迎各位小伙伴贡献数据集～
 
 ## 数据集汇总
 

diff --git a/doc/doc_ch/detection.md b/doc/doc_ch/detection.md
@@ -1,50 +1,32 @@
-shu
 # 文字检测
 
 本节以icdar2015数据集为例，介绍PaddleOCR中检测模型训练、评估、测试的使用方式。
 
-- [1. 准备数据和模型](#1--------)
- * [1.1 数据准备](#11-----)
- * [1.1 数据准备](#111-----)
- * [1.1 数据准备](#112-----)
- * [1.2 下载预训练模型](#12--------)
-- [2. 开始训练](#2-----)
- * [2.1 启动训练](#21-----)
- * [2.2 断点训练](#22-----)
- * [2.3 更换Backbone 训练](#23---backbone---)
- * [2.4 混合精度训练](#24---amp---)
- * [2.5 分布式训练](#25---fleet---)
- * [2.6 知识蒸馏训练](#26---distill---)
- * [2.7 其他训练环境（Windows/macOS/Linux DCU）](#27---other---)
-- [3. 模型评估与预测](#3--------)
- * [3.1 指标评估](#31-----)
- * [3.2 测试检测效果](#32-------)
-- [4. 模型导出与预测](#4--------)
+- [文字检测](#文字检测)
+- [1. 准备数据和模型](#1-准备数据和模型)
+ - [1.1 准备数据集](#11-准备数据集)
+ - [1.2 下载预训练模型](#12-下载预训练模型)
+- [2. 开始训练](#2-开始训练)
+ - [2.1 启动训练](#21-启动训练)
+ - [2.2 断点训练](#22-断点训练)
+ - [2.3 更换Backbone 训练](#23-更换backbone-训练)
+ - [2.4 混合精度训练](#24-混合精度训练)
+ - [2.5 分布式训练](#25-分布式训练)
+ - [2.6 知识蒸馏训练](#26-知识蒸馏训练)
+ - [2.7 其他训练环境](#27-其他训练环境)
+- [3. 模型评估与预测](#3-模型评估与预测)
+ - [3.1 指标评估](#31-指标评估)
+ - [3.2 测试检测效果](#32-测试检测效果)
+- [4. 模型导出与预测](#4-模型导出与预测)
 - [5. FAQ](#5-faq)
 
 <a name="1--------"></a>
 # 1. 准备数据和模型
 
-<a name="11-----"></a>
-## 1.1 数据准备
+## 1.1 准备数据集
 
-<a name="111-----"></a>
-### 1.1.1 公开数据集
+准备数据集可参考 [ocr_datasets](./dataset/ocr_datasets.md) 。
 
-公开数据集可参考 [ocr_datasets](./dataset/ocr_datasets.md) 进行下载和准备。
-
-<a name="112-----"></a>
-### 1.1.2 自定义数据集
-
-PaddleOCR 文本检测算法支持的标注文件格式如下，中间用"\t"分隔：
-```
-" 图像文件名 json.dumps编码的图像标注信息"
-ch4_test_images/img_61.jpg [{"transcription": "MASA", "points": [[310, 104], [416, 141], [418, 216], [312, 179]]}, {...}]
-```
-json.dumps编码前的图像标注信息是包含多个字典的list，字典中的 `points` 表示文本框的四个点的坐标(x, y)，从左上角的点开始顺时针排列。
-`transcription` 表示当前文本框的文字，**当其内容为“###”时，表示该文本框无效，在训练时会跳过。**
-
-如果您想在我们未提供的数据集上训练，可以按照上述形式构建标注文件。
 
 <a name="12--------"></a>
 ## 1.2 下载预训练模型

diff --git a/doc/doc_ch/recognition.md b/doc/doc_ch/recognition.md
@@ -4,10 +4,9 @@
 
 - [文字识别](#文字识别)
  - [1. 数据准备](#1-数据准备)
- - [1.1 自定义数据集](#11-自定义数据集)
- - [1.2 数据下载](#12-数据下载)
- - [1.3 字典](#13-字典)
- - [1.4 添加空格类别](#14-添加空格类别)
+ - [1.1 准备数据集](#11-准备数据集)
+ - [1.2 字典](#12-字典)
+ - [1.3 添加空格类别](#13-添加空格类别)
  - [2. 启动训练](#2-启动训练)
  - [2.1 数据增强](#21-数据增强)
  - [2.2 通用模型训练](#22-通用模型训练)
@@ -21,114 +20,14 @@
 <a name="数据准备"></a>
 ## 1. 数据准备
 
+### 1.1 准备数据集
 
-PaddleOCR 支持两种数据格式:
- - `lmdb` 用于训练以lmdb格式存储的数据集(LMDBDataSet);
- - `通用数据` 用于训练以文本文件存储的数据集(SimpleDataSet);
-
-训练数据的默认存储路径是 `PaddleOCR/train_data`,如果您的磁盘上已有数据集，只需创建软链接至数据集目录：
-
-```
-# linux and mac os
-ln -sf <path/to/dataset> <path/to/paddle_ocr>/train_data/dataset
-# windows
-mklink /d <path/to/paddle_ocr>/train_data/dataset <path/to/dataset>
-```
-
-<a name="准备数据集"></a>
-### 1.1 自定义数据集
-下面以通用数据集为例， 介绍如何准备数据集：
-
-* 训练集
-
-建议将训练图片放入同一个文件夹，并用一个txt文件（rec_gt_train.txt）记录图片路径和标签，txt文件里的内容如下:
-
-**注意：** txt文件中默认请将图片路径和图片标签用 \t 分割，如用其他方式分割将造成训练报错。
-
-```
-" 图像文件名 图像标注信息 "
-
-train_data/rec/train/word_001.jpg 简单可依赖
-train_data/rec/train/word_002.jpg 用科技让复杂的世界更简单
-...
-```
-
-最终训练集应有如下文件结构：
-```
-|-train_data
- |-rec
- |- rec_gt_train.txt
- |- train
- |- word_001.png
- |- word_002.jpg
- |- word_003.jpg
- | ...
-```
-
-除上述单张图像为一行格式之外，PaddleOCR也支持对离线增广后的数据进行训练，为了防止相同样本在同一个batch中被多次采样，我们可以将相同标签对应的图片路径写在一行中，以列表的形式给出，在训练中，PaddleOCR会随机选择列表中的一张图片进行训练。对应地，标注文件的格式如下。
-
-```
-["11.jpg", "12.jpg"] 简单可依赖
-["21.jpg", "22.jpg", "23.jpg"] 用科技让复杂的世界更简单
-3.jpg ocr
-```
-
-上述示例标注文件中，"11.jpg"和"12.jpg"的标签相同，都是`简单可依赖`，在训练的时候，对于该行标注，会随机选择其中的一张图片进行训练。
-
-
-- 验证集
-
-同训练集类似，验证集也需要提供一个包含所有图片的文件夹（test）和一个rec_gt_test.txt，验证集的结构如下所示：
-
-```
-|-train_data
- |-rec
- |- rec_gt_test.txt
- |- test
- |- word_001.jpg
- |- word_002.jpg
- |- word_003.jpg
- | ...
-```
-
-<a name="数据下载"></a>
-
-### 1.2 数据下载
-
-- ICDAR2015
-
-若您本地没有数据集，可以在官网下载 [ICDAR2015](https://rrc.cvc.uab.es/?ch=4&com=downloads) 数据，用于快速验证。也可以参考[DTRB](https://github.com/clovaai/deep-text-recognition-benchmark#download-lmdb-dataset-for-traininig-and-evaluation-from-here) ，下载 benchmark 所需的lmdb格式数据集。
+准备数据集可参考 [ocr_datasets](./dataset/ocr_datasets.md) 。
 
 如果希望复现SAR的论文指标，需要下载[SynthAdd](https://pan.baidu.com/share/init?surl=uV0LtoNmcxbO-0YA7Ch4dg), 提取码：627x。此外，真实数据集icdar2013, icdar2015, cocotext, IIIT5也作为训练数据的一部分。具体数据细节可以参考论文SAR。
 
-如果你使用的是icdar2015的公开数据集，PaddleOCR 提供了一份用于训练 ICDAR2015 数据集的标签文件，通过以下方式下载：
-
-```
-# 训练集标签
-wget -P ./train_data/ic15_data https://paddleocr.bj.bcebos.com/dataset/rec_gt_train.txt
-# 测试集标签
-wget -P ./train_data/ic15_data https://paddleocr.bj.bcebos.com/dataset/rec_gt_test.txt
-```
-
-PaddleOCR 也提供了数据格式转换脚本，可以将ICDAR官网 label 转换为PaddleOCR支持的数据格式。 数据转换工具在 `ppocr/utils/gen_label.py`, 这里以训练集为例：
-
-```
-# 将官网下载的标签文件转换为 rec_gt_label.txt
-python gen_label.py --mode="rec" --input_path="{path/of/origin/label}" --output_label="rec_gt_label.txt"
-```
-
-数据样式格式如下，(a)为原始图片,(b)为每张图片对应的 Ground Truth 文本文件：
-![](../datasets/icdar_rec.png)
-
-- 多语言数据集
-
-多语言模型的训练数据集均为100w的合成数据，使用了开源合成工具 [text_renderer](https://github.com/Sanster/text_renderer) ，少量的字体可以通过下面两种方式下载。
-* [百度网盘](https://pan.baidu.com/s/1bS_u207Rm7YbY33wOECKDA) 提取码：frgi
-* [google drive](https://drive.google.com/file/d/18cSWX7wXSy4G0tbKJ0d9PuIaiwRLHpjA/view)
-
-
 <a name="字典"></a>
-### 1.3 字典
+### 1.2 字典
 
 最后需要提供一个字典（{word_dict_name}.txt），使模型在训练时，可以将所有出现的字符映射为字典的索引。
 
@@ -174,7 +73,7 @@ PaddleOCR内置了一部分字典，可以按需使用。
 如需自定义dic文件，请在 `configs/rec/rec_icdar15_train.yml` 中添加 `character_dict_path` 字段, 指向您的字典路径。
 
 <a name="支持空格"></a>
-### 1.4 添加空格类别
+### 1.3 添加空格类别
 
 如果希望支持识别"空格"类别, 请将yml文件中的 `use_space_char` 字段设置为 `True`。