新增需求征集（Collect Feature Request） #10334

shiyutang · 2023-07-10T03:25:35Z

我们将这个Issue 保持开放状态，以收集用户的功能请求并听取您的声音。我们的发布计划将在不同的问题上进行更新。

在这个Issue中，您可以：

通过发表评论来建议新功能。
使用 👍 投票支持功能请求，或者使用 👎 反对。（请记住，我们也许无法响应所有功能请求，因此请投票给您最喜欢的功能请求！）
如果你也愿意参加代码贡献，欢迎参与我们的活动 🏅️飞桨套件快乐开源常规赛 #10223。
我们会在上述活动的技术研讨会中对需求进行讨论，如果想要参与讨论你觉得重要的需求，欢迎加入上述活动微信群。

We keep this issue open to collect feature requests from users and hear your voice. Our release plan will be updated on different issues.

In this issue, you can either:

Suggest a new feature by leaving a comment.
Vote for a feature request with 👍 or be against it with 👎. (Remember that developers are busy and cannot respond to all feature requests, so vote for your most favorable one!)
Tell us that you would like to help implement one of the features in the list or review the PRs. Welcome to participate in our activity 🏅️飞桨套件快乐开源常规赛 #10223(This is the greatest thing to hear about! )
Join the above WeChat group in the activity link if you want to discuss the new features with us

shiyutang · 2023-07-10T03:27:13Z

范例：
需求描述：支持文本识别单字位置分割；支持更多小语种模型；训练语种分类模型；文本识别返回单字置信度等
需求场景（这个需求可以解决哪些应用场景的问题）：覆盖小语种的分类场景
潜在解决方案（问题分解）：调取小语种数据集进行训练。

example:
Description of feature request:
Requirement scenarios (what application scenarios can this feature request solve):
Potential solutions (problem breakdown):

WilliamQf-AI · 2023-07-10T03:32:53Z

需求描述：
版面恢复里的功能（恢复为docx或者excel）c++版。
需求场景：
c++版本可以部署到端侧，实现本地本地化的办公文档扫描。
潜在解决方案：
版面分析后，使用minidocx创建docx文档，libxlsxwriter生成excel。

WilliamQf-AI · 2023-07-10T03:33:58Z

需求描述：
返回单字符坐标。
需求场景：
文档比对。

WilliamQf-AI · 2023-07-10T03:37:17Z

需求描述：
拍照图片矫正模型。
需求场景：
办公文档扫描时，对倾斜等图片进行类似边缘检测，透视变换等的矫正功能。

EasyIsAllYouNeed · 2023-07-10T07:25:49Z

需求描述：
返回单字符坐标。
需求场景：
ocr 之后 NLP场景需要对应到原图上的文字位置

Frozen1084 · 2023-07-11T01:24:35Z

需求描述：一个支持简繁英日的东亚模型
需求场景：多语言并存场景下的识别
潜在解决方案（问题分解）：

BeyondYourself · 2023-07-11T06:27:27Z

需求描述：表格结构提取
场景：各种业务场景下的表格，其中包括有线、无线表格
潜在解决方案（问题分解）：

livingbody · 2023-07-11T06:29:25Z

需求描述：古籍识别
需求场景：繁体字识别来一下？

shiyutang · 2023-07-11T11:17:43Z

范例：
需求描述：版面矫正网络论文复现：DocTr++: Deep Unrestricted Document Image Rectification
需求场景（这个需求可以解决哪些应用场景的问题）：大量文档进行版面分析之前需要进行光照、扭曲等矫正
说明：

通过定量实验和定性对比，作者团队验证了 DocTr++ 的性能优势及泛化性，并在现有及所提出的基准测试中刷新了多项最佳记录，是目前最优的文档矫正方案。
暂时没有预训练权重和训练代码，需要按照论文描述重新训练尝试。
潜在解决方案（问题分解）：复现上述论文，代码链接：https://github.com/fh2019ustc/DocTr-Plus

printfxs · 2023-07-11T12:47:09Z

Scene Text Recognition with Permuted Autoregressive Sequence Models,即parseq 文本识别算法效果不错，有没有在paddleOCR上实现。

Bobholamovic · 2023-07-12T06:26:32Z

需求描述：PaddleOCR与PaddleDetection与Pillow新版本10.x不兼容。目前PaddleOCR采用的临时解决方案是在依赖列表中限制只能使用旧版本Pillow（参见 #10344 ），而PaddleDetection未采取任何措施（按照文档安装后，使用deploy/python/visualize.py等部分功能时会直接报错）。出于套件可持续建设的考虑，希望能够适配最新版本的Pillow。

需求场景：目前已发现涉及使用字体的相关场景存在此问题。

潜在解决方案：

对于PaddleOCR和PaddleDetection，修改过时的接口名称或参数（例如FreeTypeFont.getsize），替换为等效的API调用；
对于PaddleOCR，去除requirements.txt中Pillow版本的限制。

EasyIsAllYouNeed · 2023-07-12T12:46:11Z

需求描述：
当前ppocrv3模型存在以下问题：
1 字典不全，没有覆盖《通用规范汉字表》
2 对于字典中存在的生僻字，可能因为训练语料不平衡问题，识别效果很差
希望：
1 扩充中文字典，覆盖《通用规范汉字表》
2 增加平衡语料，重新训练
需求场景：
姓名，古文识别等场景

EasyIsAllYouNeed · 2023-07-12T13:33:18Z

需求描述：
ocr det 之前增加文档方向检测和矫正过程，支持0,90,180,度的文档，
可以作为ppocr命令行参数
需求场景：
手机拍照，文档材料数字化自动化场景

shiyutang · 2023-07-13T03:33:57Z

Scene Text Recognition with Permuted Autoregressive Sequence Models,即parseq 文本识别算法效果不错，有没有在paddleOCR上实现。

@printfxs 我们有集成目前最优的识别模型SVTR
@printfxs 我们打算将其作为任务发布了，不知道有没有想法来参与论文复现任务呢，完成任务可以获得小奖品，还可以我们持续交流，解决问题，互相学习哦。

shiyutang · 2023-07-13T06:58:43Z

@BeyondYourself 请看PP-structure中现有功能能否支持：https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/README_ch.md#2-%E7%89%B9%E6%80%A7

PaddleOCR/ppstructure/table/predict_table.py

Line 58 in fac0387

class TableSystem(object):

https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/table/README_ch.md

jingsongliujing · 2023-07-13T07:28:30Z

你好，我基于paddleocr转换了模型，重构了推理代码，可脱离paddlepaddle训练框架，在精度不变的情况下效率和推理速度都提高了：https://github.com/jingsongliujing/OnnxOCR

shiyutang · 2023-07-13T07:38:29Z

你好，这个可以提交PR到我们的repo中吗？@jingsongliujing

jingsongliujing · 2023-07-13T07:44:37Z

你好，这个可以提交PR到我们的repo中吗？@jingsongliujing

后续是这样，但是不知道提交到那个repo

shiyutang · 2023-10-09T07:49:30Z

建议增加新增字符的功能，因为有很多场景会有一些特殊字符或者语言，这样可以提高ppocr的可用性

你好，新增字符的方式需要重新加入新的字典和数据，并对模型进行finetune。

shiyutang · 2023-10-09T07:51:19Z

需求描述：提供参数接口，传入仅需识别的部分字符（比如仅数字、仅个别英文字母等)，避免识别为其他相似字符（比如数字1和i，数字0和字母O……）需求场景：在特定范围识别时，准确性低（比如生产手写数字数据识别不准）潜在解决方案：个人通过修改后处理过程已经实现了相关功能，但使用不方便：修改rec_postprocess.py文件中的class CTCLabelDecode(BaseRecLabelDecode): 思路：在所有字符概率中，挑选出我们关心的字符概率，在挑选之后看哪个概率最大……

def __call__(self, preds, label=None, *args, **kwargs):
        if isinstance(preds, tuple) or isinstance(preds, list):
            preds = preds[-1]
        if isinstance(preds, paddle.Tensor):
            preds = preds.numpy()
        '''
        limit_char_list = list("0123456789")  # 这里仅识别阿拉伯数字，根据情况增加小数点或其他字符
        limit_char_list.append("blank")  # 必须增加空值【此项是self.character中的第一项，必须加上！！】
        # limit_char_list.append(" ")  # 这行应该没有太大影响
        # 获取要识别的字符（比如0-9）在整个字符集self.character中的位置Index
        char_ind = [self.character.index(char) for char in limit_char_list]
        # [26, 93, 25, 94, 632, 631, 933, 29, 27, 1109, 0] 不连续的，和chinese_dict.txt中的次序不一样！
        # 从preds结果中筛选出我们需要识别字符的概率数据
        my_preds=preds[:,:,char_ind]
        # 获取my_preds中的最大概率和对应索引及概率值
        my_preds_idx = my_preds.argmax(axis=2)  # 注意返回的最大概率序号是mypreds中的序号，也是limit_char_list中的序号，不是preds中的序号
        preds_prob = my_preds.max(axis=2)
        # 将序号列表中自定义字符中的次序修改为self.character中的次序
        preds_idx = np.empty(shape=preds_prob.shape)
        for i,row in enumerate(my_preds_idx):
            preds_idx[i,:] = [ char_ind[j] for j in row ]
        preds_idx = preds_idx.astype(int)
        
        '''
        preds_idx = preds.argmax(axis=2)   #若仅识别特定字符，将上面的块注释去掉，并注释掉这行
        preds_prob = preds.max(axis=2)     #若仅识别特定字符，将上面的块注释去掉，并注释掉这行

看上去你已经实现了相关功能，请问为什么使用不方便呢？欢迎给我们贡献相关代码。

HansBug · 2023-10-09T10:43:09Z

请求新增针对给定图片的语言进行判定的模型。例如对于包含日文的图判定为japanese、对包含俄语的图判定为russian，对于只包含中英的图判定为cn_en。

这个特性的实际意义是，在进行ocr任务的时候，可以对检测到的区域的语言进行判定，以便自动选用合适的文本识别模型，这样即可比较优雅地完成针对任意多语言的ocr任务。

当然，更进一步，可以针对给定的图片进行进一步的拆分，将各个子区域的语言均给出预测，这样甚至可以做到对复杂的多语言混合内容（比如日语、俄语、中文、英文混合的情况）进行准确地识别。

BTW：实际上直接训练一个支持现有主要语言的检测和识别模型也同样可以解决此问题。

gitcnbubble · 2023-10-10T02:16:07Z

需求描述：提供参数接口，传入仅需识别的部分字符（比如仅数字、仅个别英文字母等)，避免识别为其他相似字符（比如数字1和i，数字0和字母O……）需求场景：在特定范围识别时，准确性低（比如生产手写数字数据识别不准）潜在解决方案：个人通过修改后处理过程已经实现了相关功能，但使用不方便：修改rec_postprocess.py文件中的class CTCLabelDecode(BaseRecLabelDecode): 思路：在所有字符概率中，挑选出我们关心的字符概率，在挑选之后看哪个概率最大……

def __call__(self, preds, label=None, *args, **kwargs):
        if isinstance(preds, tuple) or isinstance(preds, list):
            preds = preds[-1]
        if isinstance(preds, paddle.Tensor):
            preds = preds.numpy()
        '''
        limit_char_list = list("0123456789")  # 这里仅识别阿拉伯数字，根据情况增加小数点或其他字符
        limit_char_list.append("blank")  # 必须增加空值【此项是self.character中的第一项，必须加上！！】
        # limit_char_list.append(" ")  # 这行应该没有太大影响
        # 获取要识别的字符（比如0-9）在整个字符集self.character中的位置Index
        char_ind = [self.character.index(char) for char in limit_char_list]
        # [26, 93, 25, 94, 632, 631, 933, 29, 27, 1109, 0] 不连续的，和chinese_dict.txt中的次序不一样！
        # 从preds结果中筛选出我们需要识别字符的概率数据
        my_preds=preds[:,:,char_ind]
        # 获取my_preds中的最大概率和对应索引及概率值
        my_preds_idx = my_preds.argmax(axis=2)  # 注意返回的最大概率序号是mypreds中的序号，也是limit_char_list中的序号，不是preds中的序号
        preds_prob = my_preds.max(axis=2)
        # 将序号列表中自定义字符中的次序修改为self.character中的次序
        preds_idx = np.empty(shape=preds_prob.shape)
        for i,row in enumerate(my_preds_idx):
            preds_idx[i,:] = [ char_ind[j] for j in row ]
        preds_idx = preds_idx.astype(int)
        
        '''
        preds_idx = preds.argmax(axis=2)   #若仅识别特定字符，将上面的块注释去掉，并注释掉这行
        preds_prob = preds.max(axis=2)     #若仅识别特定字符，将上面的块注释去掉，并注释掉这行

看上去你已经实现了相关功能，请问为什么使用不方便呢？欢迎给我们贡献相关代码。

需要来回注释代码，个人再去改命令行的代码改动的位置可能有点多，能力有限，代码效率不一定好；建议官方增加一个命令行参数，传入仅需要识别的字符（字符串或者类似dict.txt字典文件的样子）这样来用更方便。
此外，个人根据调试信息，仅修改的CTCLabelDecode类里面的代码，该文件中还有其他相似的类应该也可以进行类似调整，但那些类在什么时候调用不清楚，还没有吃透整体的程序处理流程

tzhang2014 · 2023-10-12T11:13:01Z

基于昆仑芯R200适配PaddleOCR

anbo724 · 2023-10-16T08:16:25Z

建议增加新增字符的功能，因为有很多场景会有一些特殊字符或者语言，这样可以提高ppocr的可用性

你好，新增字符的方式需要重新加入新的字典和数据，并对模型进行finetune。

你好，使用新增数据进行增量训练之后，模型本身的识别能力会严重下降吗？

ZhouBay-TF · 2023-10-19T05:54:28Z

识别后的文字根据原文恢复排版，去除拍照造成的同一行字Y轴不同的现象。

shiyutang · 2023-10-19T06:09:49Z

建议增加新增字符的功能，因为有很多场景会有一些特殊字符或者语言，这样可以提高ppocr的可用性

你好，新增字符的方式需要重新加入新的字典和数据，并对模型进行finetune。

你好，使用新增数据进行增量训练之后，模型本身的识别能力会严重下降吗？

可以微调，减少轮数/学习率，
不会过于严重

shiyutang · 2023-10-19T07:37:47Z

识别后的文字根据原文恢复排版，去除拍照造成的同一行字Y轴不同的现象。

我们已经支持返回单字识别的坐标了，可以基于这个#10515 ，使用自己的字体恢复了。

ZhouBay-TF · 2023-10-19T09:12:07Z

识别后的文字根据原文恢复排版，去除拍照造成的同一行字Y轴不同的现象。

我们已经支持返回单字识别的坐标了，可以基于这个#10515 ，使用自己的字体恢复
非常感谢，我去试试

Arlen-yuzu · 2023-10-19T15:32:47Z

需求描述：PPOCRLabel工具在表格结构识别标注的功能中，增加对单元格标注框类别class label的标注功能
需求场景：给表格标注增加单元格类别标注
潜在解决方案（问题分解）：改进PPOCRLabel工具

CassieFeng · 2023-11-02T06:50:18Z

#10404 ，这个issue看回复说登记到需求池里面了，点击进来没看到，再update一下~

需求描述：KIE (SER和RE两个任务)支持长度大于512的文档infer
需求场景：很多图片的文字内容长度都超过512这个范围限制了，希望能支持该功能，或者是否现在有其他替换方案

wangxu372848892 · 2023-11-07T01:22:26Z

需求描述：c++版本tensorRT的demo每次运行都要大量时间构建trt-engine,期望提供一个临时cache文件夹，固化保存
需求场景： trt方案中，进程重启的场景
潜在解决方案（问题分解）：fastDeploy中提供了trt_engine的cache路径。

chang50961471 · 2023-11-10T05:11:13Z

带文字的图像矫正模型，可以矫正任意角度的图片

wzz981 · 2023-11-10T08:53:41Z

需求描述：针对文本检测在行列方向遇到离得近的文本可能更会检测成同一区域文本，大多数文档的表格中的单元格文字可能在行方向的文本之间的距离比在列方向的文本离得还远，那么就会出现把列方向的文本检测为同一区域文本。希望文本检测模型能分开行检测和列检测模型。

需求场景（这个需求可以解决哪些应用场景的问题）：大多数存在表格的文档图像，比如户口本、发票、驾驶证等
潜在解决方案（问题分解）：文本检测模型分别微调出行检测和列检测模型。

AugensternDu · 2023-12-26T00:45:29Z

需求描述：返回单字符坐标。需求场景：文档比对。

请问现在有技术去实现吗

zjp99 · 2024-01-05T09:11:51Z

范例：
需求描述：支持工业场景文本识别，主要是背景复杂，字体边界容易有背景干扰，也就是说字体分割无法和背景清晰分出
需求场景（这个需求可以解决哪些应用场景的问题）：工业零件上字体识别，新生产的字体清晰，但维修或者旧的不清晰
潜在解决方案（问题分解）：负责背景识别

linjson · 2024-01-17T02:08:44Z

需求描述:希望能在apple m2上可以完全运行

chch9907 · 2024-01-29T04:06:24Z

需求描述：自然场景下的繁体字识别（chinese_cht_PP-OCRv3对于一些自然场景中的文字识别的不够准确）
需求场景：繁体字地区自然场景下的繁体字识别，如路牌、店铺名称等。

icdcg · 2024-02-27T02:08:05Z

需求描述：基于C#预测引擎推理部署
需求场景：各类基于.Net平台的项目中，能够方便的调用模型进行识别工作
潜在解决方案（问题分解）：使用C#语言编写一个推理部署的样例项目。

He110te4m · 2024-03-12T08:04:52Z

需求描述：国际化切换后文本布局对比。
需求场景（这个需求可以解决哪些应用场景的问题）：网站进行语言切换后，识别排版是否混乱，如文本溢出、高度溢出等异常场景，与无头浏览器结合为国际化测试解决方案。
潜在解决方案（问题分解）：对页面截图进行文本区域检测，对比文本区域数量、文本区域的大小。

AnitaSherry · 2024-04-29T02:37:11Z

不知道是什么语种的时候希望加一个自动识别语言的多语言模型

paddle-bot bot assigned andyjiang1116 Jul 10, 2023

shiyutang pinned this issue Jul 10, 2023

shiyutang assigned shiyutang and unassigned andyjiang1116 Jul 10, 2023

shiyutang added good first issue Good for newcomers contributor labels Jul 10, 2023

Ligoml unpinned this issue Feb 28, 2024

paddle-bot bot assigned tink2123 Mar 8, 2024

charliedream1 mentioned this issue Apr 7, 2024

求助：ppstructure和ocr是否支持batch推理？请给个样例 #11884

Closed

cnszmike mentioned this issue Apr 26, 2024

很久没有增加新的模型了，能否把MixNet加进来？https://github.com/D641593/MixNet #12011

Closed

greatliu mentioned this issue May 24, 2024

混贴票据识别 #12170

Closed

nissansz mentioned this issue Jun 4, 2024

rec_svtrnet_ch.yml 配置训练的图片，识别报错 #12646

Open

PaddlePaddle locked and limited conversation to collaborators Jun 5, 2024

SWHL converted this issue into discussion #12727 Jun 5, 2024

This issue was moved to a discussion.

新增需求征集（Collect Feature Request） #10334

新增需求征集（Collect Feature Request） #10334

Comments

shiyutang commented Jul 10, 2023 • edited

shiyutang commented Jul 10, 2023 • edited

WilliamQf-AI commented Jul 10, 2023

WilliamQf-AI commented Jul 10, 2023

WilliamQf-AI commented Jul 10, 2023

EasyIsAllYouNeed commented Jul 10, 2023

Frozen1084 commented Jul 11, 2023

BeyondYourself commented Jul 11, 2023

livingbody commented Jul 11, 2023

shiyutang commented Jul 11, 2023 • edited

printfxs commented Jul 11, 2023

Bobholamovic commented Jul 12, 2023 • edited

EasyIsAllYouNeed commented Jul 12, 2023 • edited

EasyIsAllYouNeed commented Jul 12, 2023

shiyutang commented Jul 13, 2023 • edited

shiyutang commented Jul 13, 2023 • edited

jingsongliujing commented Jul 13, 2023

shiyutang commented Jul 13, 2023

jingsongliujing commented Jul 13, 2023

shiyutang commented Oct 9, 2023

shiyutang commented Oct 9, 2023

HansBug commented Oct 9, 2023

gitcnbubble commented Oct 10, 2023 • edited

tzhang2014 commented Oct 12, 2023 • edited

anbo724 commented Oct 16, 2023

ZhouBay-TF commented Oct 19, 2023

shiyutang commented Oct 19, 2023

shiyutang commented Oct 19, 2023 • edited

ZhouBay-TF commented Oct 19, 2023

Arlen-yuzu commented Oct 19, 2023

CassieFeng commented Nov 2, 2023

wangxu372848892 commented Nov 7, 2023 • edited

chang50961471 commented Nov 10, 2023

wzz981 commented Nov 10, 2023

AugensternDu commented Dec 26, 2023

zjp99 commented Jan 5, 2024

linjson commented Jan 17, 2024

chch9907 commented Jan 29, 2024

icdcg commented Feb 27, 2024

He110te4m commented Mar 12, 2024

AnitaSherry commented Apr 29, 2024

This issue was moved to a discussion.

shiyutang commented Jul 10, 2023 •

edited

shiyutang commented Jul 10, 2023 •

edited

shiyutang commented Jul 11, 2023 •

edited

Bobholamovic commented Jul 12, 2023 •

edited

EasyIsAllYouNeed commented Jul 12, 2023 •

edited

shiyutang commented Jul 13, 2023 •

edited

shiyutang commented Jul 13, 2023 •

edited

gitcnbubble commented Oct 10, 2023 •

edited

tzhang2014 commented Oct 12, 2023 •

edited

shiyutang commented Oct 19, 2023 •

edited

wangxu372848892 commented Nov 7, 2023 •

edited