A question about PaddleOCR.page_num #10965

warmpine · 2023-09-22T02:34:35Z

这是一个有关PaddleOCR.page_num的问题，通过阅读源码，我的理解是：这个page_num是初始化PaddleOCR时指定的页码选项，比如说page_num设置为2，就只会识别前两幅图片的内容。

我观察了下源码里page_num没有重新归零的设定，这样的话，就会导致我在复用PaddleOCR对象时出现问题，比如说我第一次.ocr()时传进来一个2页的PDF，或者2张图片，此时page_num会被赋值为2，那么如果第二次传进来一个3页的PDF，或者3张图片的话，这个page_num就会生效，ocr()函数只会识别前2张图片，请问我的理解对吗？

相关代码：

PaddleOCR/paddleocr.py

Line 650 in 5ce67ec

if self.page_num > len(img) or self.page_num == 0:

        if isinstance(img, list):
            if self.page_num > len(img) or self.page_num == 0:
                self.page_num = len(img)
            imgs = img[:self.page_num]
        else:
            imgs = [img]

BrownTen · 2023-11-28T06:33:12Z

是的，没错！我也遇到了同样的问题，修改一下源代码就好了。

paddle-bot bot assigned andyjiang1116 Sep 22, 2023

paddle-bot bot assigned tink2123 Mar 8, 2024

SWHL unassigned tink2123 and andyjiang1116 Jun 10, 2024

SWHL added the bug Something isn't working label Jun 10, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

A question about PaddleOCR.page_num #10965

A question about PaddleOCR.page_num #10965

warmpine commented Sep 22, 2023

BrownTen commented Nov 28, 2023

A question about PaddleOCR.page_num #10965

A question about PaddleOCR.page_num #10965

Comments

warmpine commented Sep 22, 2023

BrownTen commented Nov 28, 2023