CN113065400A - 基于无锚框两阶段网络检测发票印章的方法及装置 - Google Patents
基于无锚框两阶段网络检测发票印章的方法及装置 Download PDFInfo
- Publication number
- CN113065400A CN113065400A CN202110242359.XA CN202110242359A CN113065400A CN 113065400 A CN113065400 A CN 113065400A CN 202110242359 A CN202110242359 A CN 202110242359A CN 113065400 A CN113065400 A CN 113065400A
- Authority
- CN
- China
- Prior art keywords
- feature map
- invoice
- frame
- anchor
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 50
- 238000007781 pre-processing Methods 0.000 claims abstract description 42
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000011176 pooling Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于无锚框两阶段网络检测发票印章的方法及装置,涉及票据文本检测技术领域;方法包括S1发票图片预处理,处理器对发票图片图像预处理并获得统一尺寸的预处理图片;S2提取预处理后图片特征,处理器将预处理图片输入至特征提取卷积神经网络并获得特征图;S3生成无锚框候选区域,处理器对特征图分别进行类别判断分支和位置回归分支处理并生成无锚框候选区域;装置包括发票图片预处理模块、提取预处理后图片特征模块和生成无锚框候选区域模块;其通过步骤S1至步骤S4等,实现发票印章检测第一阶段中锚框冗余度较小,提升了检测发票印章的工作效率。
Description
技术领域
本发明涉及票据文本检测技术领域,尤其涉及一种基于无锚框两阶段网络检测发票印章的方法及装置。
背景技术
发票是企业费用报销中的一个重要组成部分,包含了发票名称、开票日期、开票金额、印章等多项报销所必需信息,其中对于印章的检测识别目前主要由人工对比,其缺点是人为因素多、准确性差、工作效率低、非常的耗时耗力,如果能够将深度学习技术要用到发票印章上,实现信息的自动提取,将会极大的节省人力资源成本。
发票印章信息自动提取流程包含了候选区域生成、区域坐标调整和内容识别两个阶段。作为整个流程的基础步骤,第一个环节候选区域生成面临着更多的问题。现有的基于深度学习的方法主要分为基于锚框的方法以及基于无锚框的方法。基于锚框的方法预先在图像的特征图上生成密集的固定大小和尺寸比的先验锚框,然后基于这些锚框进行后续的优化。这种方法通常是两阶段的,第一阶段通过区域生成网络将先验框调整生成候选框,第二阶段对这些候选框内的特征进行进一步内容分析与判断。但是在利用锚框时需要设置超参数,并且会产生大量冗余先验框,增加了问题的复杂程度。基于无锚框的方法直接对特征图上的每个像素点建模到四个边的距离以及类别,这种方法简单快速,然而准确度不如拥有第二阶段微调的两阶段方法。在发票印章的检测场景下,漏检、边界不正确会极大的影响后续其他处理。
现有技术问题及思考:
如何解决发票印章检测第一阶段中锚框冗余的技术问题。
发明内容
本发明所要解决的技术问题是提供一种基于无锚框两阶段网络检测发票印章的方法及装置,其通过步骤S1至步骤S4等,实现发票印章检测第一阶段中锚框冗余度较小,提升了检测发票印章的工作效率。
为解决上述技术问题,本发明所采取的技术方案是:一种基于无锚框两阶段网络检测发票印章的方法包括如下步骤,S1发票图片预处理,处理器从存储器获取发票图片,对发票图片图像预处理并获得统一尺寸的预处理图片;S2提取预处理后图片特征,处理器将预处理图片输入至特征提取卷积神经网络并获得特征图,所述特征提取卷积神经网络为基于ResNet-50卷积神经网络去掉其最后的全连接层和池化层而获得的神经网络,所述特征图为经过特征提取卷积神经网络而形成的最后一层的特征图;S3生成无锚框候选区域,处理器对特征图分别进行类别判断分支和位置回归分支处理并生成无锚框候选区域,所述类别判断分支和位置回归分支处理为分别取两个3×3的窗口与特征图进行卷积。
进一步的技术方案在于:步骤S1具体包括如下步骤,S101旋转处理,处理器对预处理图片做随机旋转处理,以50%的概率进行水平旋转并获得旋转图片;S102归一化处理,处理器将旋转图片进行归一化处理并获得归一化图片;S103统一图片,处理器将上述归一化图片进行填充并获得统一尺寸的预处理图片;在步骤S2中,所述特征图为最后得到的大小为C×H×W的特征向量矩阵F,其中,C为图像的通道,H为图像的高度,W为图像的宽度。
进一步的技术方案在于:在步骤S3之后还包括如下步骤,S4截取区域特征,处理器通过无锚框候选区域对特征图进行截取并获得区域特征图;S5分类与回归,处理器基于K*K*C的区域特征图进行分类和回归处理。
进一步的技术方案在于:在步骤S4中,基于任一候选框沿特征图的高度和宽度方向都平均切成K份,获得K*K个方格,对每一个方格进行最大池化,获得K*K*C的区域特征图,K=5,C=512;在步骤S5中,对于每一个区域特征图,分别经过分类分支和回归分支,每个分支都是四层3x3的卷积层,分类分支最后输出的特征图形状为H*W*N,回归分支最后输出的特征图形状为H*W*4,其中N为待分类的类别数目,4为回归得到的到四个边的距离。
一种基于无锚框两阶段网络检测发票印章的装置包括发票图片预处理模块、提取预处理后图片特征模块和生成无锚框候选区域模块,发票图片预处理模块为程序模块,用于处理器从存储器获取发票图片,对发票图片图像预处理并获得统一尺寸的预处理图片;提取预处理后图片特征模块为程序模块,用于处理器将预处理图片输入至特征提取卷积神经网络并获得特征图,所述特征提取卷积神经网络为基于ResNet-50卷积神经网络去掉其最后的全连接层和池化层而获得的神经网络,所述特征图为经过特征提取卷积神经网络而形成的最后一层的特征图;生成无锚框候选区域模块为程序模块,用于处理器对特征图分别进行类别判断分支和位置回归分支处理并生成无锚框候选区域,所述类别判断分支和位置回归分支处理为分别取两个3×3的窗口与特征图进行卷积。
进一步的技术方案在于:所述发票图片预处理模块,还用于处理器对预处理图片做随机旋转处理,以50%的概率进行水平旋转并获得旋转图片,处理器将旋转图片进行归一化处理并获得归一化图片,处理器将上述归一化图片进行填充并获得统一尺寸的预处理图片;在提取预处理后图片特征模块中,所述特征图为最后得到的大小为C×H×W的特征向量矩阵F,其中,C为图像的通道,H为图像的高度,W为图像的宽度。
进一步的技术方案在于:还包括截取区域特征模块和分类与回归模块,截取区域特征模块为程序模块,用于处理器通过无锚框候选区域对特征图进行截取并获得区域特征图;分类与回归模块为程序模块,用于处理器基于K*K*C的区域特征图进行分类和回归处理。
进一步的技术方案在于:在截取区域特征模块中,基于任一候选框沿特征图的高度和宽度方向都平均切成K份,获得K*K个方格,对每一个方格进行最大池化,获得K*K*C的区域特征图,K=5,C=512;在分类与回归模块中,对于每一个区域特征图,分别经过分类分支和回归分支,每个分支都是四层3x3的卷积层,分类分支最后输出的特征图形状为H*W*N,回归分支最后输出的特征图形状为H*W*4,其中N为待分类的类别数目,4为回归得到的到四个边的距离。
一种基于无锚框两阶段网络检测发票印章的装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的上述程序模块,所述处理器执行程序模块时实现上述基于无锚框两阶段网络检测发票印章方法的步骤。
一种基于无锚框两阶段网络检测发票印章的装置为计算机可读存储介质,所述计算机可读存储介质存储有上述程序模块,所述程序模块被处理器执行时实现上述基于无锚框两阶段网络检测发票印章方法的步骤。
采用上述技术方案所产生的有益效果在于:
一种基于无锚框两阶段网络检测发票印章的方法包括如下步骤,S1发票图片预处理,处理器从存储器获取发票图片,对发票图片图像预处理并获得统一尺寸的预处理图片;S2提取预处理后图片特征,处理器将预处理图片输入至特征提取卷积神经网络并获得特征图,所述特征提取卷积神经网络为基于ResNet-50卷积神经网络去掉其最后的全连接层和池化层而获得的神经网络,所述特征图为经过特征提取卷积神经网络而形成的最后一层的特征图;S3生成无锚框候选区域,处理器对特征图分别进行类别判断分支和位置回归分支处理并生成无锚框候选区域,所述类别判断分支和位置回归分支处理为分别取两个3×3的窗口与特征图进行卷积。该技术方案,其通过步骤S1至步骤S4等,实现发票印章检测第一阶段中锚框冗余度较小,提升了检测发票印章的工作效率。
一种基于无锚框两阶段网络检测发票印章的装置包括发票图片预处理模块、提取预处理后图片特征模块和生成无锚框候选区域模块,发票图片预处理模块为程序模块,用于处理器从存储器获取发票图片,对发票图片图像预处理并获得统一尺寸的预处理图片;提取预处理后图片特征模块为程序模块,用于处理器将预处理图片输入至特征提取卷积神经网络并获得特征图,所述特征提取卷积神经网络为基于ResNet-50卷积神经网络去掉其最后的全连接层和池化层而获得的神经网络,所述特征图为经过特征提取卷积神经网络而形成的最后一层的特征图;生成无锚框候选区域模块为程序模块,用于处理器对特征图分别进行类别判断分支和位置回归分支处理并生成无锚框候选区域,所述类别判断分支和位置回归分支处理为分别取两个3×3的窗口与特征图进行卷积。该技术方案,其通过发票图片预处理模块、提取预处理后图片特征模块和生成无锚框候选区域模块等,实现发票印章检测第一阶段中锚框冗余度较小,提升了检测发票印章的工作效率。
一种基于无锚框两阶段网络检测发票印章的装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的上述程序模块,所述处理器执行程序模块时实现上述基于无锚框两阶段网络检测发票印章方法的步骤。该技术方案,其通过该装置,实现发票印章检测第一阶段中锚框冗余度较小,提升了检测发票印章的工作效率。
一种基于无锚框两阶段网络检测发票印章的装置为计算机可读存储介质,所述计算机可读存储介质存储有上述程序模块,所述程序模块被处理器执行时实现上述基于无锚框两阶段网络检测发票印章方法的步骤。该技术方案,其通过该计算机可读存储介质,实现发票印章检测第一阶段中锚框冗余度较小,提升了检测发票印章的工作效率。
详见具体实施方式部分描述。
附图说明
图1是本发明实施例1的流程图;
图2是本发明实施例1的数据流图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
实施例1:
如图1所示,本发明公开了一种基于无锚框两阶段网络检测发票印章的方法包括如下步骤:
S1发票图片预处理
通过扫描设备或者拍照设备获取发票图片并发送至处理器,处理器接收到发票图片,对发票图片图像预处理并获得统一尺寸的预处理图片。
S101旋转处理
处理器对预处理图片做随机旋转处理,以50%的概率进行水平旋转并获得旋转图片。
S102归一化处理
处理器将旋转图片进行归一化处理并获得归一化图片。
S103统一图片
处理器将上述归一化图片进行填充并获得统一尺寸的预处理图片。
S2提取预处理后图片特征
处理器将预处理图片输入至特征提取卷积神经网络并获得特征图,所述特征提取卷积神经网络为基于ResNet-50卷积神经网络去掉其最后的全连接层和池化层而获得的神经网络,所述特征图为经过特征提取卷积神经网络而形成的最后一层的特征图,即最后得到的大小为C×H×W的特征向量矩阵F,其中,C为图像的通道,H为图像的高度,W为图像的宽度。
S3生成无锚框候选区域
处理器对特征图分别进行类别判断分支和位置回归分支处理并生成无锚框候选区域,所述类别判断分支和位置回归分支处理为分别取两个3×3的窗口与特征图进行卷积。
S4截取区域特征
处理器通过无锚框候选区域对特征图进行截取并获得区域特征图。具体为,基于任一候选框沿特征图的高度和宽度方向都平均切成K份,获得K*K个方格,对每一个方格进行最大池化,获得K*K*C的区域特征图,K=5,C=512。
S5分类与回归
处理器基于K*K*C的区域特征图进行分类和回归处理。对于每一个区域特征图,分别经过分类分支和回归分支,每个分支都是四层3x3的卷积层,分类分支最后输出的特征图形状为H*W*N,回归分支最后输出的特征图形状为H*W*4,其中N为待分类的类别数目,4为回归得到的到四个边的距离。
实施例2:
本发明公开了一种基于无锚框两阶段网络检测发票印章的装置包括发票图片预处理模块、提取预处理后图片特征模块、生成无锚框候选区域模块、截取区域特征模块和分类与回归模块,所述发票图片预处理模块包括发票图片预处理模块、旋转处理为程序模块和归一化处理模块,以上模块均为程序模块。
发票图片预处理模块,用于通过扫描设备或者拍照设备获取发票图片并发送至处理器,处理器接收到发票图片,对发票图片图像预处理并获得统一尺寸的预处理图片。
旋转处理为程序模块,用于处理器对预处理图片做随机旋转处理,以50%的概率进行水平旋转并获得旋转图片。
归一化处理模块,用于处理器将旋转图片进行归一化处理并获得归一化图片。
统一图片模块,处理器将上述归一化图片进行填充并获得统一尺寸的预处理图片。
提取预处理后图片特征模块,处理器将预处理图片输入至特征提取卷积神经网络并获得特征图,所述特征提取卷积神经网络为基于ResNet-50卷积神经网络去掉其最后的全连接层和池化层而获得的神经网络,所述特征图为经过特征提取卷积神经网络而形成的最后一层的特征图,即最后得到的大小为C×H×W的特征向量矩阵F,其中,C为图像的通道,H为图像的高度,W为图像的宽度。
生成无锚框候选区域模块,用于处理器对特征图分别进行类别判断分支和位置回归分支处理并生成无锚框候选区域,所述类别判断分支和位置回归分支处理为分别取两个3×3的窗口与特征图进行卷积。
截取区域特征模块,用于处理器通过无锚框候选区域对特征图进行截取并获得区域特征图。具体为,基于任一候选框沿特征图的高度和宽度方向都平均切成K份,获得K*K个方格,对每一个方格进行最大池化,获得K*K*C的区域特征图,K=5,C=512。
分类与回归模块,用于处理器基于K*K*C的区域特征图进行分类和回归处理。对于每一个区域特征图,分别经过分类分支和回归分支,每个分支都是四层3x3的卷积层,分类分支最后输出的特征图形状为H*W*N,回归分支最后输出的特征图形状为H*W*4,其中N为待分类的类别数目,4为回归得到的到四个边的距离。
实施例3:
本发明公开了一种基于无锚框两阶段网络检测发票印章的装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的实施例2中的程序模块,所述处理器执行程序模块时实现实施例1的步骤。
实施例4:
本发明公开了一种计算机可读存储介质,所述计算机可读存储介质存储有实施例2中的程序模块,所述程序模块被处理器执行时实现实施例1中的步骤。
本申请的技术贡献:
为了解决发票印章检测第一阶段中锚框冗余的技术问题,本发明提供了一种基于无锚框候选区域生成的两阶段检测算法,能够有效的检测发票印章的位置与内容。
本发明的技术方案主要包括三个部分:
第一部分是基于ResNet-50进行图片特征提取模块。
第二部分采用无锚框候选区域生成网络。
第三部分为常规的第二阶段检测分支,用来进一步调整和识别候选区域的内容。在第一部分中,我们使用ResNet-50作为骨干网络,并去掉了最后的池化层和全连接层,得到输入图片的空间特征。第二部分中,我们将骨干网络提取的特征输入到一个无锚框候选区域生成网络,该部分会对每一个像素点进行判断是否可能含有印章,并且直接回归出一个候选框,然后将那些得分较高的候选框输出给第二阶段进行调整;其中为了衡量不同像素点的重要程度,我们加入了中心损失函数的优化目标,主要为了让在印章中心的像素点能够得到较高的相应结果。在第三部分中,利用产生的候选区域得到对应的特征并且输入到后续的卷积层,最终输入每个区域的类别以及回归调整后的区域坐标作为最后的检测结果。
如图1所示,该发票印章检测方法包含以下主要步骤:
S1发票图片预处理
利用扫描设备或者拍照设备将单张发票的图片上传系统并进行图像预处理。由于发票数据量有限,为了让模型见到更多更丰富的数据,使用以下图像预处理和图像增强方法。第一步,对上传的图片做随机旋转处理,以50%的概率进行水平旋转;第二步,为了方便后续神经网络的更好收敛,将所有图像数据进行归一化处理,得到归一化图像;第三步,将上述结果进行填充到指定尺寸,得到固定尺寸的图片,输入神经网络进行后续处理。
S2提取预处理后图片特征
处理后的发票图片先经过ResNet-50卷积神经网络做特征提取。在ResNet-50中我们去掉了最后的全连接层与池化层,只使用前五个stage,其中第二至第五个stage的输出特征图大小依次为输入图片的1/4、1/8、1/16、1/32,不同于通常利用多尺度的方法,往往印章的大小是固定的,因此本方法选择只使用最后一层特征图,即最后得到大小C×H×W的特征向量矩阵F,C、H、W分别表示图像的通道、高度和宽度。之后在该特征图上进行无锚框候选区域生成。
S3生成无锚框候选区域
对得到的特征图进行无锚框候选区域生成。我们分别使用类别判断分支以及位置回归分支对上述特征图进行处理:分别取两个不同的3×3的窗口与特征图进行卷积,即每个点与周围3×3区域做特征提取获得长度为1和长度为4的特征向量,前者表示当前像素点中可能含有印章的概率大小P,后者表示当前像素点所产生的候选框的编码,只有当P大于给定的阈值时,才会将该像素点列入候选项。最后便可以得到大小为形状为(N,L,T,R,B)的候选区域集合,其中N表示候选区域个数,剩下分别表示当前中心像素点到候选框左边界、上边界、右边界以及下边界的距离。除此之外,为了衡量一个候选区域内部不同像素点的重要性,我们使用了中心损失函数来让处于目标中心的点得到更高的响应。该损失函数定义具体如下公式:
S4截取区域特征
接下来是利用步骤S3中生成的候选区域框对步骤S2中提取到特征图进行截取。具体来说,对任一候选框,即使该候选框形状不同,沿其高度和宽度方向都平均切成K份,则会得到K*K个方格,然后每个方格取最大池化可得最后K*K*C的特征图。
S5分类与回归
最后便是基于上述的K*K*C的特征图进行第二阶段分类与回归。对于每一个特征图,分别经过分类分支以及回归分支,每个分支都是四层3x3卷积,分类分支和回归分支最后输出的特征图形状分别为H*W*N以及H*W*4,其中N为待分类的类别数目,4为回归得到的到四个边的距离。
技术方案说明:
S1发票图片预处理
利用扫描设备或者拍照设备将单张发票的图片上传系统并进行图像预处理。本案例采用图像预处理和图像增强方法。第一步,对上传的图片做随机旋转处理,以50%的概率进行水平旋转;第二步,为了方便后续神经网络的更好收敛,将所有图像数据进行归一化处理,得到归一化图像;第三步,将上述结果进行填充到指定尺寸,得到固定尺寸的图片,案例采用固定尺寸为800*640,输入神经网络进行后续处理。
S2提取预处理后图片特征
处理后的发票图片先经过ResNet-50卷积神经网络做特征提取。在ResNet-50中我们去掉了最后的全连接层与池化层,只使用前五个stage,其中第二至第五个stage的输出特征图大小依次为输入图片的1/4、1/8、1/16、1/32,不同于通常利用多尺度的方法,往往印章的大小是固定的,因此本方法选择只使用最后一层特征图,即最后得到大小512×20×25像素的特征向量矩阵F,512、20、25分别表示图像的通道、高度和宽度。之后在该特征图上进行无锚框候选区域生成。
S3生成无锚框候选区域
对得到的特征图进行无锚框候选区域生成。我们分别使用类别判断分支以及位置回归分支对上述特征图进行处理:分别取两个不同的3×3的窗口与特征图进行卷积,即每个点与周围3×3区域做特征提取获得长度为1和长度为4的特征向量,前者表示当前像素点中可能含有印章的概率大小P,后者表示当前像素点所产生的候选框的编码,只有当P大于给定的阈值时,才会将该像素点列入候选项,在案例中通常设定阈值为0.95,即P大于0.95才认为此处有印章。最后便可以得到大小为形状为(N,L,T,R,B)的候选区域集合,其中N表示候选区域个数,剩下分别表示当前中心像素点到候选框左边界、上边界、右边界以及下边界的距离。除此之外,为了衡量一个候选区域内部不同像素点的重要性,我们使用了中心损失函数来让处于目标中心的点得到更高的响应。
S4截取区域特征
接下来是利用上一步生成的候选区域框在特征向量F进行截取。具体来说,对任一候选框(即使形状不同),沿其高度和宽度方向都平均切成5份,则会得到5x5个方格,然后每个方格取最大池化可得最后5x5x512的特征向量G,由于F在案例中是512×20×25像素,宽高都平均切分为5x5,即宽度每四个像素点,高度每5个像素点,共20个像素点,选择其中最大值作为结果,因此F会变成G5x5x512像素特征向量矩阵。
S5分类与回归
如图2所示,最后便是基于G 5x5x512像素特征向量矩阵进行第二阶段分类与回归。对于每一个特征图,分别经过分类分支以及回归分支,每个分支都是四层3x3卷积,分类分支和回归分支最后输出的特征图形状分别为5x5x2以及5x5x4,其中2为待分类的类别数目,此处仅有是印章和不是印章两种分类可能,4为回归得到的到四个边的距离。在得到分类和回归结果之后,将分类为是印章的区域中心点以及回归得到的距离四个边界的距离既可以得出印章检测的结果。
本申请保密运行一段时间后,现场技术人员反馈的有益之处在于:
整个系统采用ResNet-50进行特征抽取,然后分为两个阶段:第一阶段利用无锚框方式预测印章的候选区域及背景信息,第二阶段将上述候选区域进行进一步的分类与回归得到最后的印章检测结果。
该方法主要针对发票中的印章进行检测,通过将第一阶段的候选区域生成的方式由基于锚框改为基于无锚框,降低了模型的复杂程度,有利于更好更快地实现对发票印章的准确检测,能够有效的解决发票中印章检测问题。
Claims (10)
1.一种基于无锚框两阶段网络检测发票印章的方法,其特征在于:包括如下步骤,S1发票图片预处理,处理器从存储器获取发票图片,对发票图片图像预处理并获得统一尺寸的预处理图片;S2提取预处理后图片特征,处理器将预处理图片输入至特征提取卷积神经网络并获得特征图,所述特征提取卷积神经网络为基于ResNet-50卷积神经网络去掉其最后的全连接层和池化层而获得的神经网络,所述特征图为经过特征提取卷积神经网络而形成的最后一层的特征图;S3生成无锚框候选区域,处理器对特征图分别进行类别判断分支和位置回归分支处理并生成无锚框候选区域,所述类别判断分支和位置回归分支处理为分别取两个3×3的窗口与特征图进行卷积。
2.根据权利要求1所述的基于无锚框两阶段网络检测发票印章的方法,其特征在于:步骤S1具体包括如下步骤,S101旋转处理,处理器对预处理图片做随机旋转处理,以50%的概率进行水平旋转并获得旋转图片;S102归一化处理,处理器将旋转图片进行归一化处理并获得归一化图片;S103统一图片,处理器将上述归一化图片进行填充并获得统一尺寸的预处理图片;在步骤S2中,所述特征图为最后得到的大小为C×H×W的特征向量矩阵F,其中,C为图像的通道,H为图像的高度,W为图像的宽度。
3.根据权利要求1所述的基于无锚框两阶段网络检测发票印章的方法,其特征在于:在步骤S3之后还包括如下步骤,S4截取区域特征,处理器通过无锚框候选区域对特征图进行截取并获得区域特征图;S5分类与回归,处理器基于K*K*C的区域特征图进行分类和回归处理。
4.根据权利要求3所述的基于无锚框两阶段网络检测发票印章的方法,其特征在于:在步骤S4中,基于任一候选框沿特征图的高度和宽度方向都平均切成K份,获得K*K个方格,对每一个方格进行最大池化,获得K*K*C的区域特征图,K=5,C=512;在步骤S5中,对于每一个区域特征图,分别经过分类分支和回归分支,每个分支都是四层3x3的卷积层,分类分支最后输出的特征图形状为H*W*N,回归分支最后输出的特征图形状为H*W*4,其中N为待分类的类别数目,4为回归得到的到四个边的距离。
5.一种基于无锚框两阶段网络检测发票印章的装置,其特征在于:包括发票图片预处理模块、提取预处理后图片特征模块和生成无锚框候选区域模块,发票图片预处理模块为程序模块,用于处理器从存储器获取发票图片,对发票图片图像预处理并获得统一尺寸的预处理图片;提取预处理后图片特征模块为程序模块,用于处理器将预处理图片输入至特征提取卷积神经网络并获得特征图,所述特征提取卷积神经网络为基于ResNet-50卷积神经网络去掉其最后的全连接层和池化层而获得的神经网络,所述特征图为经过特征提取卷积神经网络而形成的最后一层的特征图;生成无锚框候选区域模块为程序模块,用于处理器对特征图分别进行类别判断分支和位置回归分支处理并生成无锚框候选区域,所述类别判断分支和位置回归分支处理为分别取两个3×3的窗口与特征图进行卷积。
6.根据权利要求5所述的基于无锚框两阶段网络检测发票印章的装置,其特征在于:所述发票图片预处理模块,还用于处理器对预处理图片做随机旋转处理,以50%的概率进行水平旋转并获得旋转图片,处理器将旋转图片进行归一化处理并获得归一化图片,处理器将上述归一化图片进行填充并获得统一尺寸的预处理图片;在提取预处理后图片特征模块中,所述特征图为最后得到的大小为C×H×W的特征向量矩阵F,其中,C为图像的通道,H为图像的高度,W为图像的宽度。
7.根据权利要求5所述的基于无锚框两阶段网络检测发票印章的装置,其特征在于:还包括截取区域特征模块和分类与回归模块,截取区域特征模块为程序模块,用于处理器通过无锚框候选区域对特征图进行截取并获得区域特征图;分类与回归模块为程序模块,用于处理器基于K*K*C的区域特征图进行分类和回归处理。
8.根据权利要求7所述的基于无锚框两阶段网络检测发票印章的装置,其特征在于:在截取区域特征模块中,基于任一候选框沿特征图的高度和宽度方向都平均切成K份,获得K*K个方格,对每一个方格进行最大池化,获得K*K*C的区域特征图,K=5,C=512;在分类与回归模块中,对于每一个区域特征图,分别经过分类分支和回归分支,每个分支都是四层3x3的卷积层,分类分支最后输出的特征图形状为H*W*N,回归分支最后输出的特征图形状为H*W*4,其中N为待分类的类别数目,4为回归得到的到四个边的距离。
9.一种基于无锚框两阶段网络检测发票印章的装置,其特征在于:包括存储器、处理器以及存储在存储器中并可在处理器上运行的权利要求5~权利要求8中的程序模块,所述处理器执行程序模块时实现权利要求1~权利要求4中任意一项基于无锚框两阶段网络检测发票印章方法的步骤。
10.一种基于无锚框两阶段网络检测发票印章的装置,其特征在于:为计算机可读存储介质,所述计算机可读存储介质存储有权利要求5~权利要求8中的程序模块,所述程序模块被处理器执行时实现权利要求1~权利要求4中任意一项基于无锚框两阶段网络检测发票印章方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110242359.XA CN113065400A (zh) | 2021-03-04 | 2021-03-04 | 基于无锚框两阶段网络检测发票印章的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110242359.XA CN113065400A (zh) | 2021-03-04 | 2021-03-04 | 基于无锚框两阶段网络检测发票印章的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113065400A true CN113065400A (zh) | 2021-07-02 |
Family
ID=76559688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110242359.XA Pending CN113065400A (zh) | 2021-03-04 | 2021-03-04 | 基于无锚框两阶段网络检测发票印章的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113065400A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449706A (zh) * | 2021-08-31 | 2021-09-28 | 四川野马科技有限公司 | 基于人工智能的票据单据识别和归档的方法及系统 |
CN114898382A (zh) * | 2021-10-12 | 2022-08-12 | 北京九章云极科技有限公司 | 一种图像处理方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992311A (zh) * | 2019-11-13 | 2020-04-10 | 华南理工大学 | 一种基于特征融合的卷积神经网络瑕疵检测方法 |
CN111369506A (zh) * | 2020-02-26 | 2020-07-03 | 四川大学 | 一种基于眼部b超图像的晶状体浑浊度分级方法 |
CN111476252A (zh) * | 2020-04-03 | 2020-07-31 | 南京邮电大学 | 一种面向计算机视觉应用的轻量化无锚框目标检测方法 |
CN111611925A (zh) * | 2020-05-21 | 2020-09-01 | 重庆现代建筑产业发展研究院 | 一种建筑物检测与识别方法及装置 |
CN112085735A (zh) * | 2020-09-28 | 2020-12-15 | 西安交通大学 | 一种基于自适应锚框的铝材质图像缺陷检测方法 |
CN112085164A (zh) * | 2020-09-01 | 2020-12-15 | 杭州电子科技大学 | 一种基于无锚框网络的区域推荐网络提取方法 |
CN112364843A (zh) * | 2021-01-11 | 2021-02-12 | 中国科学院自动化研究所 | 插拔式航拍图像目标定位检测方法、系统、设备 |
CN112417981A (zh) * | 2020-10-28 | 2021-02-26 | 大连交通大学 | 基于改进FasterR-CNN的复杂战场环境目标高效识别方法 |
-
2021
- 2021-03-04 CN CN202110242359.XA patent/CN113065400A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992311A (zh) * | 2019-11-13 | 2020-04-10 | 华南理工大学 | 一种基于特征融合的卷积神经网络瑕疵检测方法 |
CN111369506A (zh) * | 2020-02-26 | 2020-07-03 | 四川大学 | 一种基于眼部b超图像的晶状体浑浊度分级方法 |
CN111476252A (zh) * | 2020-04-03 | 2020-07-31 | 南京邮电大学 | 一种面向计算机视觉应用的轻量化无锚框目标检测方法 |
CN111611925A (zh) * | 2020-05-21 | 2020-09-01 | 重庆现代建筑产业发展研究院 | 一种建筑物检测与识别方法及装置 |
CN112085164A (zh) * | 2020-09-01 | 2020-12-15 | 杭州电子科技大学 | 一种基于无锚框网络的区域推荐网络提取方法 |
CN112085735A (zh) * | 2020-09-28 | 2020-12-15 | 西安交通大学 | 一种基于自适应锚框的铝材质图像缺陷检测方法 |
CN112417981A (zh) * | 2020-10-28 | 2021-02-26 | 大连交通大学 | 基于改进FasterR-CNN的复杂战场环境目标高效识别方法 |
CN112364843A (zh) * | 2021-01-11 | 2021-02-12 | 中国科学院自动化研究所 | 插拔式航拍图像目标定位检测方法、系统、设备 |
Non-Patent Citations (2)
Title |
---|
刘斌平等: "一种新颖的无锚框三维目标检测器", 《中国体视学与图像分析》 * |
董洪义: "《深度学习之PyTorch物体检测实践》", 31 March 2020 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449706A (zh) * | 2021-08-31 | 2021-09-28 | 四川野马科技有限公司 | 基于人工智能的票据单据识别和归档的方法及系统 |
CN114898382A (zh) * | 2021-10-12 | 2022-08-12 | 北京九章云极科技有限公司 | 一种图像处理方法及装置 |
CN114898382B (zh) * | 2021-10-12 | 2023-02-21 | 北京九章云极科技有限公司 | 一种图像处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108562589B (zh) | 一种对磁路材料表面缺陷进行检测的方法 | |
CN113591795B (zh) | 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统 | |
CN109583483B (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
CN111080693A (zh) | 一种基于YOLOv3的机器人自主分类抓取方法 | |
CN111539957B (zh) | 一种用于目标检测的图像样本生成方法、系统及检测方法 | |
CN111127631B (zh) | 基于单图像的三维形状和纹理重建方法、系统及存储介质 | |
WO2021238420A1 (zh) | 图像去雾方法、终端及计算机存储介质 | |
CN110807775A (zh) | 基于人工智能的中医舌像分割装置、方法及存储介质 | |
CN113011288A (zh) | 一种基于Mask RCNN算法的遥感建筑物检测方法 | |
CN113012157B (zh) | 一种设备缺陷视觉检测方法及系统 | |
CN109190617B (zh) | 一种图像的矩形检测方法、装置及存储介质 | |
CN110827312A (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN112380926A (zh) | 一种田间除草机器人除草路径规划系统 | |
CN110599453A (zh) | 一种基于图像融合的面板缺陷检测方法、装置及设备终端 | |
CN103902730B (zh) | 一种缩略图生成方法和系统 | |
CN113515655A (zh) | 一种基于图像分类的故障识别方法及装置 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
CN113065400A (zh) | 基于无锚框两阶段网络检测发票印章的方法及装置 | |
CN114445651A (zh) | 一种语义分割模型的训练集构建方法、装置及电子设备 | |
CN111523535A (zh) | 基于机器视觉与深度学习的类圆对象识别计数检测算法 | |
CN105205485B (zh) | 基于多类类间最大方差算法的大尺度图像分割算法 | |
CN117523162A (zh) | 一种基于深度神经网络模型的航空结构件图像预处理方法 | |
CN114219757B (zh) | 一种基于改进Mask R-CNN的车辆智能定损方法 | |
CN116109518A (zh) | 一种金属锈蚀图像的数据增强、分割方法及装置 | |
CN113065401A (zh) | 一种全票种报账智能平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210702 |
|
RJ01 | Rejection of invention patent application after publication |