应用于复杂文档图像的关键实体直接检测方法及系统技术方案

技术编号:39397872 阅读:11 留言:0更新日期:2023-11-19 15:51
本发明专利技术公开一种应用于复杂文档图像的关键实体直接检测方法及系统,方法包括如下步骤:步骤A,构建并训练得到基于协同注意力机制的文档关键实体直接检测模型;自样本库中提取任意合同文档,获取该合同文档的图像信息;人工标注合同文档中所需检测的关键实体文本框;构建基于协同注意力机制的文档关键实体直接检测模型,并基于前述合同文档对构建的模型进行训练,得到最终的检测模型;步骤B,对于待检测的合同文档,将该合同文档的图像信息输入所述最终的检测模型,得到关键实体文本框,并区分该关键实体属于印刷体、手写体或印章。此种技术方案能够避免多级处理中的误差传播问题,并更好地消除冗余上下文信息的干扰,提高模型的检测性能。的检测性能。的检测性能。

【技术实现步骤摘要】
应用于复杂文档图像的关键实体直接检测方法及系统


[0001]本专利技术属于图像处理
,特别涉及一种应用于复杂文档图像的关键实体直接检测方法及系统。

技术介绍

[0002]文档图像关键信息提取是指从文档图像中自动识别和提取出文本、表格、图片等关键信息,以便于后续的信息处理和利用。文档图像关键信息提取技术的应用非常广泛,比如自动化办公、数字化档案管理、合同管理等方面都有着广泛的应用。文档图像关键信息提取的目的是从文档图像中获取关键文本信息,这是从图像模态到文本模态的一种转换,通常的转换过程是由文字识别算法完成。根据转换过程可以将文档图像关键信息提取分为直接提取和间接提取。间接提取是指识别文档图像的全部文本然后使用自然语言处理等手段提取关键信息,直接提取是指直接获得关键文本信息或者感兴趣的实体(EoI,Entity ofIntersting)。
[0003]对于关键信息间接提取方法而言,早期的方式是通过OCR系统获得文档图像的全部文本信息,然后将文本提取问题视为序列标注问题,使用NLP的命名实体识别(NER,Namely Entity Recognition)获得所需要的关键实体信息。通常的处理流程将OCR获得的文本和位置信息,按照自上而下,自左向右的方式进行序列化合并[1],然后送入BiLSTM+CRF分类器[2]就序列进行BIO标注的分类,最终获得所需要的关键文本信息。但是这种序列的方法来抽取信息仅仅关注文本序列特征,文档图像作为一种包含多种模态信息的富文本数据,这种纯NLP模式的序列标注方式来抽取关键信息仅仅关注文档图像的文本模态,而忽略了更重要的版面和图像信息。因此,越来越多研究学者关注融合更多模态的特征来抽取关键信息。为了更好利用文档图像中的版面空间信息,一些基于图的空间特征提取方法陆续被引入信息提取中。例如为了处理VRD(Visual Rich Document,富文本文档)图像,文献[3]提出了基于图卷积(Graph Convolution)的模型来进行信息抽取,模型将所有检测到的文本单位视为构建图中的一个节点,并且所有的图节点相互连接,为了适应各种版面中节点的变化,对于每个图的节点进行特征学习。之后将所有的图节点特征与本身的文本字符编码进行序列分类,得出所需要的关键信息。
[0004]对于EoI的直接发现方法可以通过端到端的模型进行文档图像的关键信息提取,端到端的方式是对于文档图像信息抽取最为直观理解的一种实现方式。文献[4]提出EATEN端到端模型,可以使用single shot进行文本图像的信息抽取,EATEN并没有文字检测和识别过程,而是直接通过卷积网络对于文本图像进行图像特征学习,然后将学习到的特征送入到注意力网络的解码器中,最终的解码输出就是对应实体信息。实验表明EATEN可以在车票、身份证等数据上获得不错表现,但是模型的可解释性差,而且只在处理简单的版面的结构化数据有利。由于EATEN模型的模型可解释性较差,受到传统检测、识别、信息抽取三者之间存在的内在关联启发,文献[5]提出了VIES端到端模型,VIES设计了检测、识别、信息抽取三个同时训练的任务,增加了端到端模型的可解释性,文献的实验表明,VIES模型可以在自
己收集的中文试卷数据上面取得83%的成绩,同时在SROIE数据集也取得了较大的进步。而本文提出的不同于上面方法的解决思路,针对复杂版面的文档图像数据信息提取,由于其数据类型丰富,除了印刷体、手写体外还有印章等数据,同时其排版复杂,单纯的文本拼接可能无法表达文本的含义,由此产生识别错误影响下游任务。因此文本提出采用检测、信息分类,之后再进行识别的策略,可以降低识别错误对于下游任务的影响,同时也让模型具有较好的解释性。
[0005]传统的直接信息提取方法缺乏模型的可解释性,无法处理复杂的文档布局。相反,间接信息提取方法通过流水线处理信息,具有更好的模型可解释性,并可以处理复杂的文档布局。然而,这种方法可能会导致误差向下游任务传播,限制模型的效果。为了解决这个问题,本文提出了一种基于分割方法的直接EoI检测流水线策略和一个新的多通道协同注意力机制,可以同时处理印刷文本、手写和印章等多种类型的复杂文档数据。与其他方法相比,所提出的模型具有更好的模型可解释性,并且可以减轻误差传播,从而提高模型的上限性能并有效解决在复杂文档图像中提取关键信息的任务。
[0006]直接EoI检测通过文本检测方法实现,其中文本检测旨在从自然图像中定位每个文本实例的边界框或多边形,具有广泛的实际应用场景,如办公自动化、即时翻译、自动驾驶和在线教育。随着全面监督深度学习技术的快速发展,文本检测取得了显著的进展。现代文本检测器的主要基于CNN框架,其中场景文本检测大致分为两类:基于回归的方法和基于分割的方法。
[0007]基于回归的方法通常基于通用的目标检测框架,包括多阶段和单阶段,如Faster R

CNN和SSD。然而,大多数基于回归的方法通常需要复杂的锚点设计和繁琐的多个阶段,这可能需要耗费大量的调整工作,导致次优的性能。基于分割的方法基于像素级分类来定位文本实例,通常结合像素级预测和后处理算法来获取相同分类区域的边界框,基于分割的方法对于检测多尺度文本实例更具鲁棒性,但是后处理操作通常需要高昂的计算成本,因为用基于分割的方法来预测覆盖彼此接近的所有文本实例可能会导致错误检测。特别对于彼此靠近的文本实例很难分开。受到全卷积网络(FCN,Fully ConvolutionalNetworks)的启发,诸多的分割文字检测方法被提出用以解决这个问题,PixelLink[6]通过预测不同文本实例之间的像素连接来分离彼此紧密相邻的文本。PSENet[7]通过使用不同尺度内核分割文本实例提出了渐进式尺度扩展,其中文本实例被收缩到不同的规模,然后逐步扩展内核获得整个文本实例。但是PSENet模型较重,其改进的轻量级分割框架PANNet[8]由两个模块组成,即特征金字塔增强模块(FPEM,Feature Pyramid Enhancement Module)和特征融合模块(FFM,Feature Fusion Module)。其中FPEM从输入图像中计算不同比例的特征图,然后FFM融合这些多尺度特征以生成最终的特征图,最后通过这个特征图进行预测,由于分割过程计算量少,因此实时性较高。之后文献[9]提出了一种新颖的框架DBNet,采用可微分二值化过程(DB,Differentiable Binarization)可用于检测任意形状的场景文本。上述工作在场景文本基准测试上取得了出色的表现。但是如果考虑到模型的鲁棒性和可解释性,现有的方法都存在着不足,有待改进。
[0008]综上,近年来,深度学习在各种应用领域中已经展现了出色的性能,包括图像理解、语音识别和自然语言处理等方面。然而,对于处理文档图像等多模态数据,仍然存在挑战,尤其是在复杂布局文档图像信息提取和表格识别方面。虽然基本的文本检测和识别任
务已经显示出有效性,但是针对多模态数据,包括文档图像在内的图像理解任务并不成功,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于复杂文档图像的关键实体直接检测方法,其特征在于包括如下步骤:步骤A,构建并训练得到基于协同注意力机制的文档关键实体直接检测模型;步骤A1,自样本库中提取任意合同文档,获取该合同文档的图像信息;步骤A2,人工标注合同文档中所需检测的关键实体文本框,所述关键实体的文字类型包括印刷体文字、手写体文字和印章;步骤A3,构建基于协同注意力机制的文档关键实体直接检测模型,并基于前述合同文档对构建的模型进行训练,得到最终的检测模型;步骤B,对于待检测的合同文档,将该合同文档的图像信息输入所述最终的检测模型,得到关键实体文本框,并区分该关键实体属于印刷体、手写体或印章。2.如权利要求1所述的方法,其特征在于:所述步骤A3的具体内容是:步骤A31,通过ResNet网络获取合同文档的图像的1/4、1/8、1/16和1/32的特征C2、C3、C4、C5,将所述特征C2、C3、C4、C5横向连接,得到通道数为Ch的特征F1、F2、F3、F4;步骤A32,将特征F1、F2、F3、F4按照维度1进行合并得到融合特征F,其维度为R
Bs
×
4Ch
×
ImgS/4
×
ImgS/4
,其中Bs为批处理数,ImgS为原图大小;将融合特征F经过一层注意力处理,得到特征F
att
;步骤A33,将特征F
att
经过一层3*3卷积、2维批归一化处理和ReLU激活层,得到中间特征F
hidden
,其维度为R
Bs
×
Nmid
×
ImgS/4
×
ImgS/4
,其中Nmid为中间维度;然后将中间特征F
hidden
分别送入到三个分支头当中,每个分支头处理操作为输入维度为Nmid,输出维度为map_num的1x1卷积,三个分支头输出特征为F
print
,F
handw
和F
seals
,分别对应印刷文本、手写文本和印章,维度皆为R
Bs
×
map_num
×
ImgS/4
×
ImgS/4
,其中每个分支头输出特征包含关键实体掩码图Mt与各个缩放比例下的关键实体掩码图Ms,两者数量之和为map_num;步骤A34,分别抽取输出特征F
print
,F
handw
、F
seals
中关键实体掩码图Mt的特征F
print_Mt
,F
handw_Mt
、F
seals_Mt
,维度皆为R
Bs
×1×
ImgS/4
×
ImgS/4
,将这三个特征进行融合得到三分支关键实体特征F
text
,其维度为R
Bs
×3×
ImgS/4
×
ImgS/4
,其中的3分别表示从印刷体分支、手写体分支和印章分支中抽取的关键实体掩码图;步骤A35,将步骤3.4获得的特征F
text
进行平均池化得到特征F
mp
,维度为R
Bs
×1×
ImgS/4
×
ImgS/4
;然后将特征F
mp
进行空间对齐处理,得到空间对齐后的特征F
spatial
,其维度为R
Bs
×3×
ImgS/4
×
ImgS/4
;最后将特征F
spatial
进行注意力对齐,得到最终的注意力系数F
spatt
,其维度为R
Bs
×3×
ImgS/4
×
ImgS/4
;步骤A36,将注意力系数F
spatt
分别乘以对应数据类型的关键实体掩码图特征,得到所有空间注意力操作过后的特征F
print_att
,F
handw_att
和F
seals_att
,其维度为R
Bs
×
map_num
×
ImgS/4
×
ImgS/4
;步骤A37,将所有的三分支输出特征F
print_att
,F
handw_att
和F
seals_att
进行上采样得到输出掩码图O
print
,O
handw
和O
seals
,其尺寸大小恢复到原始图像大小,三者维度为R
Bs
×

【专利技术属性】
技术研发人员:黄智财王大寒朱顺痣陈明明蔡志猛廖洁
申请(专利权)人:厦门华厦学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1