端到端利用多模特征的文档图像勾选信息抽取方法及系统技术方案

技术编号:37843210 阅读:15 留言:0更新日期:2023-06-14 09:48
本发明专利技术公开了一种端到端利用多模特征的文档图像勾选信息抽取方法及系统,涉及计算机视觉领域。该方法包括以下步骤:文本行特征提取步骤,检测并输出勾选文档图像的文本行内容和文本行位置,经编码后得到文本行Embedding向量;勾选符号特征提取步骤,确定勾选图像Emebdding向量、勾选位置Emebdding向量以及勾选类别Emebdding向量,相加后得到勾选符号Embedding向量;勾选信息提取步骤,以文本行和勾选符号作为节点,融合文本行Embedding向量和勾选符号Embedding向量获得文本行增强特征向量,经分类获得勾选信息。本发明专利技术技术方案对于输入的带有勾选信息的文档图像,能够直接输出勾选值信息,具有端到端、高效且提取精度高的特点。的特点。的特点。

【技术实现步骤摘要】
端到端利用多模特征的文档图像勾选信息抽取方法及系统


[0001]本专利技术涉及计算机视觉领域,尤其是一种端到端利用多模特征的文档图像勾选信息抽取方法及系统。

技术介绍

[0002]现实中,大量文档图像中存在各式各样的勾选标记。作为文档图像中结构化信息的有效表示方式,勾选标记扮演着非常重要的信息承载作用。这些勾选符号通常以对勾选框打钩、涂抹、打叉等方式出现,标记出对应的勾选信息。
[0003]勾选框
[0004]常见的勾选框样式有实线框、虚线框、括号等,其中最常见的是实线框(如下表编号1)。现实中的文档图像上,勾选框会存在尺寸大小、线段粗细、长宽比的变化,也存在由于取图方式导致的旋转、透视变换以及背景模糊、干扰等情况。
[0005]如下是一些常见的勾选框样式示例。
[0006][0007]表1勾选框样式
[0008]勾选符号
[0009]勾选符号是对于勾选状态的一个标记,常见的有打钩、打叉、涂抹、划线等方式。同时又分为打印和手写两种情况,如下表2。
[0010][0011]表2勾选符号
[0012]勾选信息
[0013]勾选信息指勾选符号所表示的结构化信息,常见的有显式键值对和隐式键值对的形式。
[0014]键值对是常用的表示结构化信息的方法,由键和值字段组成。勾选键值对是指键值对的值是通过勾选符号进行标记的键值对。
[0015]·
显式勾选键值对
[0016]显式键值对指键值对包含明确的键和值,如图1所示。说明如下表3。
[0017][0018]表3勾选键值对
[0019]·
隐式勾选键值对
[0020]隐式键值对指文档图像上并没有键字段,勾选标记本身代表一个特定信息的值,这时候通常隐含一个特定的键名称,如图2所示。键和值的说明如下表4。
[0021]编号键(隐含)值1结算方式汇款1到账方式实时2汇款方式电汇
[0022]表4无键的勾选键值对
[0023]对于显式和隐式的勾选键值对,最终要识别和提取的关键信息都是相同的,即键值对中的值。
[0024]另外,由于套打、手写等原因,大量文档上存在勾选符号偏移的现象,如图3所示由于套打和手写导致的偏移,这给勾选信息的提取带来了很大的困难,尤其是使用传统的基于规则或模板的方法,很难通过特定的方式,判断出正确的勾选信息。
[0025]随着深度学习技术的快速发展,OCR和结构化提取技术取得了突破性进展。利用通用OCR模型,首先可以对文档图像上所有的文字进行识别。然后,利用识别结果中的文字、位置、图像和语义特征,通过结构化提取模型可以从文本中抽取各种实体,如名称,地址和金额。由于深度学习方法天然具备强大的自动特征学习能力,以及基于样本标注和训练方法本身的通用性,使得以模型化思路实现结构化内容提取,相比常用的规则和模板的方法具有很大的优势。
[0026]因此,亟待提供一种基于深度学习方法的文档图像勾选信息抽取方法。

技术实现思路

[0027]为了实现以上目的,本专利技术提供一种端到端利用多模特征的文档图像勾选信息抽取方法及系统。对于输入的带有勾选信息的文档图像,能够直接输出勾选值信息,具有端到端、高效且提取精度高的特点。
[0028]根据本专利技术的第一方面,提供一种端到端利用多模特征的文档图像勾选信息抽取方法,其特征在于,所述方法包括以下步骤:
[0029]步骤1:文本行特征提取步骤,检测并输出勾选文档图像的文本行内容和文本行位置,经编码后得到文本行Embedding向量;
[0030]步骤2:勾选符号特征提取步骤,确定勾选图像Emebdding向量、勾选位置Emebdding向量以及勾选类别Emebdding向量,相加后得到勾选符号Embedding向量;
[0031]步骤3:勾选信息提取步骤,以文本行和勾选符号作为节点,融合文本行Embedding向量和勾选符号Embedding向量获得文本行增强特征向量,经分类获得勾选信息。
[0032]进一步地,所述步骤1具体包括:
[0033]步骤11:输入勾选文档图像并进行OCR模型检测,输出文本行内容和文本行位置;
[0034]步骤12:分别对文本行内容和文本行位置进行特征编码,得到文本行内容特征向量和文本行位置特征向量;
[0035]步骤13:使文本行内容特征向量和文本行位置特征向量相加得到文本行Embedding向量。
[0036]进一步地,所述步骤2具体包括:
[0037]步骤21:利用深度学习勾选符号检测模型,对勾选文档图像上的勾选符号进行检测,输出勾选符号类别和勾选符号位置框,以及勾选文档图像特征图;
[0038]步骤22:结合勾选符号位置框以及勾选文档图像特征图进行池化操作,得到勾选图像Emebdding向量;
[0039]步骤23:建立版式和类别Embedding table,并以勾选符号类别和勾选符号位置框为输入,查找对应的table,得到勾选位置Emebdding向量以及勾选类别Emebdding向量;
[0040]步骤24:将勾选图像Emebdding向量、勾选位置Emebdding向量以及勾选类别Emebdding向量相加得到勾选符号Embedding向量。
[0041]进一步地,所述步骤21中,所述深度学习对象检测模型基于卷积神经网络(Convolutional Neural Networks,CNN)实现,通过预设的锚点框,预测出图像特征图上每一个点可能出现勾选符号的概率以及与锚点框的偏移量,从而确定勾选符号类别和勾选符号位置框。
[0042]进一步地,所述步骤21中,所述勾选符号类别包括多个类别,每一类别具有特定的类别值。
[0043]这里,多个类别例如包括:类别1:勾选框;类别2:打钩;类别3:打叉;类别4:黑块;类别5:划线,等。
[0044]进一步地,所述步骤21中,所述勾选符号位置通过[x,y,w,h]四个值来表示,x,y表示勾选符号位置框的中心点,w和h表示其宽和高。
[0045]进一步地,所述步骤21中,所述勾选文档图像特征图是深度学习勾选符号检测模型中的CNN网络针对整体勾选文档图像特征提取的特征图。
[0046]进一步地,所述步骤21中,所述勾选文档图像特征图是一个三维张量(Tensor),大小为[H,W,C],H、W为特征图高和宽,C为通道大小。
[0047]进一步地,所述步骤22具体包括:
[0048]步骤221:将勾选符号位置框归一化到勾选文档图像特征图大小范围;
[0049]步骤222:通过归一化后的勾选符号位置框从勾选文档图像特征图上切分出对应部分;
[0050]步骤223:通过平均池化操作,得到每一个勾选符号的勾选图像Emebdding。
[0051]进一步地,所述步骤23中,所述版式和类别Embedding table本质上由一组权重值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端到端利用多模特征的文档图像勾选信息抽取方法,其特征在于,所述方法包括以下步骤:步骤1:文本行特征提取步骤,检测并输出勾选文档图像的文本行内容和文本行位置,经编码后得到文本行Embedding向量;步骤2:勾选符号特征提取步骤,确定勾选图像Emebdding向量、勾选位置Emebdding向量以及勾选类别Emebdding向量,相加后得到勾选符号Embedding向量;步骤3:勾选信息提取步骤,以文本行和勾选符号作为节点,融合文本行Embedding向量和勾选符号Embedding向量获得文本行增强特征向量,经分类获得勾选信息。2.根据权利要求1所述的文档图像勾选信息抽取方法,其特征在于,所述步骤1具体包括:步骤11:输入勾选文档图像并进行OCR模型检测,输出文本行内容和文本行位置;步骤12:分别对文本行内容和文本行位置进行特征编码,得到文本行内容特征向量和文本行位置特征向量;步骤13:使文本行内容特征向量和文本行位置特征向量相加得到文本行Embedding向量。3.根据权利要求1所述的文档图像勾选信息抽取方法,其特征在于,所述步骤2具体包括:步骤21:利用深度学习勾选符号检测模型,对勾选文档图像上的勾选符号进行检测,输出勾选符号类别和勾选符号位置框,以及勾选文档图像特征图;步骤22:结合勾选符号位置框以及勾选文档图像特征图进行池化操作,得到勾选图像Emebdding向量;步骤23:建立版式和类别Embedding table,并以勾选符号类别和勾选符号位置框为输入,查找版式和类别Embedding table,得到勾选位置Emebdding向量以及勾选类别Emebdding向量;步骤24:将勾选图像Emebdding向量、勾选位置Emebdding向量以及勾选类别Emebdding向量相加得到勾选符号Embedding向量。4.根据权利要求3所述的文档图像勾选信息抽取方法,其特征在于,所述步骤21中,所述深度学习对象检测模型基于卷积神经网络实现,通过预设的锚点框,预测出图像特征图上每一个点可能出现勾选符号的概率以及与锚点框的偏移量,从而确定勾选符号类别和勾选符号位置框。5.根据权利要求3所述的文档图像勾选信息抽取方法,其特征在于,所述步骤21中,所述勾选符号类别包括多个类别,每一类别具有特定的类别值。6.根据权利要求3所述的文档图像勾选信息抽取方法,其特征在于,所述步骤21中,所述勾选符号位置通过[x,y,w,h]四个值来表示,x,y表示勾选符号位置框的中心点,w和h表示其宽和高。7.根据权利要求3所述的文档图像勾选信息抽取方法,其特征在于,所述步骤21中,所述勾选文档图像特征图是深度学习勾选符号检测模型中的卷积神经网络针对整体勾选文档图像特征提取的特征图。8.根据权利要求3所述的文档图像勾选信息抽取方法,其特征在于...

【专利技术属性】
技术研发人员:王勇朱军民沈达伟
申请(专利权)人:北京易道博识科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1