【技术实现步骤摘要】
端到端利用多模特征的文档图像勾选信息抽取方法及系统
[0001]本专利技术涉及计算机视觉领域,尤其是一种端到端利用多模特征的文档图像勾选信息抽取方法及系统。
技术介绍
[0002]现实中,大量文档图像中存在各式各样的勾选标记。作为文档图像中结构化信息的有效表示方式,勾选标记扮演着非常重要的信息承载作用。这些勾选符号通常以对勾选框打钩、涂抹、打叉等方式出现,标记出对应的勾选信息。
[0003]勾选框
[0004]常见的勾选框样式有实线框、虚线框、括号等,其中最常见的是实线框(如下表编号1)。现实中的文档图像上,勾选框会存在尺寸大小、线段粗细、长宽比的变化,也存在由于取图方式导致的旋转、透视变换以及背景模糊、干扰等情况。
[0005]如下是一些常见的勾选框样式示例。
[0006][0007]表1勾选框样式
[0008]勾选符号
[0009]勾选符号是对于勾选状态的一个标记,常见的有打钩、打叉、涂抹、划线等方式。同时又分为打印和手写两种情况,如下表2。
[0010][0011
【技术保护点】
【技术特征摘要】
1.一种端到端利用多模特征的文档图像勾选信息抽取方法,其特征在于,所述方法包括以下步骤:步骤1:文本行特征提取步骤,检测并输出勾选文档图像的文本行内容和文本行位置,经编码后得到文本行Embedding向量;步骤2:勾选符号特征提取步骤,确定勾选图像Emebdding向量、勾选位置Emebdding向量以及勾选类别Emebdding向量,相加后得到勾选符号Embedding向量;步骤3:勾选信息提取步骤,以文本行和勾选符号作为节点,融合文本行Embedding向量和勾选符号Embedding向量获得文本行增强特征向量,经分类获得勾选信息。2.根据权利要求1所述的文档图像勾选信息抽取方法,其特征在于,所述步骤1具体包括:步骤11:输入勾选文档图像并进行OCR模型检测,输出文本行内容和文本行位置;步骤12:分别对文本行内容和文本行位置进行特征编码,得到文本行内容特征向量和文本行位置特征向量;步骤13:使文本行内容特征向量和文本行位置特征向量相加得到文本行Embedding向量。3.根据权利要求1所述的文档图像勾选信息抽取方法,其特征在于,所述步骤2具体包括:步骤21:利用深度学习勾选符号检测模型,对勾选文档图像上的勾选符号进行检测,输出勾选符号类别和勾选符号位置框,以及勾选文档图像特征图;步骤22:结合勾选符号位置框以及勾选文档图像特征图进行池化操作,得到勾选图像Emebdding向量;步骤23:建立版式和类别Embedding table,并以勾选符号类别和勾选符号位置框为输入,查找版式和类别Embedding table,得到勾选位置Emebdding向量以及勾选类别Emebdding向量;步骤24:将勾选图像Emebdding向量、勾选位置Emebdding向量以及勾选类别Emebdding向量相加得到勾选符号Embedding向量。4.根据权利要求3所述的文档图像勾选信息抽取方法,其特征在于,所述步骤21中,所述深度学习对象检测模型基于卷积神经网络实现,通过预设的锚点框,预测出图像特征图上每一个点可能出现勾选符号的概率以及与锚点框的偏移量,从而确定勾选符号类别和勾选符号位置框。5.根据权利要求3所述的文档图像勾选信息抽取方法,其特征在于,所述步骤21中,所述勾选符号类别包括多个类别,每一类别具有特定的类别值。6.根据权利要求3所述的文档图像勾选信息抽取方法,其特征在于,所述步骤21中,所述勾选符号位置通过[x,y,w,h]四个值来表示,x,y表示勾选符号位置框的中心点,w和h表示其宽和高。7.根据权利要求3所述的文档图像勾选信息抽取方法,其特征在于,所述步骤21中,所述勾选文档图像特征图是深度学习勾选符号检测模型中的卷积神经网络针对整体勾选文档图像特征提取的特征图。8.根据权利要求3所述的文档图像勾选信息抽取方法,其特征在于...
【专利技术属性】
技术研发人员:王勇,朱军民,沈达伟,
申请(专利权)人:北京易道博识科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。