字段识别方法、装置、电子设备、存储介质和程序产品制造方法及图纸

技术编号:28871757 阅读:12 留言:0更新日期:2021-06-15 23:04
本公开公开了字段识别方法、装置、电子设备、存储介质和程序产品,涉及人工智能领域,具体为计算机视觉和深度学习技术,可应用于OCR场景下。具体实现方案为:预测图像数据包括的多个字段;提取每个字段的特征信息;基于所述多个字段的特征信息,构建所述多个字段的共同编码特征;基于多个查询向量对所述共同编码特征进行解码,得到所述多个查询向量对应的多个解码特征,任一所述查询向量关联目标字段和一个候选字段;从所述多个解码特征中确定目标解码特征,并将所述目标解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段。本公开可以提高图像数据的字段识别效果。

【技术实现步骤摘要】
字段识别方法、装置、电子设备、存储介质和程序产品
本公开涉及人工智能领域,具体为计算机视觉和深度学习技术,可应用于光学字符识别(OpticalCharacterRecognition,OCR)场景下。
技术介绍
在实际应用中使用到的图像数据往往是多样式的,例如:不同样式的票据图像数据、不同样式的铭牌图像数据等。目前识别图像数据的关联字段主要是通过预先设置适用特定样式的模板进行识别,不同模板只能识别特定样式的图像数据的关联字段。
技术实现思路
本公开提供了一种字段识别方法、装置、电子设备、存储介质和程序产品。根据本公开的一方面,提供了一种字段识别方法,包括:预测图像数据包括的多个字段;提取每个字段的特征信息;基于所述多个字段的特征信息,构建所述多个字段的共同编码特征;基于多个查询向量对所述共同编码特征进行解码,得到所述多个查询向量对应的多个解码特征,任一所述查询向量关联目标字段和一个候选字段;从所述多个解码特征中确定目标解码特征,并将所述目标解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段。根据本公开的另一方面,提供了一种字段识别装置,包括:预测模块,用于预测图像数据包括的多个字段;提取模块,用于提取每个字段的特征信息;构建模块,用于基于所述多个字段的特征信息,构建所述多个字段的共同编码特征;解码模块,用于基于多个查询向量对所述共同编码特征进行解码,得到所述多个查询向量对应的多个解码特征,任一所述查询向量关联目标字段和一个候选字段;确定模块,用于从所述多个解码特征中确定目标解码特征,并将所述目标解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段。根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开提供的字段识别方法。根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开提供的字段识别方法。根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的字段识别方法。本公开中,通过预测图像数据包括的多个字段,利用多个字段的特征信息,构建多个字段的共同编码特征,再基于多查询向量对共同编码特征进行解码,得到所述多个查询向量对应的多个解码特征,将多个解码特征目标解码特征对应的查询向量所关联的候选字段确定目标字段的关联字段。从而可以提高图像数据的字段识别效果。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是本公开提供的一种字段识别方法的流程图;图2是本公开提供的一种字段识别的示意图;图3是本公开提供的一种字段识别装置的结构图;图4是本公开提供的另一种字段识别装置的结构图;图5是用来实现本公开实施例的字段识别方法的电子设备的框图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。请参见图1,图1是本公开提供的一种字段识别方法的流程图,如图1所示,包括以下步骤:步骤S101、预测图像数据包括的多个字段。上述图像数据可以是票据图像数据或者铭牌图像数据等包括多个字段的图像数据,进一步的,上述图像数据可以是在实际应用中存在多个样式的图像数据。上述字段可以是一个词汇或者一组词汇,或者可以是一连串词汇,例如:日期是一个字段,20XX年XX月XX日为另一个字段。上述预测图像数据包括的多个字段可以是,预测上述多个字段在上述图像数据中的位置区域,例如,预测多个字段在上述图像数据中的角点区域。本公开还可以将各字段转化为文本框,例如:转化为文本框P={pi;i∈N},pi=(xi,yi,wi,hi),xi,yi,wi,hi这四项分别为框pi的横坐标、纵坐标、框宽以及框高,N为字段数。一些场景中,可以采用高效场景文本检测(EfficientandAccuracySceneText,EAST)算法预测图像数据包括的多个字段,另一些场景中也可以通过文字检测网络(ConnectionistTextProposalNetwork,CTPN)算法来预测上述多个字段。需要说明的是,本公开中并不限定预测上述多个字段的实施方式。另外,本公开中还可以在预测到上述多个字段后,使用图像文字识别技术提取各字段中的文本内容。步骤S102、提取每个字段的特征信息。上述提取每个字段的特征信息可以是提取字段的图像特征、位置特征或者文本语义特征。提取的方式包括但不限于通过神经网络、图像检测算法或者位置编码等方式。步骤S103、基于所述多个字段的特征信息,构建所述多个字段的共同编码特征。其中,上述基于所述多个字段的特征信息,构建所述多个字段的共同编码特征可以是,对上述多个字段的特征信息进行编码或者融合处理,得到上述多个字段的共同编码特征。其中,上述共同编码特征是指针对上述多个字段输出一个编码特征,该编码特征对应上述多个字段。步骤S104、基于多个查询向量对所述共同编码特征进行解码,得到所述多个查询向量对应的多个解码特征,任一所述查询向量关联目标字段和一个候选字段。上述目标字段可以是上述多个字段中的当前待查询的字段,例如:日期、名称、金额等。每个查询向量关联上述目标字段,以及一个候选字段,其中,这里的候选字段可以是指上述目标字段之外的字段。这样将不同的候选字段上述目标字段进行联合从而得到多个查询向量。由于上述共同编码特征是对应上述多个字段,则上述多个查询向量关联上述多个字段中的目标字段和候选字段,这样通过上述解码可以各查询向量关联的字段对应的解码特征。步骤S105、从所述多个解码特征中确定目标解码特征,并将所述目标解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段。其中,上述目标解码特征为上述多个解码特征满足预设条件的解码特征,例如:匹配条件概率最高的解码特征。例如:上述目标字段是日期,而上述多个字段还包括字段20XX年XX月XX日,字段XXX.XX(例如:金额值),字段XX-YY(型号或者票号),这样就可以将这多个数字字段与上述日期字段组成多个向量,从而得到每个包括数字的字段本文档来自技高网...

【技术保护点】
1.一种字段识别方法,包括:/n预测图像数据包括的多个字段;/n提取每个字段的特征信息;/n基于所述多个字段的特征信息,构建所述多个字段的共同编码特征;/n基于多个查询向量对所述共同编码特征进行解码,得到所述多个查询向量对应的多个解码特征,任一所述查询向量关联目标字段和一个候选字段;/n从所述多个解码特征中确定目标解码特征,并将所述目标解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段。/n

【技术特征摘要】
1.一种字段识别方法,包括:
预测图像数据包括的多个字段;
提取每个字段的特征信息;
基于所述多个字段的特征信息,构建所述多个字段的共同编码特征;
基于多个查询向量对所述共同编码特征进行解码,得到所述多个查询向量对应的多个解码特征,任一所述查询向量关联目标字段和一个候选字段;
从所述多个解码特征中确定目标解码特征,并将所述目标解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段。


2.根据权利要求1所述的方法,其中,所述提取每个字段的特征信息,包括:
提取每个字段的图像特征、位置特征和文本语义特征,其中,所述特征信息为所述图像特征、位置特征和文本语义特征的融合特征信息。


3.根据权利要求1所述的方法,其中,所述基于所述多个字段的特征信息,构建所述多个字段的共同编码特征,包括:
通过预先配置的多层特征编码器预测所述多个字段在多个维度上的综合共同编码特征,其中,所述多层特征编码器的第一层输入包括所述多个字段的特征信息,所述多层特征编码器的第n层的输入为包括第n-1层的输出,n为大于1的整数。


4.根据权利要求3所述的方法,任一所述查询向量包括所述目标字段的标识信息和一个候选字段的标识信息;
所述方法还包括:
为每个字段分配标识信息,并将每个字段的标识信息更新至对应的特征信息中;
其中,所述多层特征编码器的第一层输入包括所述多个字段的包括标识信息的特征信息。


5.根据权利要求1所述的方法,其中,所述基于多个查询向量对所述共同编码特征进行解码,得到所述多个查询向量对应的多个解码特征,包括:
通过预先配置的多层特征解码器对所述共同编码特征进行多次解码操作,得到所述多个查询向量对应的多个解码特征,其中,每次解码操作过程中,所述多层特征解码器的第一层的输入包括一个所述查询向量和所述共同编码特征,所述多层特征编码器的第n层的输入为包括第n-1层的输出,n为大于1的整数。


6.根据权利要求1所述的方法,其中,所述从所述多个解码特征中确定目标解码特征,并将所述目标解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段,包括:
分别对所述多个解码特征进行降维处理,得到多个一维解码特征,并计算每个一维解码特征的匹配条件概率,并将目标一维解码特征对应的查询向量所关联的候选字段确定所述目标字段的关联字段,所述目标一维解码特征的匹配条件概率满足预设条件。


7.一种字段识别装置,包括:
预测模块,用于预测图像数据包括的多个字段;
提取模块,用于提取每个字段的特征信息;
构建模块,用于基于所述多个字段的特征信息,构...

【专利技术属性】
技术研发人员:李煜林张晓强钦夏孟章成全姚锟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1