【技术实现步骤摘要】
数据处理方法、装置、设备、存储介质及计算机程序产品
[0001]本申请涉及人工智能领域,尤其涉及一种数据处理方法、装置、设备、存储介质及计算机程序产品。
技术介绍
[0002]针对各种场景中所产生的各种样式的票据,当存在票据结构化信息的提取需求时,现有方法中通常基于分类的思想,将原始票据图像分类到不同样式的票据模板所指示的类别中,再将从原始票据图像中提取出的文本信息填充至匹配出的目标票据模板中,进而从填充后的目标票据模板中进行票据结构化信息的提取,票据结构化信息提取的准确性低,且十分依赖于分类结果的准确性以及模板填充的准确性。
技术实现思路
[0003]本申请实施例提供一种数据处理方法、装置、设备、存储介质及计算机程序产品,可提高票据结构化信息提取的准确性。
[0004]一方面,本申请实施例提供了一种数据处理方法,包括:
[0005]获取原始票据图像以及所述原始票据图像的多模态特征;所述原始票据图像的多模态特征是基于所述原始票据图像的图像特征以及所述原始票据图像的文本词向量特征得到的,所述原始票据图像的文本词向量特征是通过对所述原始票据图像中的印刷文本信息进行文本特征提取处理得到的;
[0006]基于所述原始票据图像的多模态特征以及多个票据模板的多模态特征,进行模板匹配处理,得到与所述原始票据图像相匹配的目标票据模板;
[0007]根据所述原始票据图像的多模态特征以及所述目标票据模板的多模态特征,对所述原始票据图像进行图像配准处理,得到目标票据图像;
[0008 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取原始票据图像以及所述原始票据图像的多模态特征;所述原始票据图像的多模态特征是基于所述原始票据图像的图像特征以及所述原始票据图像的文本词向量特征得到的,所述原始票据图像的文本词向量特征是通过对所述原始票据图像中的印刷文本信息进行文本特征提取处理得到的;基于所述原始票据图像的多模态特征以及多个票据模板的多模态特征,进行模板匹配处理,得到与所述原始票据图像相匹配的目标票据模板;根据所述原始票据图像的多模态特征以及所述目标票据模板的多模态特征,对所述原始票据图像进行图像配准处理,得到目标票据图像;从所述目标票据图像中提取票据结构化信息。2.如权利要求1所述的方法,其特征在于,所述根据所述原始票据图像的多模态特征以及所述目标票据模板的多模态特征,对所述原始票据图像进行图像配准处理,得到目标票据图像,包括:根据所述原始票据图像的多模态特征以及所述目标票据模板的多模态特征,进行配准点计算处理,得到矫正矩阵;所述矫正矩阵用于指示所述原始票据图像的多模态特征与所述目标票据模板的多模态特征之间的转换关系;基于所述矫正矩阵对所述原始票据图像进行图像矫正处理,得到所述目标票据图像。3.如权利要求1所述的方法,其特征在于,所述从所述目标票据图像中提取票据结构化信息,包括:确定所述目标票据图像中机打文本信息对应的机打文本区域,以及所述目标票据模板中印刷文本信息对应的印刷文本区域;基于所述机打文本区域与所述印刷文本区域,从所述目标票据图像中提取所述票据结构化信息。4.如权利要求3所述的方法,其特征在于,所述印刷文本区域包括第一标注区域以及第二标注区域,所述第一标注区域包括所述目标票据模板中印刷文本信息所在区域,所述第二标注区域包括所述目标票据模板中印刷文本信息所在区域,以及为所述目标票据模板中印刷文本信息对应的机打文本信息预留的预留区域;所述基于所述机打文本区域与所述印刷文本区域,从所述目标票据图像中提取所述票据结构化信息,包括:基于所述机打文本区域与所述第一标注区域之间的位置差异,对所述目标票据图像中的机打文本信息进行串行纠正处理,得到串行纠正后的机打文本区域;基于所述串行纠正后的机打文本区域与所述第二标注区域之间的关联关系,从所述目标票据图像中提取所述票据结构化信息。5.如权利要求4所述的方法,其特征在于,所述基于所述串行纠正后的机打文本区域与所述第二标注区域之间的关联关系,从所述目标票据图像中提取所述票据结构化信息,包括:确定所述串行纠正后的机打文本区域与所述第二标注区域之间的重合区域;所述重合区域指的是:所述串行纠正后的机打文本区域,与所述第二标注区域在所述目标票据图像中所指示区域相重合的部分区域;
在所述重合区域的区域面积大于预设阈值的情况下,将所述第二标注区域在所述目标票据图像中所指示的印刷文本信息,以及所述串行纠正后的机打文本区域所指示的机打文本信息确定为所述票据结构化信息。6.如权利要求1所述的方法,其特征在于,所述基于所述原始票据图像的多模态特征以及多个票据模板的多模态特征,进行模板匹配处理,得到与所述原始票据图像相匹配的目标票据模板,包括:确定所述原始票据图像的多模态特征与各个票据模板的多模态特征之间的特征相似度;将所述多个票据模板中,最大特征相似度所指示的票据模板确定为所述目标票据模板。7.如权利要求1所述的方法,其特征在于,基于所述原始票据图像的图像特征以及所述原始票据图像的文本词向量特征得到所述原始票据图像的多模态特征,包括:对所述原始票据图像的图像特征进行编码处理,得到所述原始票据图像的图像特征编码向量;对所述原始票据图像的文本词向量特征进行编码处理,得到所述原始票据图像的文本特征编码向量;将所述原始票据图像的图像特征编码向量与所述原始票据图像的文本特征编码向量进行拼接处理,得到所述原始票据图像的多模态特征。8.如权利要求7所述的方法,其特征在于,所述方法还包括:获取图像特征编码表以及文本特征编码表;所述对所述原始票据图像的图像特征进行编码处理,得到所述原始票据图像的图像特征编码向量,包括:基于所述图像...
【专利技术属性】
技术研发人员:邱佳梁,陈琳,吴伟佳,姜俐,
申请(专利权)人:微民保险代理有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。