键值对区域识别方法、装置、存储介质和电子设备制造方法及图纸

技术编号:27529631 阅读:33 留言:0更新日期:2021-03-03 11:04
本发明专利技术实施例公开了一种键值对区域识别方法。包括:获取目标图片,将目标图片输入键值对区域识别网络,识别目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及按文本属性划分的键区域和值区域,预先采用按照键值对组合分割的文本区域,以及文本区域中按照文本属性划分的键区域和值区域,对图片样本进行标记,将图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,训练得到所述识别网络,可以对键值对组合的文本区域进行自动检测,同时对文本区域进行分类,自动得到键区域和值区域,相比于人工干预下的键、值规则的匹配,格式复杂的场景也能准确识别,更具有普适性,减少了人工录入核对的时间,节省了大量的人力成本。了大量的人力成本。了大量的人力成本。

【技术实现步骤摘要】
键值对区域识别方法、装置、存储介质和电子设备


[0001]本专利技术涉及数据处理
,特别是涉及一种键值对区域识别方法、一种键值对区域识别装置、一种存储介质及一种电子设备。

技术介绍

[0002]目前的票据、回单等的报销与数据梳理都是通过人工手工录入,不仅效率较慢,并且成本高。
[0003]OCR(Optical Character Recognition,光学字符识别)技术的算法,主要是依据卷积网络定位发票上的文字位置,然后通过循环神经网络等识别文字。经过这些步骤后,可以得到孤立的图中的文字位置以及对应的文字识别结果,但其中的关系逻辑是缺失的,需要利用人工规则来区分识别的内容。对于格式较为简单的票据,例如,定额发票、增值税发票等版式固定的票据,目前主流技术在图像文字清晰可见的条件下,整张识别率可达到90%以上,但处理格式较为复杂,或需特殊规则的场景,例如,银行回单、保险单据等时,在与发票同样的图像质量的情况下只有60%左右识别准确率。
[0004]总而言之,通过OCR技术和人工规则难以识别格式较为复杂的场景,仍然存在效率低、成本高的问题。

技术实现思路

[0005]鉴于上述问题,提出了一种键值对区域识别方法、一种键值对区域识别装置、存储介质及电子设备,以解决OCR技术和人工规则难以识别格式较为复杂的场景,仍然存在效率低、成本高的问题。
[0006]依据本专利技术的一个方面,提供了一种键值对区域识别方法,包括:
[0007]获取目标图片;
[0008]将所述目标图片输入键值对区域识别网络;其中,所述键值对区域识别网络预先采用按照键值对组合分割的文本区域,以及所述文本区域中按照文本属性划分的键区域和值区域,对图片样本进行标记,将所述图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,训练得到;
[0009]由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域。
[0010]可选地,所述由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域包括:
[0011]利用卷积神经网络对所述目标图片提取不同尺度特征,并进行特征融合,得到融合后的特征图;
[0012]根据所述特征图,生成按照键值对组合分割的文本区域;
[0013]对所述文本区域进行分割,生成所述键区域和值区域。
[0014]可选地,所述根据所述特征图,生成按照键值对组合分割的文本区域包括:
[0015]针对所述特征图上的每个像素点,生成多个候选区域;
[0016]识别所述多个候选区域中与所述键值对组合匹配的目标候选区域;
[0017]对所述目标候选区域进行合并,得到所述文本区域。
[0018]可选地,所述利用卷积神经网络对所述目标图片提取不同尺度特征,并进行特征融合,得到融合后的特征图包括:
[0019]对池化层输出的第一特征图进行上采样操作,得到与上一个池化层尺寸相同的第二特征图;
[0020]将所述第二特征图与上一个池化层输出的第三特征图进行叠加,得到第四特征图。
[0021]可选地,所述方法还包括:
[0022]对所述键区域和值区域进行文本识别,得到所述键区域内的键属性的键信息和所述值区域内的值属性的值信息;
[0023]提供所述键信息和值信息。
[0024]可选地,若所述键区域包括多个,在所述对所述键区域和值区域进行文本识别,得到所述键区域内的键属性的键信息和所述值区域内的值属性的值信息之前,所述方法还包括;
[0025]检测所述目标图片中的线条信息;
[0026]根据所述线条信息,确定所述键区域和值区域的位置信息;
[0027]所述提供所述键信息和值信息包括:
[0028]根据所述位置信息,生成由所述键信息和值信息组成的结构化信息。
[0029]可选地,所述目标图片包括用户健康数据、银行回单、财务发票中至少一种。
[0030]依据本专利技术的另一个方面,提供了一种键值对区域识别装置,包括:
[0031]获取模块,用于获取目标图片;
[0032]输入模块,用于将所述目标图片输入键值对区域识别网络;其中,所述键值对区域识别网络预先采用按照键值对组合分割的文本区域,以及所述文本区域中按照文本属性划分的键区域和值区域,对图片样本进行标记,将所述图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,训练得到;
[0033]识别模块,用于由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域。
[0034]可选地,所述识别模块包括:
[0035]特征提取子模块,用于利用卷积神经网络对所述目标图片提取不同尺度特征,并进行特征融合,得到融合后的特征图;
[0036]区域生成子模块,用于根据所述特征图,生成按照键值对组合分割的文本区域;
[0037]分割子模块,用于对所述文本区域进行分割,生成所述键区域和值区域。
[0038]可选地,所述区域生成子模块包括:
[0039]区域生成单元,用于针对所述特征图上的每个像素点,生成多个候选区域;
[0040]区域识别单元,用于识别所述多个候选区域中与所述键值对组合匹配的目标候选
区域;
[0041]合并单元,用于对所述目标候选区域进行合并,得到所述文本区域。
[0042]可选地,所述特征提取子模块包括:
[0043]采样单元,用于对池化层输出的第一特征图进行上采样操作,得到与上一个池化层尺寸相同的第二特征图;
[0044]叠加单元,用于将所述第二特征图与上一个池化层输出的第三特征图进行叠加,得到第四特征图。
[0045]可选地,所述装置还包括:
[0046]文本识别模块,用于对所述键区域和值区域进行文本识别,得到所述键区域内的键属性的键信息和所述值区域内的值属性的值信息;
[0047]信息提供模块,用于提供所述键信息和值信息。
[0048]可选地,若所述键区域包括多个,所述装置还包括;
[0049]检测模块,用于在所述对所述键区域和值区域进行文本识别,得到所述键区域内的键属性的键信息和所述值区域内的值属性的值信息之前,检测所述目标图片中的线条信息;
[0050]信息确定模块,用于根据所述线条信息,确定所述键区域和值区域的位置信息;
[0051]所述信息提供模块包括:
[0052]信息生成模块,用于根据所述位置信息,生成由所述键信息和值信息组成的结构化信息。
[0053]可选地,所述目标图片包括用户健康数据、银行回单、财务发票中至少一种。
[0054]依据本专利技术的另一个方面,提供了一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种键值对区域识别方法,其特征在于,包括:获取目标图片;将所述目标图片输入键值对区域识别网络;其中,所述键值对区域识别网络预先采用按照键值对组合分割的文本区域,以及所述文本区域中按照文本属性划分的键区域和值区域,对图片样本进行标记,将所述图片样本以及标记的文本区域、键区域和值区域输入预设的网络结构,训练得到;由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域。2.根据权利要求1所述的方法,其特征在于,所述由所述键值对区域识别网络识别所述目标图片中的键值对区域,输出按照键值对组合分割的文本区域,以及所述文本区域中按文本属性划分的键区域和值区域包括:利用卷积神经网络对所述目标图片提取不同尺度特征,并进行特征融合,得到融合后的特征图;根据所述特征图,生成按照键值对组合分割的文本区域;对所述文本区域进行分割,生成所述键区域和值区域。3.根据权利要求2所述的方法,其特征在于,所述根据所述特征图,生成按照键值对组合分割的文本区域包括:针对所述特征图上的每个像素点,生成多个候选区域;识别所述多个候选区域中与所述键值对组合匹配的目标候选区域;对所述目标候选区域进行合并,得到所述文本区域。4.根据权利要求2所述的方法,其特征在于,所述利用卷积神经网络对所述目标图片提取不同尺度特征,并进行特征融合,得到融合后的特征图包括:对池化层输出的第一特征图进行上采样操作,得到与上一个池化层尺寸相同的第二特征图;将所述第二特征图与上一个池化层输出的第三特征图进行叠加,得到第四特征图。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所...

【专利技术属性】
技术研发人员:张秋晖刘岩
申请(专利权)人:泰康保险集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1