数据结构化处理方法、装置和电子设备制造方法及图纸

技术编号:24939552 阅读:36 留言:0更新日期:2020-07-17 21:16
本申请提供了一种数据结构化处理方法、装置和电子设备,其中,该方法包括:对待识别物对应的待识别图的第一部分进行特征提取,以得到特有特征,并将特有特征与预存的样本库中的样本进行特征比对,得到比对结果;若比对结果为确定出待识别物的目标样本,则根据目标样本中的数据布局,从待识别图的第二部分进行特征提取,以得到信息特征集,信息特征集包括待识别图中各个待识别字符的特征;对信息特征集进行分类识别,以得到待识别物中的第一目标字段集;将第一目标字段集中的各个字段按照设定格式存储。

【技术实现步骤摘要】
数据结构化处理方法、装置和电子设备
本专利技术涉及数据处理
,具体而言,涉及一种数据结构化处理方法、装置和电子设备。
技术介绍
现有的很多票据数据、个人信息数据等需要按照需要的格式进行保存时,一般会通过人工的方式,对多票据数据、个人信息数据进行识别,然后人工将数据编辑成设定的格式。但是这种操作方式效率较低。另外,为了提高信息存储的效率,又提供了一种通过OCR(OpticalCharacterRecognition,光学字符识别)技术对非结构化数据进行处理,形成结构化数据。
技术实现思路
本专利技术的目的在于提供一种数据结构化处理方法、装置和电子设备,能够提高将数据按照预设格式存储的效率及准确率。第一方面,本专利技术实施例提供一种数据结构化处理方法,包括:对待识别物对应的待识别图的第一部分进行特征提取,以得到特有特征,并将所述特有特征与预存的样本库中的样本进行特征比对,得到比对结果;若所述比对结果为确定出所述待识别物的目标样本,则根据所述目标样本中的数据布局,从所述待识别图的第二部分进行特征提取,以得到信息特征集,所述信息特征集包括所述待识别图中各个待识别字符的特征;对所述信息特征集进行分类识别,以得到所述待识别物中的第一目标字段集;将所述第一目标字段集中的各个字段按照设定格式存储。在可选的实施方式中,所述第一部分包括物体标识部分和信息标题部分,所述特有特征包括标识特征和标题特征;所述样本库包括第一样本库和第二样本库;所述对待识别物对应的待识别图的第一部分进行特征提取,以得到特有特征,并将所述特有特征与预存的样本库中的样本进行特征比对,得到比对结果,包括:对所述待识别物对应的待识别图的物体标识部分进行特征提取,以得到标识特征;将所述标识特征与第一样本库中的样本进行特征比对,得到第一比对结果;若所述第一比对结果为确定出所述待识别物的目标类别,则对所述待识别图的信息标题部分进行特征提取,以得到标题特征;将所述标题特征与所述目标类别对应的第二样本库中的样本进行比对,得到第二比对结果,其中,第二比对结果包括:确定出所述待识别物的目标样本,或,未确定出所述待识别物的目标样本。本申请实施例提供的数据结构化处理方法,还可以先对标识特征和标题特征进行识别确认,从而可以确定出待识别图中的待识别物对应的样本。再根据确定出的目标样本对待识别图中的信息进行提取,可以提高信息提取的成功率及效率。在可选的实施方式中,所述对待识别物对应的待识别图的物体标识部分进行特征提取,以得到标识特征,包括:对所述待识别物对应的待识别图进行预处理,以得到处理识别图;将所述处理识别图使用滤波器进行过滤,以得到过滤识别图;将所述过滤识别图进行特征提取,以得到标识特征。本申请实施例提供的数据结构化处理方法,还可以通过处理、过滤等方式可以弱化除物体标识部分之外的其它部分的内容,从而可以使提取的物体标识部分的特征能够更能表达出待识别图中的标识,从而可以使确定出的目标样本能够更加准确。在可选的实施方式中,所述对待识别物对应的待识别图进行预处理,以得到处理识别图,包括:对所述待识别物对应的待识别图进行二值化处理、降噪处理、图像尺寸缩放处理、图像剪裁处理中的一项或多项处理方式处理,以得到处理识别图。本申请实施例提供的数据结构化处理方法,还可以通过二值化处理、降噪处理、图像尺寸缩放处理、图像剪裁处理中的处理方式处理,可以将待识别图处理成能够相对统一格式的处理识别图,从而可以更准确地提取处理识别图中的信息,从而可以使得到的目标样本更加准确。在可选的实施方式中,所述对所述信息特征集进行分类识别,以得到所述待识别物中的第一目标字段集,包括:对所述信息特征集进行分类识别,以得到所述待识别物中的第一目标字段集以及所述第一目标字段集中的各个字段的子置信度;所述将所述第一目标字段集中的各个字段按照设定格式存储,包括:根据所述第一目标字段集中的各个字段的子置信度,得到所述第一目标字段集的置信度;若所述第一目标字段集的置信度不小于第一设定值,将所述第一目标字段集中的各个字段按照所述设定格式存储。本申请实施例提供的数据结构化处理方法,还可以对确定出的字段集进行置信度的计算,从而可以进一步地验证确定出的字段的准确度,在准确度达到一定程度时,才将识别出的字段集作为最后需要存储为设定格式的最终字段。通过上述的处理方式可以提高设定格式存储的信息的准确度。在可选的实施方式中,还包括:若所述比对结果为未确定出目标样本,或若所述第一目标字段集的置信度小于第一设定值,则根据所述待识别图形成数据处理任务包;将所述数据处理任务包发送给指定用户终端;接收所述指定用户终端发送的第二目标字段集;将所述第二目标字段集中的目标字段按照设定格式存储。本申请实施例提供的数据结构化处理方法,还可以在通过识别的方式不能够准确识别提取出字段集时,还可以通过任务包的形式发送给用户终端,以方便用户对任务包中的内容进行处理,从而可以在保持准确率的情况下,减少信息遗漏的现象。在可选的实施方式中,所述将所述数据处理任务包发送给指定用户终端,包括:将所述数据处理任务包发送给多个指定用户终端;所述将所述第二目标字段集中的目标字段按照设定格式存储,包括:将每个指定用户终端发送的目标字段子集进行对比,得到各个目标字段子集的相似度;若各个目标字段子集的相似度大于第二设定值,则将任一目标字段子集的目标字段按照设定格式存储。本申请实施例提供的数据结构化处理方法,还可以将一任务包发送给多个用户终端,从而可以提高用户终端上交的字段集的准确率。第二方面,本专利技术实施例提供一种数据结构化处理装置,包括:比对模块,用于对待识别物对应的待识别图的第一部分进行特征提取,以得到特有特征,并将所述特有特征与预存的样本库中的样本进行特征比对,得到比对结果;提取模块,用于若所述比对结果为确定出所述待识别物的目标样本,则根据所述目标样本中数据布局,从所述待识别图的第二部分进行特征提取,以得到信息特征集,所述信息特征集包括所述待识别图中各个待识别字符的特征;识别模块,用于对所述信息特征集进行分类识别,以得到所述待识别物中的第一目标字段集;第一存储模块,用于将所述第一目标字段集中的各个字段按照设定格式存储。第三方面,本专利技术实施例提供一种电子设备,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如前述实施方式任一所述的方法的步骤。第四方面,本专利技术实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如前述实施方式任一所述的方法的步骤。本申请实施例提供的数据结构化处理方法、装置和电子设备的有益效果是:通过先确定出待识别图中对应的目标样本文档来自技高网...

【技术保护点】
1.一种数据结构化处理方法,其特征在于,包括:/n对待识别物对应的待识别图的第一部分进行特征提取,以得到特有特征,并将所述特有特征与预存的样本库中的样本进行特征比对,得到比对结果;/n若所述比对结果为确定出所述待识别物的目标样本,则根据所述目标样本中的数据布局,从所述待识别图的第二部分进行特征提取,以得到信息特征集,所述信息特征集包括所述待识别图中各个待识别字符的特征;/n对所述信息特征集进行分类识别,以得到所述待识别物中的第一目标字段集;/n将所述第一目标字段集中的各个字段按照设定格式存储。/n

【技术特征摘要】
1.一种数据结构化处理方法,其特征在于,包括:
对待识别物对应的待识别图的第一部分进行特征提取,以得到特有特征,并将所述特有特征与预存的样本库中的样本进行特征比对,得到比对结果;
若所述比对结果为确定出所述待识别物的目标样本,则根据所述目标样本中的数据布局,从所述待识别图的第二部分进行特征提取,以得到信息特征集,所述信息特征集包括所述待识别图中各个待识别字符的特征;
对所述信息特征集进行分类识别,以得到所述待识别物中的第一目标字段集;
将所述第一目标字段集中的各个字段按照设定格式存储。


2.根据权利要求1所述的方法,其特征在于,所述第一部分包括物体标识部分和信息标题部分,所述特有特征包括标识特征和标题特征;所述样本库包括第一样本库和第二样本库;所述对待识别物对应的待识别图的第一部分进行特征提取,以得到特有特征,并将所述特有特征与预存的样本库中的样本进行特征比对,得到比对结果,包括:
对所述待识别物对应的待识别图的物体标识部分进行特征提取,以得到标识特征;
将所述标识特征与第一样本库中的样本进行特征比对,得到第一比对结果;
若所述第一比对结果为确定出所述待识别物的目标类别,则对所述待识别图的信息标题部分进行特征提取,以得到标题特征;
将所述标题特征与所述目标类别对应的第二样本库中的样本进行比对,得到第二比对结果,其中,第二比对结果包括:确定出所述待识别物的目标样本,或,未确定出所述待识别物的目标样本。


3.根据权利要求2所述的方法,其特征在于,所述对待识别物对应的待识别图的物体标识部分进行特征提取,以得到标识特征,包括:
对所述待识别物对应的待识别图进行预处理,以得到处理识别图;
将所述处理识别图使用滤波器进行过滤,以得到过滤识别图;
将所述过滤识别图进行特征提取,以得到标识特征。


4.根据权利要求3所述的方法,其特征在于,所述对待识别物对应的待识别图进行预处理,以得到处理识别图,包括:
对所述待识别物对应的待识别图进行二值化处理、降噪处理、图像尺寸缩放处理、图像剪裁处理中的一项或多项处理方式处理,以得到处理识别图。


5.根据权利要求1所述的方法,其特征在于,所述对所述信息特征集进行分类识别,以得到所述待识别物中的第一目标字段集,包括:
对所述信息特征集进行分类识别,以得到所述待识别物中的第一...

【专利技术属性】
技术研发人员:王泽翁崇凌
申请(专利权)人:北京令才科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1