【技术实现步骤摘要】
数据结构化处理方法、装置和电子设备
本专利技术涉及数据处理
,具体而言,涉及一种数据结构化处理方法、装置和电子设备。
技术介绍
现有的很多票据数据、个人信息数据等需要按照需要的格式进行保存时,一般会通过人工的方式,对多票据数据、个人信息数据进行识别,然后人工将数据编辑成设定的格式。但是这种操作方式效率较低。另外,为了提高信息存储的效率,又提供了一种通过OCR(OpticalCharacterRecognition,光学字符识别)技术对非结构化数据进行处理,形成结构化数据。
技术实现思路
本专利技术的目的在于提供一种数据结构化处理方法、装置和电子设备,能够提高将数据按照预设格式存储的效率及准确率。第一方面,本专利技术实施例提供一种数据结构化处理方法,包括:对待识别物对应的待识别图的第一部分进行特征提取,以得到特有特征,并将所述特有特征与预存的样本库中的样本进行特征比对,得到比对结果;若所述比对结果为确定出所述待识别物的目标样本,则根据所述目标样本中的数据布局,从所述待识别图的第二部分进行特征提取,以得到信息特征集,所述信息特征集包括所述待识别图中各个待识别字符的特征;对所述信息特征集进行分类识别,以得到所述待识别物中的第一目标字段集;将所述第一目标字段集中的各个字段按照设定格式存储。在可选的实施方式中,所述第一部分包括物体标识部分和信息标题部分,所述特有特征包括标识特征和标题特征;所述样本库包括第一样本库和第二样本库;所述对待识别物对应的待识别图 ...
【技术保护点】
1.一种数据结构化处理方法,其特征在于,包括:/n对待识别物对应的待识别图的第一部分进行特征提取,以得到特有特征,并将所述特有特征与预存的样本库中的样本进行特征比对,得到比对结果;/n若所述比对结果为确定出所述待识别物的目标样本,则根据所述目标样本中的数据布局,从所述待识别图的第二部分进行特征提取,以得到信息特征集,所述信息特征集包括所述待识别图中各个待识别字符的特征;/n对所述信息特征集进行分类识别,以得到所述待识别物中的第一目标字段集;/n将所述第一目标字段集中的各个字段按照设定格式存储。/n
【技术特征摘要】
1.一种数据结构化处理方法,其特征在于,包括:
对待识别物对应的待识别图的第一部分进行特征提取,以得到特有特征,并将所述特有特征与预存的样本库中的样本进行特征比对,得到比对结果;
若所述比对结果为确定出所述待识别物的目标样本,则根据所述目标样本中的数据布局,从所述待识别图的第二部分进行特征提取,以得到信息特征集,所述信息特征集包括所述待识别图中各个待识别字符的特征;
对所述信息特征集进行分类识别,以得到所述待识别物中的第一目标字段集;
将所述第一目标字段集中的各个字段按照设定格式存储。
2.根据权利要求1所述的方法,其特征在于,所述第一部分包括物体标识部分和信息标题部分,所述特有特征包括标识特征和标题特征;所述样本库包括第一样本库和第二样本库;所述对待识别物对应的待识别图的第一部分进行特征提取,以得到特有特征,并将所述特有特征与预存的样本库中的样本进行特征比对,得到比对结果,包括:
对所述待识别物对应的待识别图的物体标识部分进行特征提取,以得到标识特征;
将所述标识特征与第一样本库中的样本进行特征比对,得到第一比对结果;
若所述第一比对结果为确定出所述待识别物的目标类别,则对所述待识别图的信息标题部分进行特征提取,以得到标题特征;
将所述标题特征与所述目标类别对应的第二样本库中的样本进行比对,得到第二比对结果,其中,第二比对结果包括:确定出所述待识别物的目标样本,或,未确定出所述待识别物的目标样本。
3.根据权利要求2所述的方法,其特征在于,所述对待识别物对应的待识别图的物体标识部分进行特征提取,以得到标识特征,包括:
对所述待识别物对应的待识别图进行预处理,以得到处理识别图;
将所述处理识别图使用滤波器进行过滤,以得到过滤识别图;
将所述过滤识别图进行特征提取,以得到标识特征。
4.根据权利要求3所述的方法,其特征在于,所述对待识别物对应的待识别图进行预处理,以得到处理识别图,包括:
对所述待识别物对应的待识别图进行二值化处理、降噪处理、图像尺寸缩放处理、图像剪裁处理中的一项或多项处理方式处理,以得到处理识别图。
5.根据权利要求1所述的方法,其特征在于,所述对所述信息特征集进行分类识别,以得到所述待识别物中的第一目标字段集,包括:
对所述信息特征集进行分类识别,以得到所述待识别物中的第一...
【专利技术属性】
技术研发人员:王泽,翁崇凌,
申请(专利权)人:北京令才科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。