数据识别方法和装置制造方法及图纸

技术编号:28837900 阅读:21 留言:0更新日期:2021-06-11 23:35
本说明书实施例提供了一种数据识别方法和装置。根据该实施例的方法,获取待识别数据集;然后从所述待识别数据集中提取各待识别数据的前缀数据;将所述前缀数据与预设类型数据的前缀分布进行匹配,确定所述待识别数据集针对所述预设类型数据的前缀匹配得分;再将所述前缀匹配得分与所述待识别数据集的统计特征输入所述预设类型数据的分类模型,得到所述待识别数据集是否属于所述预设类型数据的分类结果。

【技术实现步骤摘要】
数据识别方法和装置
本说明书一个或多个实施例涉及计算机应用
,特别涉及一种数据识别方法和装置。
技术介绍
在现实存在的大规模数据中,存在一些识别难度较高的数据,例如工号、信用评分、发票号码等等。这些数据大部分为数字类型,不具备太多的语义信息,难以通过NLP(NaturalLanguageProcessing,自然语言处理)的方式进行识别。并且,这些数据没有太强的正则特征,很难采用正则表达式进行识别。因此,目前对于上述数字类型的弱正则数据的识别准确率很低。
技术实现思路
有鉴于此,本说明书一个或多个实施例描述了一种数据识别方法和装置,以便于提高数字类型的弱正则数据的识别准确率。根据第一方面,提供了一种数据识别方法,包括:获取待识别数据集;从所述待识别数据集中提取各待识别数据的前缀数据;将所述前缀数据与预设类型数据的前缀分布进行匹配,确定所述待识别数据集针对所述预设类型数据的前缀匹配得分;将所述前缀匹配得分与所述待识别数据集的统计特征输入所述预设类型数据的分类模型,得到所述待识别数据集是否属于所述预设类型数据的分类结果。在一个实施例中,所述获取待识别数据集包括:从结构化数据的同一列数据中抽取多于一个的待识别数据构成待识别数据集;或者,从非结构化数据的表格中抽取同一列的多于一个的待识别数据构成待识别数据集。在另一个实施例中,从所述待识别数据集中提取各待识别数据的前缀数据包括:提取所述待识别数据中前M位的数据作为前缀数据,所述M为预设的正整数。在一个实施例中,所述预设类型数据的前缀分布采用如下方式预先得到:获取所述预设类型数据的第一训练样本集;从所述第一训练样本集中提取各训练样本的前缀数据;依据各前缀数据在所述第一训练样本集中的分布,确定各前缀数据的分布得分。在另一个实施例中,所述依据各前缀数据在所述第一训练样本集中的分布,确定各前缀数据的分布得分包括:依据各前缀数据的区分度、命中所述第一训练样本集的训练样本数、所述第一训练样本集的训练样本总数以及前缀长度,确定各前缀数据的分布得分。在一个实施例中,将所述前缀数据与预设类型数据的前缀分布进行匹配,确定所述待识别数据集针对所述预设类型数据的前缀匹配得分:依据所述各待识别数据的前缀数据与所述各训练样本的前缀数据的重合程度以及重合的前缀数据的分布得分,得到所述待识别数据集针对所述预设类型数据的前缀匹配得分。在另一个实施例中,所述预设类型数据的分类模型采用以下方式预先训练得到:获取多于一个的第二训练样本集,并标注各第二训练样本集是否属于所述预设类型数据;确定所述第二训练样本集针对所述预设类型数据的前缀匹配得分和所述第二训练样本集的统计特征;将所述第二训练样本集的前缀匹配得分和统计特征作为分类模型的输入,将所述第二训练样本集对应的标注作为分类模型的目标输出,训练所述分类模型。在一个实施例中,所述待识别数据集的统计特征包括distinct值和柯尔莫哥洛夫-斯摩洛夫ks值中的至少一种;其中所述distinct值为对所述待识别数据集进行去重后包含的数据数量:所述ks值为待识别数据集的累计分布与所述预设类型数据对应的标准分布之间的差值。在另一个实施例中,该方法还包括:判断所述待识别数据集的元meta信息是否包含不属于所述预设类型数据的meta信息,如果是,则确定所述待识别数据集不属于所述预设类型数据。在一个实施例中,所述预设类型数据包括:工号、信用评分或发票号码。根据第二方面,提供了一种数据识别装置,包括:第一获取单元,被配置为获取待识别数据集;前缀处理单元,被配置为从所述待识别数据集中提取各待识别数据的前缀数据;将所述前缀数据与预设类型数据的前缀分布进行匹配,确定所述待识别数据集针对所述预设类型数据的前缀匹配得分;分类处理单元,被配置为将所述前缀匹配得分与所述待识别数据集的统计特征输入所述预设类型数据的分类模型,得到所述待识别数据集是否属于所述预设类型数据的分类结果。在一个实施例中,所述第一获取单元,具体被配置为:从结构化数据的同一列数据中抽取多于一个的待识别数据构成待识别数据集;或者,从非结构化数据的表格中抽取同一列的多于一个的待识别数据构成待识别数据集。在另一个实施例中,所述前缀处理单元,具体被配置为提取所述待识别数据中前M位的数据作为前缀数据,所述M为预设的正整数。在一个实施例中,该装置还包括:分布确定单元,被配置为获取所述预设类型数据的第一训练样本集;从所述第一训练样本集中提取各训练样本的前缀数据;依据各前缀数据在所述第一训练样本集中的分布,确定各前缀数据的分布得分。在另一个实施例中,所述分布确定单元,具体被配置为依据各前缀数据的区分度、命中所述第一训练样本集的训练样本数、所述第一训练样本集的训练样本总数以及前缀长度,确定各前缀数据的分布得分。在一个实施例中,所述前缀处理单元,具体被配置为依据所述各待识别数据的前缀数据与所述各训练样本的前缀数据的重合程度以及重合的前缀数据的分布得分,得到所述待识别数据集针对所述预设类型数据的前缀匹配得分。在另一个实施例中,该装置还包括:模型训练单元,被配置为获取多于一个的第二训练样本集,并标注各第二训练样本集是否属于所述预设类型数据;确定所述第二训练样本集针对所述预设类型数据的前缀匹配得分和所述第二训练样本集的统计特征;将所述第二训练样本集的前缀匹配得分和统计特征作为分类模型的输入,将所述第二训练样本集对应的标注作为分类模型的目标输出,训练所述分类模型。在一个实施例中,所述待识别数据集的统计特征包括distinct值和柯尔莫哥洛夫-斯摩洛夫ks值中的至少一种;其中所述distinct值为对所述待识别数据集进行去重后包含的数据数量:所述ks值为待识别数据集的累计分布与所述预设类型数据对应的标准分布之间的差值。在一个实施例中,该装置还包括:元信息判别单元,被配置为判断所述待识别数据集的元meta信息是否包含不属于所述预设类型数据的meta信息,如果是,则确定所述待识别数据集不属于所述预设类型数据。在一个实施例中,所述预设类型数据包括:工号、信用评分或发票号码。根据第三方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。根据本说明书实施例提供的方法和装置,依据待识别数据集中各待识别数据的前缀数据与预设类型的前缀分布的匹配程度,以及待识别数据集的统计特征识别该待识别数据集是否属于该预设类型数据,这种方式能够有效提高数字类型的弱正则数据的识别准确率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见本文档来自技高网...

【技术保护点】
1.数据识别方法,包括:/n获取待识别数据集;/n从所述待识别数据集中提取各待识别数据的前缀数据;/n将所述前缀数据与预设类型数据的前缀分布进行匹配,确定所述待识别数据集针对所述预设类型数据的前缀匹配得分;/n将所述前缀匹配得分与所述待识别数据集的统计特征输入所述预设类型数据的分类模型,得到所述待识别数据集是否属于所述预设类型数据的分类结果。/n

【技术特征摘要】
1.数据识别方法,包括:
获取待识别数据集;
从所述待识别数据集中提取各待识别数据的前缀数据;
将所述前缀数据与预设类型数据的前缀分布进行匹配,确定所述待识别数据集针对所述预设类型数据的前缀匹配得分;
将所述前缀匹配得分与所述待识别数据集的统计特征输入所述预设类型数据的分类模型,得到所述待识别数据集是否属于所述预设类型数据的分类结果。


2.根据权利要求1所述的方法,其中,所述获取待识别数据集包括:
从结构化数据的同一列数据中抽取多于一个的待识别数据构成待识别数据集;或者,
从非结构化数据的表格中抽取同一列的多于一个的待识别数据构成待识别数据集。


3.根据权利要求1所述的方法,其中,从所述待识别数据集中提取各待识别数据的前缀数据包括:
提取所述待识别数据中前M位的数据作为前缀数据,所述M为预设的正整数。


4.根据权利要求1所述的方法,其中,所述预设类型数据的前缀分布采用如下方式预先得到:
获取所述预设类型数据的第一训练样本集;
从所述第一训练样本集中提取各训练样本的前缀数据;
依据各前缀数据在所述第一训练样本集中的分布,确定各前缀数据的分布得分。


5.根据权利要求4所述的方法,其中,所述依据各前缀数据在所述第一训练样本集中的分布,确定各前缀数据的分布得分包括:
依据各前缀数据的区分度、命中所述第一训练样本集的训练样本数、所述第一训练样本集的训练样本总数以及前缀长度,确定各前缀数据的分布得分。


6.根据权利要求4所述的方法,其中,将所述前缀数据与预设类型数据的前缀分布进行匹配,确定所述待识别数据集针对所述预设类型数据的前缀匹配得分:
依据所述各待识别数据的前缀数据与所述各训练样本的前缀数据的重合程度以及重合的前缀数据的分布得分,得到所述待识别数据集针对所述预设类型数据的前缀匹配得分。


7.根据权利要求1所述的方法,其中,所述预设类型数据的分类模型采用以下方式预先训练得到:
获取多于一个的第二训练样本集,并标注各第二训练样本集是否属于所述预设类型数据;
确定所述第二训练样本集针对所述预设类型数据的前缀匹配得分和所述第二训练样本集的统计特征;
将所述第二训练样本集的前缀匹配得分和统计特征作为分类模型的输入,将所述第二训练样本集对应的标注作为分类模型的目标输出,训练所述分类模型。


8.根据权利要求1所述的方法,其中,所述待识别数据集的统计特征包括distinct值和柯尔莫哥洛夫-斯摩洛夫ks值中的至少一种;
其中所述distinct值为对所述待识别数据集进行去重后包含的数据数量:
所述ks值为待识别数据集的累计分布与所述预设类型数据对应的标准分布之间的差值。


9.根据权利要求1所述的方法,还包括:
判断所述待识别数据集的元meta信息是否包含不属于所述预设类型数据的meta信息,如果是,则确定所述待识别数据集不属于所述预设类型数据。


10.根据权利要求1至9中任一项所述的方法,其中,所述预设类型数据包括:工号、信用评分或发票号码。


11.数据识别...

【专利技术属性】
技术研发人员:林博
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1