一种数据分类方法、装置及电子设备制造方法及图纸

技术编号:19343203 阅读:60 留言:0更新日期:2018-11-07 14:16
本说明书实施例提供一种数据分类方法、装置及电子设备,该方法包括:获取待分类字段的字段特征;根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。由此可见,本说明书实施例可以根据待分类字段的字段特征、以及预设的字段特征与标签类别的映射关系,确定待分类字段的标签类别。由于字段的字段特征可以从很大程度上反映该字段所属的类别,因此本说明书实施例可以实现数据的精准分类。

Data classification method, device and electronic equipment

The embodiment of this specification provides a data classification method, device and electronic equipment. The method includes acquiring field characteristics of the field to be classified, determining the label category of the field to be classified according to the mapping relationship between the preset field characteristics and the label category, and the field characteristics of the field to be classified. Thus, according to the field characteristics of the field to be classified and the mapping relationship between the preset field characteristics and the label category, the embodiment of this specification can determine the label category of the field to be classified. Since the field characteristics of a field can largely reflect the category to which the field belongs, the embodiment of this specification can achieve accurate classification of data.

【技术实现步骤摘要】
一种数据分类方法、装置及电子设备
本申请涉及计算机
,尤其涉及一种数据分类方法、装置及电子设备。
技术介绍
随着移动互联网时代的兴起和数据量的大规模爆发,越来越多的互联网企业开始重视数据的管理,例如,使用数据库对大量的数据进行管理,而对数据库中的数据进行分类保护,是实现大数据时代用户信息保护的一种有效途径,因此,需要提出一种准确率较高的数据分类方法。
技术实现思路
本说明书实施例的目的是提供一种数据分类方法、装置及电子设备,以提供一种准确率较高的数据分类方案。为了解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供的一种数据分类方法,所述方法包括:获取待分类字段的字段特征;根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。可选地,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别之后,所述方法还包括:根据预设的标签类别与字段敏感级别的映射关系、以及所述待分类字段的标签类别,确定所述待分类字段的敏感级别。可选地,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别之前,所述方法还包括:获取训练样本集,所述训练样本集中包括用于训练模型的训练样本,所述训练样本为标签类别已知的字段;获取所述训练样本集中训练样本的字段特征;根据特定决策树算法,对所述训练样本的字段特征和标签类别进行训练,得到预测模型,所述预测模型用于表征字段特征与标签类别的映射关系。可选地,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别,包括:将所述待分类字段的字段特征输入到所述预测模型,得到所述待分类字段相对于各标签类别的得分;将得分大于预设分数阈值的标签类别,确定为所述待分类字段的标签类别。可选地,所述字段特征包括以下一项或多项的组合:字段的语义特征、字段的内容特征和字段的统计特征。可选地,所述字段特征包括:字段的统计特征;所述获取待分类字段的字段特征,包括:获取字段访问记录、以及所述待分类字段所处数据库的数据分布情况;根据所述字段访问记录,确定目标用户访问过的字段的标签类别分布情况,所述目标用户为访问过所述待分类字段的用户;根据所述数据分布情况,确定目标数据表中字段的标签类别分布情况、以及邻近数据表中字段的标签类别分布情况;所述目标数据表为所述待分类字段所处的数据表,所述邻近数据表为与所述目标数据表相邻的数据表;将所述目标用户访问过的字段的标签类别分布情况、所述目标数据表中字段的标签类别分布情况、以及所述邻近数据表中字段的标签类别分布情况中的至少一项,作为统计特征。可选地,所述字段特征包括:字段的内容特征;所述获取待分类字段的字段特征,包括:获取所述待分类字段对应的内容;利用正则表达式,识别所述待分类字段对应的内容中证件号类型的内容;确定所述待分类字段对应的内容的字段类型;计算所述待分类字段对应的内容的分布特征;将所识别出的内容、所述字段特征、以及所述分布特征中的至少一项,作为内容特征。可选地,所述字段特征包括:字段的语音特征;所述获取待分类字段的字段特征,包括:对所述待分类字段进行分词处理,得到所述待分类字段的第一词汇集;对所述第一词汇集进行词频统计、去停用词、去重复词处理,得到第二词汇集;根据word2vect模型和所述第二词汇集,确定所述待分类字段的语义特征。可选地,所述特定决策树算法,包括:随机森林算法、或梯度提升决策树算法。本说明书实施例提供的一种数据分类装置,所述装置包括:第一获取模块,用于获取待分类字段的字段特征;类别确定模块,用于根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。可选地,所述装置还包括:级别确定模块,用于根据预设的标签类别与字段敏感级别的映射关系、以及所述待分类字段的标签类别,确定所述待分类字段的敏感级别。可选地,所述装置还包括:第二获取模块,用于获取训练样本集,所述训练样本集中包括用于训练模型的训练样本,所述训练样本为标签类别已知的字段;第三获取模块,用于获取所述训练样本集中训练样本的字段特征;模型训练模块,用于根据特定决策树算法,对所述训练样本的字段特征和标签类别进行训练,得到预测模型,所述预测模型用于表征字段特征与标签类别的映射关系。可选地,所述类别确定模块,包括:特征输入单元,用于将所述待分类字段的字段特征输入到所述预测模型,得到所述待分类字段相对于各标签类别的得分;标签类别确定单元,用于将得分大于预设分数阈值的标签类别,确定为所述待分类字段的标签类别。可选地,所述字段特征包括以下一项或多项的组合:字段的语义特征、字段的内容特征和字段的统计特征。可选地,所述字段特征包括:字段的统计特征;所述第一获取模块,包括:第一获取单元,用于获取字段访问记录、以及所述待分类字段所处数据库的数据分布情况;第一分布情况确定单元,用于根据所述字段访问记录,确定目标用户访问过的字段的标签类别分布情况,所述目标用户为访问过所述待分类字段的用户;第二分布情况确定单元,用于根据所述数据分布情况,确定目标数据表中字段的标签类别分布情况、以及邻近数据表中字段的标签类别分布情况;所述目标数据表为所述待分类字段所处的数据表,所述邻近数据表为与所述目标数据表相邻的数据表;统计特征确定单元,用于将所述目标用户访问过的字段的标签类别分布情况、所述目标数据表中字段的标签类别分布情况、以及所述邻近数据表中字段的标签类别分布情况中的至少一项,作为统计特征。可选地,所述字段特征包括:字段的内容特征;所述第一获取模块,包括:第二获取单元,用于获取所述待分类字段对应的内容;内容识别单元,用于利用正则表达式,识别所述待分类字段对应的内容中证件号类型的内容;字段类型确定单元,用于确定所述待分类字段对应的内容的字段类型;分布特征计算单元,用于计算所述待分类字段对应的内容的分布特征;内容特征确定单元,用于将所识别出的内容、所述字段特征、以及所述分布特征中的至少一项,作为内容特征。可选地,所述字段特征包括:字段的语音特征;所述第一获取单元,包括:第一处理单元,用于对所述待分类字段进行分词处理,得到所述待分类字段的第一词汇集;第二处理单元,用于对所述第一词汇集进行词频统计、去停用词、去重复词处理,得到第二词汇集;语义特征确定单元,用于根据word2vect模型和所述第二词汇集,确定所述待分类字段的语义特征。可选地,所述特定决策树算法,包括:随机森林算法、或梯度提升决策树算法。本说明书实施例提供的一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:获取待分类字段的字段特征;根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。本说明书实施例提供的一种计算机存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:获取待分类字段的字段特征;根据预设的字段特征与标签类别的映射关系、以及所述待分类字段本文档来自技高网...

【技术保护点】
1.一种数据分类方法,所述方法包括:获取待分类字段的字段特征;根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。

【技术特征摘要】
1.一种数据分类方法,所述方法包括:获取待分类字段的字段特征;根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。2.根据权利要求1所述的方法,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别之后,所述方法还包括:根据预设的标签类别与字段敏感级别的映射关系、以及所述待分类字段的标签类别,确定所述待分类字段的敏感级别。3.根据权利要求1所述的方法,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别之前,所述方法还包括:获取训练样本集,所述训练样本集中包括用于训练模型的训练样本,所述训练样本为标签类别已知的字段;获取所述训练样本集中训练样本的字段特征;根据特定决策树算法,对所述训练样本的字段特征和标签类别进行训练,得到预测模型,所述预测模型用于表征字段特征与标签类别的映射关系。4.根据权利要求3所述的方法,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别,包括:将所述待分类字段的字段特征输入到所述预测模型,得到所述待分类字段相对于各标签类别的得分;将得分大于预设分数阈值的标签类别,确定为所述待分类字段的标签类别。5.根据权利要求3所述的方法,所述字段特征包括以下一项或多项的组合:字段的语义特征、字段的内容特征和字段的统计特征。6.根据权利要求5所述的方法,所述字段特征包括:字段的统计特征;所述获取待分类字段的字段特征,包括:获取字段访问记录、以及所述待分类字段所处数据库的数据分布情况;根据所述字段访问记录,确定目标用户访问过的字段的标签类别分布情况,所述目标用户为访问过所述待分类字段的用户;根据所述数据分布情况,确定目标数据表中字段的标签类别分布情况、以及邻近数据表中字段的标签类别分布情况;所述目标数据表为所述待分类字段所处的数据表,所述邻近数据表为与所述目标数据表相邻的数据表;将所述目标用户访问过的字段的标签类别分布情况、所述目标数据表中字段的标签类别分布情况、以及所述邻近数据表中字段的标签类别分布情况中的至少一项,作为统计特征。7.根据权利要求5所述的方法,所述字段特征包括:字段的内容特征;所述获取待分类字段的字段特征,包括:获取所述待分类字段对应的内容;利用正则表达式,识别所述待分类字段对应的内容中证件号类型的内容;确定所述待分类字段对应的内容的字段类型;计算所述待分类字段对应的内容的分布特征;将所识别出的内容、所述字段类型、以及所述分布特征中的至少一项,作为内容特征。8.根据权利要求5所述的方法,所述字段特征包括:字段的语音特征;所述获取待分类字段的字段特征,包括:对所述待分类字段进行分词处理,得到所述待分类字段的第一词汇集;对所述第一词汇集进行词频统计、去停用词、去重复词处理,得到第二词汇集;根据word2vect模型和所述第二词汇集,确定所述待分类字段的语义特征。9.根据权利要求3-8任一项所述的方法,所述特定决策树算法,包括:随机森林算法、或梯度提升决策树算法。10.一种数据分类装置,所述装置包括:第一获取模块,用于获取待分类字段的字段特征;类别确定模块,用于根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。11.根据权利要求10所述的装置,所述装置还包括:级别确定模块,用于根据预设的标签类别与字段敏感级别的映射关系、以及...

【专利技术属性】
技术研发人员:许志凯侯辉超蔡佳良王心刚
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1