The embodiment of this specification provides a data classification method, device and electronic equipment. The method includes acquiring field characteristics of the field to be classified, determining the label category of the field to be classified according to the mapping relationship between the preset field characteristics and the label category, and the field characteristics of the field to be classified. Thus, according to the field characteristics of the field to be classified and the mapping relationship between the preset field characteristics and the label category, the embodiment of this specification can determine the label category of the field to be classified. Since the field characteristics of a field can largely reflect the category to which the field belongs, the embodiment of this specification can achieve accurate classification of data.
【技术实现步骤摘要】
一种数据分类方法、装置及电子设备
本申请涉及计算机
,尤其涉及一种数据分类方法、装置及电子设备。
技术介绍
随着移动互联网时代的兴起和数据量的大规模爆发,越来越多的互联网企业开始重视数据的管理,例如,使用数据库对大量的数据进行管理,而对数据库中的数据进行分类保护,是实现大数据时代用户信息保护的一种有效途径,因此,需要提出一种准确率较高的数据分类方法。
技术实现思路
本说明书实施例的目的是提供一种数据分类方法、装置及电子设备,以提供一种准确率较高的数据分类方案。为了解决上述技术问题,本说明书实施例是这样实现的:本说明书实施例提供的一种数据分类方法,所述方法包括:获取待分类字段的字段特征;根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。可选地,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别之后,所述方法还包括:根据预设的标签类别与字段敏感级别的映射关系、以及所述待分类字段的标签类别,确定所述待分类字段的敏感级别。可选地,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别之前,所述方法还包括:获取训练样本集,所述训练样本集中包括用于训练模型的训练样本,所述训练样本为标签类别已知的字段;获取所述训练样本集中训练样本的字段特征;根据特定决策树算法,对所述训练样本的字段特征和标签类别进行训练,得到预测模型,所述预测模型用于表征字段特征与标签类别的映射关系。可选地,所述根据预设的字段特征与标签类别的映射关系、以 ...
【技术保护点】
1.一种数据分类方法,所述方法包括:获取待分类字段的字段特征;根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。
【技术特征摘要】
1.一种数据分类方法,所述方法包括:获取待分类字段的字段特征;根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。2.根据权利要求1所述的方法,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别之后,所述方法还包括:根据预设的标签类别与字段敏感级别的映射关系、以及所述待分类字段的标签类别,确定所述待分类字段的敏感级别。3.根据权利要求1所述的方法,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别之前,所述方法还包括:获取训练样本集,所述训练样本集中包括用于训练模型的训练样本,所述训练样本为标签类别已知的字段;获取所述训练样本集中训练样本的字段特征;根据特定决策树算法,对所述训练样本的字段特征和标签类别进行训练,得到预测模型,所述预测模型用于表征字段特征与标签类别的映射关系。4.根据权利要求3所述的方法,所述根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别,包括:将所述待分类字段的字段特征输入到所述预测模型,得到所述待分类字段相对于各标签类别的得分;将得分大于预设分数阈值的标签类别,确定为所述待分类字段的标签类别。5.根据权利要求3所述的方法,所述字段特征包括以下一项或多项的组合:字段的语义特征、字段的内容特征和字段的统计特征。6.根据权利要求5所述的方法,所述字段特征包括:字段的统计特征;所述获取待分类字段的字段特征,包括:获取字段访问记录、以及所述待分类字段所处数据库的数据分布情况;根据所述字段访问记录,确定目标用户访问过的字段的标签类别分布情况,所述目标用户为访问过所述待分类字段的用户;根据所述数据分布情况,确定目标数据表中字段的标签类别分布情况、以及邻近数据表中字段的标签类别分布情况;所述目标数据表为所述待分类字段所处的数据表,所述邻近数据表为与所述目标数据表相邻的数据表;将所述目标用户访问过的字段的标签类别分布情况、所述目标数据表中字段的标签类别分布情况、以及所述邻近数据表中字段的标签类别分布情况中的至少一项,作为统计特征。7.根据权利要求5所述的方法,所述字段特征包括:字段的内容特征;所述获取待分类字段的字段特征,包括:获取所述待分类字段对应的内容;利用正则表达式,识别所述待分类字段对应的内容中证件号类型的内容;确定所述待分类字段对应的内容的字段类型;计算所述待分类字段对应的内容的分布特征;将所识别出的内容、所述字段类型、以及所述分布特征中的至少一项,作为内容特征。8.根据权利要求5所述的方法,所述字段特征包括:字段的语音特征;所述获取待分类字段的字段特征,包括:对所述待分类字段进行分词处理,得到所述待分类字段的第一词汇集;对所述第一词汇集进行词频统计、去停用词、去重复词处理,得到第二词汇集;根据word2vect模型和所述第二词汇集,确定所述待分类字段的语义特征。9.根据权利要求3-8任一项所述的方法,所述特定决策树算法,包括:随机森林算法、或梯度提升决策树算法。10.一种数据分类装置,所述装置包括:第一获取模块,用于获取待分类字段的字段特征;类别确定模块,用于根据预设的字段特征与标签类别的映射关系、以及所述待分类字段的字段特征,确定所述待分类字段的标签类别。11.根据权利要求10所述的装置,所述装置还包括:级别确定模块,用于根据预设的标签类别与字段敏感级别的映射关系、以及...
【专利技术属性】
技术研发人员:许志凯,侯辉超,蔡佳良,王心刚,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。