【技术实现步骤摘要】
数据分类方法、数据分类模型的训练方法及系统
本申请涉及互联网
,尤其涉及数据分类方法、数据分类模型的训练方法及系统。
技术介绍
目前针对数据库中的结构化数据的分类,主要基于对字段名称和注释的语义分析、对字段内容的规则等等对其进行匹配分类。例如,基于字段的语义信息,提取出带分类字段的名称和字段注释,通过正则表达式匹配其中可能存在的敏感信息,如若匹配到“card”,则可归类于“银行卡”这一类别。或者,基于字段的内容对字段内容进行抽样,然后利用以往经验对内容进行分析,例如身份证号,便可以在抽取的字段内容中用正则匹配+校验位的方式进行检验。但是,上述分类方式存在分类准确率不高的问题。
技术实现思路
本说明书提供了数据分类方法、数据分类模型的训练方法及系统,以解决或者部分解决当前分类方式的分类精度不高的技术问题。为解决上述技术问题,本说明书公开了一种数据分类方法,所述方法包括:获得用于处理所述待分类数据字段的数据库操作语句;对所述数据库操作语句进行解析,获得用于处理所述待分类数据字段的操作参数;针对所述操作参数进行特征提取,获得对应的操作特征;调用训练得到的数据分类模型对所述操作特征进行分类,以获得所述待分类数据字段的分类结果。本说明书公开了一种数据分类模型的训练方法,所述方法包括:获得用于处理数据字段样本的数据库操作语句样本;其中,所述数据字段样本具有分类类别;对所述数据库操作语句样本进行解析,获得用于处理所述数据字段样本的操作参数样本;针对所述操作参数样本进行特征提取,获得对应的操作特征样本;通过所述操作特征样本确定对应的待训练模型;通过所述操作特征样本和所述 ...
【技术保护点】
1.一种数据分类方法,所述方法包括:获得用于处理所述待分类数据字段的数据库操作语句;对所述数据库操作语句进行解析,获得用于处理所述待分类数据字段的操作参数;针对所述操作参数进行特征提取,获得对应的操作特征;调用训练得到的数据分类模型对所述操作特征进行分类,以获得所述待分类数据字段的分类结果。
【技术特征摘要】
1.一种数据分类方法,所述方法包括:获得用于处理所述待分类数据字段的数据库操作语句;对所述数据库操作语句进行解析,获得用于处理所述待分类数据字段的操作参数;针对所述操作参数进行特征提取,获得对应的操作特征;调用训练得到的数据分类模型对所述操作特征进行分类,以获得所述待分类数据字段的分类结果。2.如权利要求1所述的方法,所述操作参数包括:参数as后的字段别名,统计函数,位置where条件参数,连接join条件参数,casewhen函数,关键字参数中的一种或者多种组合;所述操作特征包括:语义特征、统计特征、行为特征、血缘特征,关键字特征中的一种或者多种组合。3.如权利要求1所述的方法,所述调用训练得到的数据分类模型对所述操作特征进行分类之前,所述方法还包括:利用数据库操作语句样本作为训练样本训练得到数据分类模型,所述数据库操作语句样本用于处理数据字段样本。4.如权利要求3所述的方法,所述利用数据库操作语句样本作为训练样本训练得到数据分类模型,具体包括:获得所述数据库操作语句样本;其中,所述数据字段样本具有分类类别;对所述数据库操作语句样本进行解析,获得用于处理所述数据字段样本的操作参数样本;针对所述操作参数样本进行特征提取,获得对应的操作特征样本;通过所述操作特征样本确定对应的待训练模型;通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型,获得对应的数据分类模型。5.如权利要求4所述的方法,所述操作特征样本包括:语义特征样本、统计特征样本、行为特征样本、血缘特征样本、关键字特征样本中的一种或者多种组合;所述通过所述操作特征样本确定出对应的待训练模型,具体包括以下一种或者多种组合方式:通过所述语义特征样本确定待训练自然语言处理NLP模型;通过所述统计特征样本确定待训练决策树模型;通过所述行为特征样本确定待训练人员-行为-字段关系图模型;通过所述血缘特征样本确定待训练字段流转模型;通过所述关键字特征样本确定待训练专家经验模型。6.如权利要求5所述的方法,所述通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型,获得对应的数据分类模型,具体包括以下一种或者多种组合方式:通过所述语义特征样本和所述数据字段样本的分类类别,对待训练NLP模型进行训练,获得关联语义的数据分类模型;通过所述统计特征样本和所述数据字段样本的分类类别,对待训练决策树模型进行训练,获得关联统计的数据分类模型;通过所述行为特征样本和所述数据字段样本的分类类别,对待训练人员-行为-字段关系图模型进行训练,获得关联行为的数据分类模型;通过所述血缘特征样本和所述数据字段样本的分类类别,对待训练字段流转模型进行训练,获得关联血缘的数据分类模型;通过所述关键字特征样本和所述数据字段样本的分类类别,对待训练专家经验模型进行训练,获得关联关键字的数据分类模型。7.如权利要求2所述的方法,所述数据分类模型包括:关联语义的数据分类模型、关联统计的数据分类模型、关联行为的数据分类模型、关联血缘的数据分类模型、关联关键字的数据分类模型;所述调用训练得到的数据分类模型对所述操作特征进行分类,具体包括以下一种或者多种组合方式:调用所述关联语义的数据分类模型对所述语义特征进行分类;调用所述关联统计的数据分类模型对所述统计特征进行分类;调用所述关联行为的数据分类模型对所述行为特征进行分类;调用所述关联血缘的数据分类模型对所述血缘特征进行分类;调用所述关联关键字的数据分类模型对所述关键字特征进行分类。8.如权利要求1-7任一权项所述的方法,所述调用训练得到的数据分类模型对所述操作特征进行分类之后,具体包括:按照预设级别划分规则对所述待分类数据字段的分类结果中的类别进行分级。9.一种数据分类模型的训练方法,所述方法包括:获得用于处理数据字段样本的数据库操作语句样本;其中,所述数据字段样本具有分类类别;对所述数据库操作语句样本进行解析,获得用于处理所述数据字段样本的操作参数样本;针对所述操作参数样本进行特征提取,获得对应的操作特征样本;通过所述操作特征样本确定对应的待训练模型;通过所述操作特征样本和所述数据字段样本的分类类别训练对应的待训练模型,获得对应的数据分类模型。10.如权利要求9所述的方法,所述操作参数样本包括:参数as后面的字段别名,统计函数,位置where条件参数,连接join条件参数,casewhen函数,关键字参数中的一种或者多种组合;所述操作特征样本包括:语义特征样本、统计特征样本、行为特征样本、血缘特征样本,关键字特征样本中的一种或者多种组合。11.一种数据分类系统,包括:第一获得单元,用于获得用于处理所述待分类数据字段的数据库操作语句;第一解析单元,用于对...
【专利技术属性】
技术研发人员:林博,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。