异常数据识别、标签识别方法和异常数据识别装置制造方法及图纸

技术编号:36189484 阅读:16 留言:0更新日期:2022-12-31 21:01
本申请涉及一种异常数据识别方法、标签识别方法、异常数据识别装置、计算机设备、存储介质和计算机程序产品,通过获取待识别的样本数据,并根据样本数据构建回归决策树模型,进而根据预设识别规则以及回归决策树模型获取异常数据的识别条件,根据识别条件识别样本数据中的异常数据,能够准确识别样本数据中的异常数据,从而根据将异常数据剔除后的目标训练数据构建对应的标签识别模型,能够提升模型识别的准确率,实现标签的准确识别。实现标签的准确识别。实现标签的准确识别。

【技术实现步骤摘要】
异常数据识别、标签识别方法和异常数据识别装置


[0001]本申请涉及数据安全
,特别是涉及一种异常数据识别、标签识别方法和异常数据识别装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]异常数据是存在于数据信息中的异类数据,在正式进行数据分析之前,需要进行数据处理,识别其中的异常数据,并删除或者修正异常数据,才能避免异常数据影响分析结论,从而保证数据分析的准确性。
[0003]目前,异常数据的识别方法主要包括基于预设规则和模型的识别方法,通常需要获取用户的行为数据或用户的关联行为数据,通过预设规则和模型对用户行为做出识别,判定是否为异常数据。
[0004]然而,上述方法需要提前获取已知的样本标签,包括好样本与坏样本等,且各类样本中不掺杂其他类别样本异常数据,但是在实际应用中,因各类样本中经常混有其他类别异常数据,从而导致统计模型以及基于预设规则和机器学习模型的识别效果不佳。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够提升模型识别准确率的异常数据识别、标签识别方法和异常数据识别装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0006]第一方面,本申请提供了一种异常数据识别方法,该方法包括:
[0007]获取待识别的样本数据,样本数据中包含多个训练集的样本数据;
[0008]根据样本数据构建回归决策树模型;
[0009]根据预设识别规则以及回归决策树模型获取异常数据的识别条件;
[0010]根据识别条件识别样本数据中的异常数据。
[0011]在其中一个实施例中,上述根据样本数据构建回归决策树模型,包括:
[0012]获取样本数据中的离散变量和连续型变量;
[0013]从离散变量和连续型变量中筛选出满足预设筛选要求的变量;
[0014]根据满足预设筛选要求的变量构建分布模型,并通过分布模型输出样本数据中各训练集中样本为目标样本的概率;
[0015]根据各训练集为目标样本的概率从样本数据中获取目标样本;
[0016]根据目标样本构建回归决策树模型。
[0017]在其中一个实施例中,上述根据预设识别规则以及回归决策树模型获取异常数据的识别条件,包括:
[0018]获取回归决策树模型中各节点的区分能力;
[0019]获取区分能力满足要求的一组节点对应的节点特征组;
[0020]根据预设识别规则对目标样本的异常值进行剔除,得到剔除后的样本数据;
[0021]根据剔除后样本数据获取节点特征组中符合目标要求的目标特征;
[0022]获取剔除后的样本数据的分布情况;
[0023]根据样本数据的分布情况获取目标特征对应的特征阈值;
[0024]将满足目标要求的特征以及对应的特征阈值作为异常数据的识别条件。
[0025]在其中一个实施例中,上述根据识别条件识别样本数据中的异常数据,包括:
[0026]将样本数据中为目标的特征并满足特征阈值的数据识别为异常数据。
[0027]第二方面,本申请提供了一种标签识别方法,该方法包括:
[0028]通过第一方面中任意一项的异常数据识别方法识别异常数据,并剔除异常数据得到目标训练数据;
[0029]获取目标训练数据对应的特征数据;
[0030]判断目标训练数据是否满足预设条件;
[0031]若目标训练数据满足预设条件,则按第一时长计算特征数据的聚合指标,并根据聚合指标构建分类决策树;
[0032]若目标训练数据不满足预设条件,则按第二时长计算特征数据的综合指标,并根据综合指标构建机器学习模型,第二时长与第一时长不相同;
[0033]根据分类决策树和/或机器学习模型进行标签识别。
[0034]在其中一个实施例中,上述根据分类决策树进行标签识别,包括:
[0035]获取分类决策树中区分度满足区分要求的子树以及对应的节点;
[0036]获取区分度满足区分要求的子树中满足筛选要求的子树;
[0037]将满足筛选要求的子树对应的节点的生成方法作为标签识别的规则;
[0038]根据标签识别的规则以及预设规则进行标签识别。
[0039]在其中一个实施例中,上述根据综合指标构建机器学习模型,包括:
[0040]根据综合指标获取训练数据中的变量;
[0041]从变量中获取预测能力达到预设目标的变量;
[0042]根据预测能力达到预设目标的变量构建机器学习模型。
[0043]在其中一个实施例中,上述根据机器学习模型进行标签识别,包括:
[0044]获取预测能力达到预设目标的变量在机器学习模型中的权重;
[0045]根据权重以及业务经验从预测能力达到预设目标的变量中获取目标变量;
[0046]根据目标变量以及机器学习模型进行标签识别。
[0047]在其中一个实施例中,上述方法还包括:
[0048]获取根据分类决策树进行标签识别后的第一识别结果;
[0049]获取根据机器学习模型进行标签识别后的第二识别结果;
[0050]计算第一识别结果和第二识别结果的数学统计值;
[0051]将所数学统计值作为最终的标签识别结果进行输出。
[0052]第三方面,本申请还提供了一种异常数据识别装置,该装置包括:
[0053]数据获取模块,用于获取待识别的样本数据,样本数据中包含多个训练集的样本数据;
[0054]模型构建模块,用于根据样本数据构建回归决策树模型;
[0055]条件获取模块,用于根据预设识别规则以及回归决策树模型获取异常数据的识别
条件;
[0056]异常数据识别模块,用于根据识别条件识别样本数据中的异常数据。
[0057]第四方面,本申请还提供了一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现第一方面或第二方面中任一项的方法步骤。
[0058]第五方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一方面或第二方面中任一项的方法步骤。
[0059]第六方面,本申请还提供了一种计算机程序产品,该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面或第二方面中任一项的方法步骤。
[0060]上述异常数据识别方法、标签识别方法、异常数据识别装置、计算机设备、存储介质和计算机程序产品,通过获取待识别的样本数据,并根据样本数据构建回归决策树模型,进而根据预设识别规则以及回归决策树模型获取异常数据的识别条件,根据识别条件识别样本数据中的异常数据,能够准确识别样本数据中的异常数据,从而根据将异常数据剔除后的目标训练数据构建对应的标签识别模型,能够提升模型识别的准确率,实现标签的准确识别。
附图说明...

【技术保护点】

【技术特征摘要】
1.一种异常数据识别方法,其特征在于,所述方法包括:获取待识别的样本数据,所述样本数据中包含多个训练集的样本数据;根据所述样本数据构建回归决策树模型;根据预设识别规则以及所述回归决策树模型获取异常数据的识别条件;根据所述识别条件识别所述样本数据中的异常数据。2.根据权利要求1所述的方法,其特征在于,所述根据所述样本数据构建回归决策树模型,包括:获取所述样本数据中的离散变量和连续型变量;从所述离散变量和连续型变量中筛选出满足预设筛选要求的变量;根据所述满足预设筛选要求的变量构建分布模型,并通过所述分布模型输出所述样本数据中各训练集中样本为目标样本的概率;根据所述各训练集为目标样本的概率从所述样本数据中获取目标样本;根据所述目标样本构建回归决策树模型。3.根据权利要求1所述的方法,其特征在于,所述根据预设识别规则以及所述回归决策树模型获取异常数据的识别条件,包括:获取所述回归决策树模型中各节点的区分能力;获取所述区分能力满足要求的一组所述节点对应的节点特征组;根据预设识别规则对所述目标样本的异常值进行剔除,得到剔除后的样本数据;根据所述剔除后样本数据获取所述节点特征组中符合目标要求的目标特征;获取所述剔除后的样本数据的分布情况;根据所述样本数据的分布情况获取所述目标特征对应的特征阈值;将所述满足目标要求的特征以及对应的特征阈值作为异常数据的识别条件。4.根据权利要求3所述的方法,其特征在于,所述根据所述识别条件识别所述样本数据中的异常数据,包括:将所述样本数据中为所述目标的特征并满足所述特征阈值的数据识别为异常数据。5.一种标签识别方法,其特征在于,所述方法包括:通过权利要求1至4中任意一项所述的异常数据识别方法识别异常数据,并剔除异常数据得到目标训练数据;获取所述目标训练数据对应的特征数据;判断所述目标训练数据是否满足预设条件;若所述目标训练数据满足所述预设条件,则按第一时长计算所述特征数据的聚合指标,并根据所述聚合指标构建分类决策树;若所述目标训练数据不满足所述预设条件,则按第二时长计算所述特征数据的综合指标,并根据所述综合指标构建机器学习模型,所述第二时长与所述第一时长不相同;根据所述分类决策树和/或所述机器学习模型进行标签识别。6....

【专利技术属性】
技术研发人员:周帆徐开明王栋慧
申请(专利权)人:上海浦东发展银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1