异常数据识别、标签识别方法和异常数据识别装置制造方法及图纸

技术编号：36189484 阅读：16 留言：0更新日期：2022-12-31 21:01

本申请涉及一种异常数据识别方法、标签识别方法、异常数据识别装置、计算机设备、存储介质和计算机程序产品，通过获取待识别的样本数据，并根据样本数据构建回归决策树模型，进而根据预设识别规则以及回归决策树模型获取异常数据的识别条件，根据识别条件识别样本数据中的异常数据，能够准确识别样本数据中的异常数据，从而根据将异常数据剔除后的目标训练数据构建对应的标签识别模型，能够提升模型识别的准确率，实现标签的准确识别。实现标签的准确识别。实现标签的准确识别。

全部详细技术资料下载

【技术实现步骤摘要】
异常数据识别、标签识别方法和异常数据识别装置

[0001]本申请涉及数据安全
，特别是涉及一种异常数据识别、标签识别方法和异常数据识别装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]异常数据是存在于数据信息中的异类数据，在正式进行数据分析之前，需要进行数据处理，识别其中的异常数据，并删除或者修正异常数据，才能避免异常数据影响分析结论，从而保证数据分析的准确性。
[0003]目前，异常数据的识别方法主要包括基于预设规则和模型的识别方法，通常需要获取用户的行为数据或用户的关联行为数据，通过预设规则和模型对用户行为做出识别，判定是否为异常数据。
[0004]然而，上述方法需要提前获取已知的样本标签，包括好样本与坏样本等，且各类样本中不掺杂其他类别样本异常数据，但是在实际应用中，因各类样本中经常混有其他类别异常数据，从而导致统计模型以及基于预设规则和机器学习模型的识别效果不佳。

技术实现思路

[0005]基于此，有必要针对上述技术问题，提供一种能够提升模型识别准确率的异常数据识别、标签识别方法和异常数据识别装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0006]第一方面，本申请提供了一种异常数据识别方法，该方法包括：
[0007]获取待识别的样本数据，样本数据中包含多个训练集的样本数据；
[0008]根据样本数据构建回归决策树模型；
[0009]根据预设识别规则以及回归决策树模型获取异常数据的识别条件；
[0010]

【技术保护点】

【技术特征摘要】
1.一种异常数据识别方法，其特征在于，所述方法包括：获取待识别的样本数据，所述样本数据中包含多个训练集的样本数据；根据所述样本数据构建回归决策树模型；根据预设识别规则以及所述回归决策树模型获取异常数据的识别条件；根据所述识别条件识别所述样本数据中的异常数据。2.根据权利要求1所述的方法，其特征在于，所述根据所述样本数据构建回归决策树模型，包括：获取所述样本数据中的离散变量和连续型变量；从所述离散变量和连续型变量中筛选出满足预设筛选要求的变量；根据所述满足预设筛选要求的变量构建分布模型，并通过所述分布模型输出所述样本数据中各训练集中样本为目标样本的概率；根据所述各训练集为目标样本的概率从所述样本数据中获取目标样本；根据所述目标样本构建回归决策树模型。3.根据权利要求1所述的方法，其特征在于，所述根据预设识别规则以及所述回归决策树模型获取异常数据的识别条件，包括：获取所述回归决策树模型中各节点的区分能力；获取所述区分能力满足要求的一组所述节点对应的节点特征组；根据预设识别规则对所述目标样本的异常值进行剔除，得到剔除后的样本数据；根据所述剔除后样本数据获取所述节点特征组中符合目标要求的目标特征；获取所述剔除后的样本数据的分布情况；根据所述样本数据的分布情况获取所述目标特征对应的特征阈值；将所述满足目标要求的特征以及对应的特征阈值作为异常数据的识别条件。4.根据权利要求3所述的方法，其特征在于，所述根据所述识别条件识别所述样本数据中的异常数据，包括：将所述样本数据中为所述目标的特征并满足所述特征阈值的数据识别为异常数据。5.一种标签识别方法，其特征在于，所述方法包括：通过权利要求1至4中任意一项所述的异常数据识别方法识别异常数据，并剔除异常数据得到目标训练数据；获取所述目标训练数据对应的特征数据；判断所述目标训练数据是否满足预设条件；若所述目标训练数据满足所述预设条件，则按第一时长计算所述特征数据的聚合指标，并根据所述聚合指标构建分类决策树；若所述目标训练数据不满足所述预设条件，则按第二时长计算所述特征数据的综合指标，并根据所述综合指标构建机器学习模型，所述第二时长与所述第一时长不相同；根据所述分类决策树和/或所述机器学习模型进行标签识别。6....

【专利技术属性】
技术研发人员：周帆，徐开明，王栋慧，
申请(专利权)人：上海浦东发展银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人