基于故障样本贡献解释的标签数据清洗方法及系统技术方案

技术编号:38820002 阅读:12 留言:0更新日期:2023-09-15 19:59
本发明专利技术提供了一种基于故障样本贡献解释的标签数据清洗方法及系统,所述方法包括如下步骤:步骤S1:对故障样本数据进行划分,形成多个故障样本聚类簇;步骤S2:使用简单模型进行故障样本聚类簇的初筛,形成精筛故障样本簇集合;步骤S3:穷举所有精筛故障样本簇集合中簇的所有组合方法,训练故障检测模型,得到每个模型在各种组合下的效果得分;步骤S4:基于每个模型的评估效果,计算每个精筛样本簇对故障检测模型的所有组合下的平均边际贡献值,基于平均边际贡献值清洗数据。本发明专利技术提高了清洗包含异常“标签数据”的效率,能有效清洗与“特征”无关的“标签”样本,并具有良好的可解释性。并具有良好的可解释性。并具有良好的可解释性。

【技术实现步骤摘要】
基于故障样本贡献解释的标签数据清洗方法及系统


[0001]本专利技术涉及数据清洗的
,具体地,涉及基于故障样本贡献解释的标签数据清洗方法及系统。

技术介绍

[0002]使用机器学习模型进行故障检测是AIOps(智能运维)的重要发展方向,其中用于训练故障检测模型的数据质量对模型训练的效果影响巨大,“数据清洗”是提高数据质量的过程。用于有监督机器学习的数据包含“特征数据”和“标签数据”两个部分,目前大部分数据清洗方法主要针对“特征数据”进行“缺失值填充”、“异常值修正”、“重复值删除”等操作,对于“标签数据”中包含不合理数据的处理方法往往通过:
[0003]1)人工处理,该方法存在工作量大且对于“与

特征数据

无关的

标签数据
’”
无法有效清洗的缺点(与“特征”无关的“标签”也是一种脏数据,会严重影响模型质量);
[0004]2)按比例舍弃模型判定不清的一部分数据的方法实现,该方法在清洗时缺乏依据,存在随机性。
[0005]在公开号为CN115481114A的专利文献中公开了一种数据清洗方法,应用于数据处理
本申请提供的方法包括:获取包含目标系统的目标数据库以及所述目标数据库的目标数据表的目标数据清洗任务;获取所述目标系统的部署环境的数量;根据所述部署环境的数量以及所述部署环境的硬件资源性能拆分所述目标数据清洗任务得到数据获取任务列表;按照预设数据获取规则执行所述数据获取任务加入待处理数据表集合;根据所述目标数据清洗任务中对所述目标数据表生成数据处理任务列表;执行所述数据处理任务列表中的数据处理任务,将被处理后的所述目标数据表作为待更新数据表;根据预设数据更新规则获取所述待更新数据表,并将所述待更新数据表更新至所述目标系统的部署环境。该专利主要强调对于以数据库为数据源的数据清洗任务的自动化、形式化过程,对于“标签数据”出现问题的清洗没有涉及。
[0006]因此,需要提出一种新的技术方案以改善上述技术问题。

技术实现思路

[0007]针对现有技术中的缺陷,本专利技术的目的是提供一种基于故障样本贡献解释的标签数据清洗方法及系统。
[0008]根据本专利技术提供的一种基于故障样本贡献解释的标签数据清洗方法,所述方法包括如下步骤:
[0009]步骤S1:对故障样本数据进行划分,形成多个故障样本聚类簇;
[0010]步骤S2:使用简单模型进行故障样本聚类簇的初筛,形成精筛故障样本簇集合;
[0011]步骤S3:穷举所有精筛故障样本簇集合中簇的所有组合方法,训练故障检测模型,得到每个模型在各种组合下的效果得分;
[0012]步骤S4:基于每个模型的评估效果,计算每个精筛样本簇对故障检测模型的所有
组合下的平均边际贡献值,基于平均边际贡献值清洗数据。
[0013]优选地,所述步骤S1包括如下步骤:
[0014]步骤S1.1:对故障样本数据进行聚类;
[0015]步骤S1.2:基于经验重新划分少样本的样本簇,设定样本簇的最少样本数,记为min_cluster_size,样本数量少于min_cluster_size的样本簇称为少样本的样本簇。
[0016]优选地,所述步骤S2包括如下步骤:
[0017]步骤S2.1:使用简单模型对所有样本簇逐一进行去一拟合,并获得到每个样本簇的增益分值;
[0018]步骤S2.2:根据增益分值得到精筛样本簇集合,将每个簇的增益分值从低到高排序,选择分值最低的x个样本簇,或者选择增益分值小于thre_lift小于等于1的浮点数的样本簇,共同构成精筛样本簇集合;
[0019]所述步骤S2.1包括如下步骤:
[0020]步骤S2.1.1:使用所有故障样本簇与非故障样本数据共同训练故障简单分类模型,并计算该模型的AUC值,将该AUC值记为auc_all;
[0021]步骤S2.1.2:从待筛选样本簇集合不重复地选择样本簇c,将样本簇c从带筛选样本簇集合中移除,将该数据与非故障样本数据合并,得到样本簇c的去一拟合训练数据;
[0022]步骤S2.1.3:使用样本簇c的去一拟合训练数据训练简单故障分类模型,而后计算模型的AUC值,记为auc_remove_c;
[0023]步骤S2.1.4:计算得到样本簇c的增益分值,记为lift_score_c:
[0024]lift_score_c=auc_all

auc_remove_c;
[0025]步骤S2.1.5:重复步骤S2.1.2到步骤S2.1.4得到每个簇的增益分值。
[0026]优选地,所述步骤S3包括如下步骤:
[0027]步骤S3.1:生成精筛样本簇集合中所有可能的簇组合;
[0028]步骤S3.2:针对每个训练簇的组合进行训练,得到相应的故障检测模型,并得到模型的评价得分。
[0029]优选地,所述步骤S4包括如下步骤:
[0030]步骤S4.1:计算每个簇在各种组合下训练模型得到的平均边际贡献,记为d_i

j,其中i、j为训练集的编号,计算每一个簇在所有情景下的边际增益,并计算边际增益的均值;
[0031]步骤S4.2:从训练数据中去除边际增益均值为负值的训练簇,完成数据清洗。
[0032]本专利技术还提供一种基于故障样本贡献解释的标签数据清洗系统,所述系统包括如下模块:
[0033]模块M1:对故障样本数据进行划分,形成多个故障样本聚类簇;
[0034]模块M2:使用简单模型进行故障样本聚类簇的初筛,形成精筛故障样本簇集合;
[0035]模块M3:穷举所有精筛故障样本簇集合中簇的所有组合系统,训练故障检测模型,得到每个模型在各种组合下的效果得分;
[0036]模块M4:基于每个模型的评估效果,计算每个精筛样本簇对故障检测模型的所有组合下的平均边际贡献值,基于平均边际贡献值清洗数据。
[0037]优选地,所述模块M1包括如下模块:
[0038]模块M1.1:对故障样本数据进行聚类;
[0039]模块M1.2:基于经验重新划分少样本的样本簇,设定样本簇的最少样本数,记为min_cluster_size,样本数量少于min_cluster_size的样本簇称为少样本的样本簇。
[0040]优选地,所述模块M2包括如下模块:
[0041]模块M2.1:使用简单模型对所有样本簇逐一进行去一拟合,并获得到每个样本簇的增益分值;
[0042]模块M2.2:根据增益分值得到精筛样本簇集合,将每个簇的增益分值从低到高排序,选择分值最低的x个样本簇,或者选择增益分值小于thre_lift小于等于1的浮点数的样本簇,共同构成精筛样本簇集合;
[0043]所述模块M2.1包括如下模块:
[0044]模块M2.1.1:使用所有故障样本簇与非故障样本数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于故障样本贡献解释的标签数据清洗方法,其特征在于,所述方法包括如下步骤:步骤S1:对故障样本数据进行划分,形成多个故障样本聚类簇;步骤S2:使用简单模型进行故障样本聚类簇的初筛,形成精筛故障样本簇集合;步骤S3:穷举所有精筛故障样本簇集合中簇的所有组合方法,训练故障检测模型,得到每个模型在各种组合下的效果得分;步骤S4:基于每个模型的评估效果,计算每个精筛样本簇对故障检测模型的所有组合下的平均边际贡献值,基于平均边际贡献值清洗数据。2.根据权利要求1所述的基于故障样本贡献解释的标签数据清洗方法,其特征在于,所述步骤S1包括如下步骤:步骤S1.1:对故障样本数据进行聚类;步骤S1.2:基于经验重新划分少样本的样本簇,设定样本簇的最少样本数,记为min_cluster_size,样本数量少于min_cluster_size的样本簇称为少样本的样本簇。3.根据权利要求1所述的基于故障样本贡献解释的标签数据清洗方法,其特征在于,所述步骤S2包括如下步骤:步骤S2.1:使用简单模型对所有样本簇逐一进行去一拟合,并获得到每个样本簇的增益分值;步骤S2.2:根据增益分值得到精筛样本簇集合,将每个簇的增益分值从低到高排序,选择分值最低的x个样本簇,或者选择增益分值小于thre_lift小于等于1的浮点数的样本簇,共同构成精筛样本簇集合;所述步骤S2.1包括如下步骤:步骤S2.1.1:使用所有故障样本簇与非故障样本数据共同训练故障简单分类模型,并计算该模型的AUC值,将该AUC值记为auc_all;步骤S2.1.2:从待筛选样本簇集合不重复地选择样本簇c,将样本簇c从带筛选样本簇集合中移除,将该数据与非故障样本数据合并,得到样本簇c的去一拟合训练数据;步骤S2.1.3:使用样本簇c的去一拟合训练数据训练简单故障分类模型,而后计算模型的AUC值,记为auc_remove_c;步骤S2.1.4:计算得到样本簇c的增益分值,记为lift_score_c:lift_score_c=auc_all

auc_remove_c;步骤S2.1.5:重复步骤S2.1.2到步骤S2.1.4得到每个簇的增益分值。4.根据权利要求1所述的基于故障样本贡献解释的标签数据清洗方法,其特征在于,所述步骤S3包括如下步骤:步骤S3.1:生成精筛样本簇集合中所有可能的簇组合;步骤S3.2:针对每个训练簇的组合进行训练,得到相应的故障检测模型,并得到模型的评价得分。5.根据权利要求1所述的基于故障样本贡献解释的标签数据清洗方法,其特征在于,所述步骤S4包括如下步骤:步骤S4.1:计算每个簇在各种组合下训练模型得到的平均边际贡献,记为d_i

j,其中i、j为训练集的编号,计算每一个簇在所有情景下的边际增益,并计算边际增益的均值;
步骤S4.2:从训练数据中去除边际增益均值为负值的训练簇,完成数据清洗。6.一种...

【专利技术属性】
技术研发人员:支凤麟蔡晓华杨光辉
申请(专利权)人:上海天旦网络科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1