一种基于机器学习的异常样本检测方法技术

技术编号：23766865 阅读：23 留言：0更新日期：2020-04-11 20:18

本发明专利技术是一种基于机器学习的异常样本检测方法，该方法并不直接使用概率统计的方法来找出原始数据中的异常点，而是利用有监督的机器学习方法，对带有标签的样本数据，主要针对二类分类的样本数据，反复构建不同的分类模型，然后对原始样本数据进行分类预测，最后利用预测的概率值得方差或者标准差作为异常样本检测的标准。本申请提供一种新异常样本的检测的方法，既丰富了现有异常样本检测方法，又能在一定程度上快速有效地检测出异常样本，消除异常样本对正常样本的不良影响，对提升模型的稳定性以及预测精度都有一定程度的影响。

An anomaly sample detection method based on machine learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的异常样本检测方法
本专利技术属于异常样本检测
，特别涉及一种基于机器学习的异常样本检测方法。
技术介绍
随着互联网、移动互联网、云计算等新兴技术的发展，人类逐步进入大数据时代，网络上几乎每天都会产生大量的客户行为数据，在许多场景下，需要对这些数据进行分析和预测，例如，互联网金融领域，评估客户的信贷风险，需要利用客户的行为数据来判断该客户是正常客户还是异常客户，以便更好地预防金融风险，减少投资者的损失。由于客户的样本数据维度可能很大，光靠人工经验很难去区分客户的好坏，越来越多的业务场景开始引入机器学习模型来对样本进行预测分类。一般来说，大部分机器学习属于有监督的学习，需要利用带标签的样本，来训练分类器，然后才能用来对未知样本进行分类。然而在样本数据准备过程中由于输入、标注等错误导致的少量数据质量问题，或者数据本身存在异常的信息，造成一定数量的异常样本。在很多情况下，异常样本本身通常数量很少，另一方面，异常样本往往非常隐蔽，难以被发现，例如异常申请信贷的数据通常难以被察觉。因此，增加了异常样本检测的难度，也使得监督学习难以进行。本专利技术主要针对有监督机器学习中的二类分类问题，希望能够提供一种有效地方法来对异常样本进行检测，过滤掉检测出的异常样本后再来训练模型，以提升模型的稳定性以及模型预测的准确性。
技术实现思路
为解决上述问题，本专利技术的目的在于提供一种主要针对二类分类问题、采用机器学习对异常样本进行检测、检测效果准确高效的一种基于机器学习的异常样本检测方法。r>本专利技术的另一个目的在于提供一种检测流程简单高效、判断准确、判断依据科学合理的一种基于机器学习的异常样本检测方法。为实现上述目的，本专利技术的技术方案如下。本专利技术是一种基于机器学习的异常样本检测方法，其特征在于，该方法的具体步骤如下：S1：对原始样本进行抽样，生成训练集和测试集，所述训练集设置为一个以上；S2：利用机器学习算法构建模型，该模型对每个训练集进行训练，以测试集进行测试，训练后每个训练集对应生成一个分类模型；S3：每个分类模型依次分别对原始样本进行预测，每个分类模型在训练过程中分别得到原始样本中各样本的预测分数，该预测分数是指样本属于正常样本的概率值；S4：每个分类模型对同一个样本进行预测后的分数分为一组，计算每组的预测分数的方差或者标准差；S5：按方差或标准差由小到大对样本进行排序，设定初始阀值，将方差或者标准差超过该初始阀值的样本视为异常样本；S6：在原始样本中将异常样本剔除，将剩下的样本进行重复训练，对比不同模型下的性能评估指标，确定最佳阀值；S7：以最佳阀值作为分割点，高于此最佳阀值的原始样本即视为最终的异常样本。通过将原始样本分成一个以上的训练集，并对每个训练集进行训练生成一个以上的分类模型，保证了分类模型的有效性和准确性。将原始样本中同一样本在每个分类模型中产生的预测分数分为一组，并对每组数据分别取方差和标准差来确定该样本预测的准确性，其中方差或者标准差值越小，说明每个分类模型对同一样本的预测的一致性较好，则说明该样本容易被预测，反之则说明该样本的信息难以被捕捉，则其存在噪声或是异常样本的可能性较高；通过初始阀值的设置，去除掉了部分样本，旨在将明显难以预测的样本去除掉，保证了后续在训练过程中得到的数据的准确性；通过对后续训练过程中性能评估指标的评估，来确定最终的阀值，将原始样本与该阀值进行比较来去除掉最终的异常样本，其中该原始样本是指包含了上述步骤中去除掉的所有原始样本。其中，预测分数的方差或者标准差用来衡量不同模型对每个样本预测结果的稳定性，方差或者标准差越小，说明各个模型对该样本的预测类别越一致，预测效果较好。方差或者标准差越大，说明模型无法从其中捕获真实有效地信息，导致该样本很难被准确预测，其存在噪声或是异常样本的可能性较高。进一步地，所述步骤S1中原始样本是带标签的样本集，包括正常样本和异常样本。带标签的样本的设置方便机器学习的训练，也为后续样本的排序提供基础。进一步地，所述原始样本的抽样方法包括随机抽样、k折交叉验证，所述随机抽样是指应用随机的方法，按比例将原始样本切分为训练接和测试集；所述k折交叉验证是指将样本等比例分成k份，将其中一份作为测试集，其余作为训练集。随机抽样、k折交叉验证等样本抽样方法的选择，保证了训练集和测试集中样本的随机性和代表性。进一步地，所述步骤S2中机器学习算法包括逻辑回归、GBDT或支持训向量机。逻辑回归、GBDT和支持训向量机等是机器学习领域常用的分类算法，可以调用python开源的机器学习库如Sklearn内相应的算法实现，设置经验参数来迭代地训练分类模型。进一步地，所述步骤S3中预测分数是指样本属于正常样本的概率值。比如，样本标签由0、1二值表示，其中1类标签为正常样本，预测分数是指样本属于1类的概率值，而非属于异常样本的概率值。进一步地，所述步骤S6中性能评估指标包括AUC值、KS值和Lift值。AUC值常被用来评价一个二值分类器分类性能的常用指标，AUC的值越大，表明当前的分类模型越有可能将正样本排在负样本值前面，即能够更好的分类；KS值用于模型风险区分能力进行评估，指标衡量的是好坏样本累计分布之间的差值。好坏样本累计差异越大，KS值越大，那么模型的风险区分能力越强；Lift值衡量的是，与不利用模型相比，模型的预测能力“变好”了多少，Lift(提升指数)越大，模型的运行效果越好；其中将异常样本剔除后重新训练一个二类分类模型，相对于剔除样本之前的模型，其AUC或者KS等评估指标会有一定程度的提高。综上所述，本专利技术是一种基于机器学习的异常样本检测方法，其特征在于，通过将原始样本分成一个以上的训练集，并对每个训练集进行训练生成一个以上的分类模型，保证了分类模型的有效性和准确性。将原始样本中同一样本在每个分类模型中产生的预测分数分为一组，并对每组数据分别取方差和标准差来确定该样本预测的准确性，其中方差或者标准差值越小，说明每个分类模型对同一样本的预测的一致性较好，则说明该样本容易被预测，反之则说明该样本的信息难以被捕捉，则其存在噪声或是异常样本的可能性较高；通过初始阀值的设置，去除掉了部分样本，旨在将明显难以预测的样本去除掉，保证了后续在训练过程中得到的数据的准确性；通过对后续训练过程中性能评估指标的评估，来确定最终的阀值，将原始样本与该阀值进行比较来去除掉最终的异常样本，其中该原始样本是指包含了上述步骤中去除掉的所有原始样本。其中，预测分数的方差或者标准差用来衡量不同模型对每个样本预测结果的稳定性，方差或者标准差越小，说明各个模型对该样本的预测类别越一致，预测效果较好。方差或者标准差越大，说明模型无法从其中捕获真实有效地信息，导致该样本很难被准确预测，其存在噪声或是异常样本的可能性较高。其中将异常样本剔除后重新训练一个二类分类模型，相对于剔除样本之前的模型，其AUC或者KS等评估指标会有一定程度的提高。附图说明图1是本专利技术的一种基本文档来自技高网...

【技术保护点】
1.一种基于机器学习的异常样本检测方法，其特征在于，该方法的具体步骤如下：/nS1：对原始样本进行抽样，生成训练集和测试集，所述训练集设置为一个以上；/nS2：利用机器学习算法构建模型，该模型对每个训练集进行训练，以测试集进行测试，训练后每个训练集对应生成一个分类模型；/nS3：每个分类模型依次分别对原始样本进行预测，每个分类模型在训练过程中分别得到原始样本中各样本的预测分数，该预测分数是指样本属于正常样本的概率值；/nS4：每个分类模型对同一个样本进行预测后的分数分为一组，计算每组的预测分数的方差或者标准差；/nS5：按方差或标准差由小到大对样本进行排序，设定初始阀值，将方差或者标准差超过该初始阀值的样本视为异常样本；/nS6：在原始样本中将异常样本剔除，将剩下的样本进行重复训练，对比不同模型下的性能评估指标，确定最佳阀值；/nS7：以最佳阀值作为分割点，高于此最佳阀值的原始样本即视为最终的异常样本。/n

【技术特征摘要】
1.一种基于机器学习的异常样本检测方法，其特征在于，该方法的具体步骤如下：
S1：对原始样本进行抽样，生成训练集和测试集，所述训练集设置为一个以上；
S2：利用机器学习算法构建模型，该模型对每个训练集进行训练，以测试集进行测试，训练后每个训练集对应生成一个分类模型；
S3：每个分类模型依次分别对原始样本进行预测，每个分类模型在训练过程中分别得到原始样本中各样本的预测分数，该预测分数是指样本属于正常样本的概率值；
S4：每个分类模型对同一个样本进行预测后的分数分为一组，计算每组的预测分数的方差或者标准差；
S5：按方差或标准差由小到大对样本进行排序，设定初始阀值，将方差或者标准差超过该初始阀值的样本视为异常样本；
S6：在原始样本中将异常样本剔除，将剩下的样本进行重复训练，对比不同模型下的性能评估指标，确定最佳阀值；
S7：以最佳阀值作为分割点，高于此最佳阀值的原始样本即视为最终的异常样本。

2.如权利...

【专利技术属性】
技术研发人员：柴磊，许靖，尹帅，
申请(专利权)人：深圳市魔数智擎人工智能有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人