一种基于无监督多模型的异常检测方法及系统技术方案

技术编号:27744440 阅读:21 留言:0更新日期:2021-03-19 13:38
本发明专利技术公开了一种基于无监督多模型的异常检测方法,包含以下步骤:采集大量样本,获取训练样本以及待检测样本;构建k个异常检测模型;利用训练样本,采用无监督方式训练异常检测模型;最终得到m个异常检测模型,所述m是大于等于1小于等于k的整数;实际部署应用时,将待检测样本输入m个异常检测模型,根据m个模型的结果判断待检测样本是否有异常或异常类别。本发明专利技术的方法完全采用无监督方法训练模型,无需标记数据。即使不知道异常种类,最终也可以自动得到异常类别。没有异常样本数据,也能准确检测出异常样本。模型数量根据异常类别数量改变而改变,鲁棒性好,扩展性强。

【技术实现步骤摘要】
一种基于无监督多模型的异常检测方法及系统
本专利技术涉及数据分析领域,尤其涉及一种基于无监督多模型的异常检测方法及系统。技术背景随着信息技术的快速发展,在各个行业都产生了大量的数据,经常需要对这些数据进行监测,分类,以解决各个行业存在的问题。比如在电子交易行业,需要识别用户账号是否被盗用,交易是否存在欺诈等异常行为。在工业制造行业中,需要对生产的产品进行质量监测,检测出存在异常的产品,以减少残次品数量,提升产品质量。然而实际情况中,异常数据很少,大量的数据样本是没有异常的正常样本,并且数据的标记成本很大。现有技术中,CN107391569B(数据类型的识别、模型训练、风险识别方法、装置及设备),提供了一种数据类型的识别、模型训练方法、装置及计算机设备。该方法获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别。该方法至少要获取两类数据,即正常样本和异常样本,无法应用于没有异常样本的场景。CN109871954A(训练样本生成方法、异常检测方法及装置),提供了一种训练样本生成方法、异常检测方法及装置。该方法通过生成训练样本的方式来解决训练样本不充分的问题。但是实际情况中,很难通过模型得到真实的样本分布,生成的样本与实际样本分布误差较大。CN108563548B(异常检测方法及装置),公开了一种异常检测方法及装置。该方法根据预制规则生成故障请求,获取所述故障请求的上下文数据以得到异常数据。这种通过预制规则得到的异常数据,与实际场景中的真实异常数据分布不一致,难以保证准确率。总之,现有技术存在需要大量训练样本,并且需要大量异常样本,或者需要通过生成的方式得到异常样本,存在异常检测精度不高的问题。
技术实现思路
本专利技术的目的是克服上述
技术介绍
中不足,提供一种基于无监督多模型的异常检测方法及系统,可用于解决现有技术中检测精度不高并且需要大量异常样本的技术问题。为了达到上述的技术效果,本专利技术采取以下技术方案:一种基于无监督多模型的异常检测方法,所述方法包含以下步骤:S1.采集大量样本,获取训练样本以及待检测样本;S2.构建k个异常检测模型,所述k是大于等于1的整数;S3.利用训练样本,采用无监督方式训练第1个异常检测模型;S4.将训练样本输入到上述训练好的第1个异常检测模型,从训练样本中删除该模型能正确预测的样本,得到当前剩下的训练样本;S5.利用上述当前剩下的训练样本,训练剩下的k-1个异常检测模型,最终得到m个异常检测模型,所述m是大于等于1小于等于k的整数;S6.实际部署应用时,将待检测样本输入m个异常检测模型,根据m个模型的结果判断待检测样本是否有异常或异常类别。进一步地,步骤S1所述的训练样本至少包括正常样本。进一步地,步骤S2所述k的值由实际应用场景决定,包括但不限于:如果已知应用场景的异常种类数量,并且训练样本包括正常样本和所有异常类别的样本,则k的值等于异常种类数量加1;如果应用场景异常种类数量未知,根据经验人为选定一个k值。进一步地,步骤S2所述的异常检测模型包括但不限于GAN模型。进一步地,步骤S5所述的利用上述当前剩下的训练样本,训练剩下的k-1个异常检测模型,最终得到m个异常检测模型,包括以下步骤:a.对于第i个异常检测模型,利用当前剩下的训练样本,采用无监督方式训练该模型,其中i为整数,2≤i≤k;b.将当前剩下的训练样本输入到上述训练好的第i个异常检测模型,从当前剩下的训练样本中删除该模型能正确预测的样本,得到当前剩下的训练样本;c.重复上述a、b步骤,如果当前剩下的样本数量为0,提前终止训练,否则一直重复a、b步骤,最终得到m个异常检测模型。进一步地,所述的m个异常检测模型,其中有1个模型对应正常样本的模型,其余m-1个模型对应m-1种异常类别样本的模型。进一步地,所述步骤S6具体包括:a.对于一个待检测样本,分别输入m个异常检测模型,每个模型将输出一个得分;b.如果m个模型的得分都没有超过阈值t,则待检测样本为异常样本,且异常为新类别异常;c.如果存在模型的得分都超过阈值t,选择得分最高的模型对应的样本类别作为待检测样本的类别;如果对应正常样本的模型输出得分最高,判定待检测样本为正常样本;如果对应异常样本的模型输出得分最高,判定待检测样本有异常,并且异常类别为该模型对应异常类别。其中,t的值由如下方法确定:对于每个模型对应的训练样本,将训练样本输入对应的模型,从t=0.5开始,每次增加0.5,一直到t=0.95。t的不同取值将对应不同的准确率,取准确率最高的那个t值作为t的最后取值。同时,本专利技术还公开了一种基于无监督多模型的异常检测系统,包括:数据采集模块,用于获取数据,得到训练样本和待检测样本;训练模块,用于训练多个异常检测模型;部署应用模块,用于判断待检测样本是否有异常或异常类别。本专利技术与现有技术相比,具有以下的有益效果:即使不知道异常种类,最终也可以自动得到异常类别。没有异常样本数据,也能准确检测出异常样本。采用无监督方法训练模型,无需标记数据。附图说明图1为本专利技术实施例一所提供的一种基于无监督多模型的异常检测方法流程示意图。图2为本专利技术实施例一所提供的模型训练流程图。图3为本专利技术实施例一所提供的部署应用流程图。图4为本专利技术实施例二所提供的一种基于无监督多模型的异常检测系统结构示意图。具体实施方式下面结合本专利技术的实施例对本专利技术作进一步的阐述和说明。实施例一如图1所示,一种基于无监督多模型的异常检测方法,具体包括以下步骤:S1.采集大量样本,获取训练样本以及待检测样本;其中,所述的训练样本至少包括正常样本;本实施例中,其具体实现为:在实际的生产制造场景中,用图像采集系统采集大量产品表面样本图片,包含正常样本和异常样本,得到训练样本。对于训练样本,不需要进行标记。在部署应用时,用图像采集系统采集产品表面样本图片,得到待检测样本。S2.构建k个异常检测模型,所述k是大于等于1的整数;其中,所述k的值由实际应用场景决定,包括但不限于:如果已知应用场景的异常种类数量,并且训练样本包括正常样本和所有异常类别的样本,则k的值等于异常种类数量加1;如果应用场景异常种类数量未知,根据经验人为选定一个k值;进一步地,步骤S2所述的异常检测模型包括但不限于GAN模型;本实施例中,已知产品表面的异常种类为3种,并且训练样本中包含正常样本和3种异常样本图片,此时确定k值为4,所以构建4个GAN模型。S3.利用训练样本,采用无监督方式训练第1个异常检测模型;具体地,训练异常检测模型GAN模型的步骤如下:用卷积神经网络构造一个生本文档来自技高网
...

【技术保护点】
1.一种基于无监督多模型的异常检测方法,其特征在于所述方法包含以下步骤:/nS1. 采集大量样本,获取训练样本以及待检测样本;/nS2. 构建k个异常检测模型,所述k是大于等于1的整数;/nS3. 利用训练样本,采用无监督方式训练第1个异常检测模型;/nS4. 将训练样本输入到上述训练好的第1个异常检测模型,从训练样本中删除该模型能正确预测的样本,得到当前剩下的训练样本;/nS5. 利用上述当前剩下的训练样本,训练剩下的k-1个异常检测模型,最终得到m个异常检测模型,所述m是大于等于1小于等于k的整数;/nS6. 将待检测样本输入m个异常检测模型,根据m个模型的结果判断待检测样本是否有异常或异常类别。/n

【技术特征摘要】
1.一种基于无监督多模型的异常检测方法,其特征在于所述方法包含以下步骤:
S1.采集大量样本,获取训练样本以及待检测样本;
S2.构建k个异常检测模型,所述k是大于等于1的整数;
S3.利用训练样本,采用无监督方式训练第1个异常检测模型;
S4.将训练样本输入到上述训练好的第1个异常检测模型,从训练样本中删除该模型能正确预测的样本,得到当前剩下的训练样本;
S5.利用上述当前剩下的训练样本,训练剩下的k-1个异常检测模型,最终得到m个异常检测模型,所述m是大于等于1小于等于k的整数;
S6.将待检测样本输入m个异常检测模型,根据m个模型的结果判断待检测样本是否有异常或异常类别。


2.如权利要求1所述的一种基于无监督多模型的异常检测方法,其特征在于,步骤S1所述的训练样本至少包括正常样本。


3.如权利要求1所述的一种基于无监督多模型的异常检测方法,其特征在于,步骤S2所述k的值由实际应用场景决定,包括但不限于:
如果已知应用场景的异常种类数量,并且训练样本包括正常样本和所有异常类别的样本,则k的值等于异常种类数量加1;
如果应用场景异常种类数量未知,根据经验人为选定一个k值。


4.如权利要求1所述的一种基于无监督多模型的异常检测方法,其特征在于,步骤S2所述的异常检测模型包括但不限于GAN模型。


5.如权利要求1所述的一种基于无监督多模型的异常检测方法,其特征在于,步骤S5所述的利用上述当前剩下的训练样本,训练剩下的k-1个异常检测模型,最终得到m个异常检测模型...

【专利技术属性】
技术研发人员:游忍刘明华
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1