基于连续监督的鲁棒深度半监督异常检测方法及系统技术方案

技术编号:32632302 阅读:26 留言:0更新日期:2022-03-12 18:06
本发明专利技术公开了一种基于连续监督的鲁棒深度半监督异常检测方法及系统,本发明专利技术包括训练由数据表征模块和异常评分模块两者构成的神经网络的步骤:设定迭代轮次和批量大小;在每一个迭代轮次和批量的情况下,取训练集数据中随机选取两份未标注数据以及一份已知的标注异常数据构成最小批量数据;将最小批量数据通过数据表征模块得到在隐表征空间内的嵌入向量;将在隐表征空间内的嵌入向量通过异常评分模块得到异常分数向量;将在隐表征空间内的嵌入向量、异常分数向量输入损失函数以计算总损失;根据总损失更新网络的模型参数。本发明专利技术能够解决现有半监督异常检测方法受到未标注数据异常污染以及间接离散监督影响的问题,可获得更好的检测效果。得更好的检测效果。得更好的检测效果。

【技术实现步骤摘要】
基于连续监督的鲁棒深度半监督异常检测方法及系统


[0001]本专利技术涉及数据挖掘
,具体涉及一种基于连续监督的鲁棒深度半监督异常检测方法及系统。

技术介绍

[0002]异常是偏离其他大多数样本的数据,以至于让人们怀疑其是由不同机制产生的。异常检测是一种用于识别这些显著不同于预期的异常数据的技术,其在许多关键领域有着广泛的应用,例如网络安全、金融监控、风险管理和AI医疗诊断。这些应用往往很难提供足够的标注数据,因此异常检测通常被定义为无监督问题。
[0003]业内已提出了各种无监督异常检测方法,如基于统计特征的方法、基于密度的方法、基于聚类的方法。近些年,无监督深度异常检测方法利用自编码器、生成对抗网络以及他们的各种变种学习数据的正常分布和模式,并将异常定义为具有较高重构损失的数据。然而,无监督异常检测方法通常会导致报警风暴,即由于报警数量巨大导致分析人员很难及时处理所有检测到的异常数据而忽略真正的潜在风险。在没有任何先验信息表明什么样的数据是异常的情况下,准确地检测人们真正感兴趣的真实异常是极具挑战性的。事实上,许多实际应用都会本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于连续监督的鲁棒深度半监督异常检测方法,其特征在于,包括训练由数据表征模块f和异常评分模块g两者构成的神经网络的步骤:1)设定迭代轮次epoch和每次迭代的批量大小batch

size;2)取训练集数据中随机选取两份未标注数据和以及一份已知的标注异常数据构成最小批量数据3)将最小批量数据通过数据表征模块f得到在隐表征空间内的嵌入向量;4)将在隐表征空间内的嵌入向量通过异常评分模块g得到异常分数向量;5)将在隐表征空间内的嵌入向量、异常分数向量输入损失函数以计算总损失;6)根据总损失更新网络的模型参数;7)判断本迭代轮次的批量数量达到批量大小batch

size是否成立,若不成立,则跳转执行步骤2);否则,跳转下一步;8)判断迭代轮次的总数量达到迭代轮次epoch是否成立,若不成立,则跳转执行步骤7);否则,判定训练结束,将最终得到的网络的模型参数作为训练结果输出。2.根据权利要求1所述的基于连续监督的鲁棒深度半监督异常检测方法,其特征在于,步骤5)中计算总损失的计算函数表达式为:上式中,表示总损失,w
f
为正则化项的权值,w
φ
为损失函数的权值,其中为最小批量数据,为对原始数据的随机凸组合结果。3.根据权利要求2所述的基于连续监督的鲁棒深度半监督异常检测方法,其特征在于,所述正则化项的计算函数表达式为:上式中,d(
·
|
·
)定义为欧拉距离,max为最大值函数,f(n)为未标注数据中未标注数据n经过数据表征模块f得到在隐表征空间内的嵌入向量,f(q)为未标注数据中未标注数据q经过数据表征模块f得到在隐表征空间内的嵌入向量,f(a)为已知的标注异常数据中已知的标注异常数据a经过数据表征模块f得到在隐表征空间内的嵌入向量,e为设定距离。4.根据权利要求3所述的基于连续监督的鲁棒深度半监督异常检测方法,其特征在于,正则化项的权值w
f
的计算函数表达式为:上式中,为正则化项T为温度系数,为上一迭代轮次epoch中所有最小批量数据对应的平均值,为上一迭代轮次epoch中所有最小批量数据对应的平均值。5.根据权利要求2所述的基于连续监督的鲁棒深度半监督异常检测方法...

【专利技术属性】
技术研发人员:蹇松雷徐鸿祚黄辰林谭郁松李宝董攀丁滟任怡王晓川张建锋谭霜
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1