【技术实现步骤摘要】
一种基于污染免疫的异常数据检测方法及系统
[0001]本专利技术涉及异常检测的
,特别涉及一种基于污染免疫的异常数据检测方法及系统
。
技术介绍
[0002]异常检测技术在医学诊断
、
网络安全
、
金融欺诈等多个场景中具有广泛的应用
。
异常检测的任务目标是识别与大多数样本或已定义的正常数据有显著不同的异常数据,例如,在医学诊断场景当中,图像异常检测技术可以辅助医生更高效地诊断出皮肤
、
眼球等医学病变,时间序列异常检测技术在医学场景可以用来监控患者的心率,对异常情况及时进行警告;在网络安全场景,序列异常检测技术可以用来进行流量监控,为当前大数据时代的众多系统提供了安全保障
。
[0003]目前主流的无监督异常检测方法,例如变分自编码器和生成对抗网络的概率生成模型,这些方法通过学习正常数据集的概率分布,将概率密度值或其替代准则
(
比如重构误差
)
作为检测准则来对测试点进行判断
。
另有一些半监督异常检测算法,例如
DeepSAD
异常检测算法,
DeepSAD
的原理为:将正常数据压缩到一个超平面的同时,使异常数据远离超平面的球心,从而对异常数据进行筛除
。
上述无监督和半监督异常检测算法均取得了有竞争力的结果,但这些方法均建立在正常数据集没有被异常数据污染这一假设下,然而,一旦正常数据集受到污染,上述方法的检测准确度会急剧 ...
【技术保护点】
【技术特征摘要】
1.
一种基于污染免疫的异常数据检测方法,其特征在于,包括以下步骤:
S1.
对数据集进行划分,得到训练集
、
辅助训练集和测试集,所述训练集内和所述测试集内的数据包括正常数据
、
污染异常数据,所述辅助训练集内的数据仅含有污染异常数据;
S2.
构建双向生成对抗网络,所述双向生成对抗网络包括编码器
、
生成器和判别器;
S3.
向双向生成对抗网络输入训练集和辅助训练集,对双向生成对抗网络中的判别器进行训练,得到训练好的判别器;
S4.
向双向生成对抗网络输入训练集和辅助训练集,利用训练好的判别器,对双向生成对抗网络中的生成器和编码器进行训练,得到训练好的生成器和编码器;
S5.
重复步骤
S3
‑
S4
,直到双向生成对抗网络达到纳什均衡,结束训练,得到训练好的双向生成对抗网络,训练好的双向生成对抗网络包括最优判别器和最优生成器;
S6.
向训练好的双向生成对抗网络输入测试集,利用训练好的双向生成对抗网络对测试集中的污染异常数据进行检测,并根据检测结果计算双向生成对抗网络的性能;
S7.
将训练好的双向生成对抗网络用于异常数据检测
。2.
根据权利要求1所述的一种基于污染免疫的异常数据检测方法,其特征在于,在步骤
S3
中,包括
:S31.
向双向生成对抗网络输入训练集和辅助训练集,设输入双向生成对抗网络的训练集数据样本为
x
,将
x
输入至编码器
E
,编码器
E
将
x
映射到隐含层空间,得到隐含层表征
E(x)
;设输入双向生成对抗网络的辅助训练集数据样本为
x
‑
,将
x
‑
输入至编码器
E
,编码器
E
将
x
‑
映射到隐含层空间,得到辅助训练集数据的隐含层表征
E(x
‑
)
;由先验高斯分布中随机采样得到随机隐含层表征
z
,向生成器输入随机隐含层表征
z
,生成器将隐含层表征
z
还原至高纬度空间,得到生成数据
G(z)
;
S32.
构建判别器
D
的目标函数,判别器用于鉴别输入的数据是否为污染异常数据,表达式为:其中,
p
E
(x,E(x))
为训练集的联合概率分布,为辅助训练集的联合概率分布,
p
G
(G(z),z)
为生成数据
G(z)
的联合概率分布,
d
为参数,
d
的计算表达式为:其中,
γ
p
为训练集中污染异常数据占所有数据的比例;
S33.
建立样本对
(x,E(x))
,
(x
‑
,E(x
‑
))
及
(G(z),z)
,将样本对(
x,E(x)
),(
x
‑
,E(x
‑
))
及
(G(z),z)
代入判别器目标函数;
S34.
利用梯度下降法对双向生成对抗网络中的判别器进行训练,更新判别器参数,得到训练好的判别器
。3.
根据权利要求2所述的一种基于污染免疫的异常数据检测方法,其特征在于,在步骤
S4
中,包括:
S41.
向双向生成对抗网络输入训练集和辅助训练集,设输入双向生成对抗网络的训练
集数据样本为
x
,将
x
输入至编码器,编码器
E
将
x
映射到隐含层空间,得到隐含层表征
E(x)
;设输入双向生成对抗网络的辅助训练集数据样本为
x
‑
,将辅助训练集数据
x
‑
输入至编码器
E
,编码器
E
将
x
‑
映射到隐含层空间,得到隐含层表征
E(x
‑
)
;由先验高斯分布中随机采样得到随机隐含层表征
z
,向生成器输入随机隐含层表征
z
,得到生成数据
G(z)
;
S42.
构建生成器
G
与编码器
E
的目标函数,表达式为:其中,
D(
·
)
表示训练好的判别器,
c
为参数;
S43.
建立样本对
(x,E(x))
,
(x
‑
,E(x
‑
))
及
(G(z),z)
,将样本对
(x,E(x)
),(
x
‑
,E(x
‑
)
)及
(G(z),z)
代入生成器与编码器的目标函数;
S44.
利用梯度下降法对双向生成对抗网络中的生成器与编码器进行训练,更新生成器和编码器的参数,得到训练好的生成器和编码器
。4.
根据权利要求3所述的一种基于污染免疫的异常数据检测方法,其特征在于,训练好的生成对抗网络中,最优判别器
D
*
的表达式为:最优生成器
G
的概率分布表达式为:其中,为期望联合概率分布
。5.
根据权利要求4所述的一种基于污染免疫的异常数据检测方法,其特征在于,在步骤
S6
中,对测试集进行异常数据检测的步骤包括:
S611.
向训练好的双向生成对抗网络输入测试集数据,利用训练好的双向生成对抗网络中的编码器计算得到测试集数据的隐含层表征
E()
;
S612.
计算测试集中每个数据
x
i
的异常评分值
A
i
;
S613.
设置评分阈值,将测试集中每个数据的异常评分值逐一与评分阈值进行比较,当异常评分值大于评分阈值时,该数据被判定为污染异常数据...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。