【技术实现步骤摘要】
一种基于群智能算法和cGAN的恶意代码数据不均衡处理方法
[0001]本专利技术属于信息安全领域,尤其涉及一种基于群智能算法和cGAN的恶意代码数据不均衡处理方法,属于恶意代码分类问题中的数据均衡策略。
技术介绍
[0002]随着信息技术的快速发展,互联网已成为我们日常生活的重要组成部分,其为我们的生活、学习、工作带来诸多利处,但同时隐藏着如木马病毒、钓鱼网站和恶意软件等众多安全问题,其中恶意代码是主要安全威胁之一。在经济利益的驱使下,新的恶意软件样本数量呈爆炸式增长,反恶意软件供应商每年面临数百万个潜在的恶意代码样本,为了继续对抗恶意代码样本的增加,研究需要依靠大量的、高质量的样本来构建高效的恶意软件检测模型。
[0003]在分类应用中,数据不均衡对分类模型的训练有显著不利影响,既表现在训练模型的收敛性,又表现在测试阶段模型的泛化性。高质量的数据是机器学习和深度学习的关键所在,数据的稀缺性可以阻碍一个模型的发展,使用高质量的数据训练后的模型往往会更健壮(防止过拟合),甚至可以因为数据集的原因使训练变得简单和快速。而 ...
【技术保护点】
【技术特征摘要】
1.一种基于群智能算法和cGAN的恶意代码数据不均衡处理方法,其特征在于:包括以下步骤,步骤1,构建恶意代码生成模型;生成对抗网络GAN由生成网络G和判别网络D两部分构成,G和D动态博弈:G用生成样本欺骗D从而以假乱真,而D不断提高判别能力以区分真实数据和G合成的数据,直到最后二者达到纳什平衡,即理论上G生成的数据分布P
g
和真实的数据分布P
data
相等;条件式生成对抗网络cGAN通过参数的控制来指导数据的生成,即在原有的网络结构下,对判别器和生成器的输入都加上一个额外的辅助信息y,这个y是各数据的分类标签,辅助信息y即为恶意代码的家族标签;在生成网络与判别网络不断对抗、迭代优化后,生成器做为恶意代码的生成模型;步骤1.1,在生成网络中,从前置随机分布p
z
(z)中取出随机输入z,再与恶意代码家族标签y进行拼接组合,形成一个全新的隐含表示;步骤1.2,在判别网络中,真实恶意代码样本或生成的恶意代码都会和家族标签y共同输入以进行判别;步骤1.3,判别网络D通过多次迭代学习来提高自己的判别真假样本能力,生成网络G又通过多次迭代学习来提高自己的仿造能力;二者动态对抗、在迭代过程中不断优化,当D最后无法区别出真实数据和生成数据时,即D已经将生成的数据G(z)当成了真实的数据时,则认为模型达到了最优,并且认为G已经得到了真实样本数据完整的分布;此时的生成网络即为恶意代码的生成模型,生成数据已经被看作新的恶意代码样本数据;步骤2,采用群智能算法计算恶意代码的可接受最佳初始样本比例;采用典型的群智能算法PSO算法来寻找不同类别恶意代码家族的可接受最佳初始权重;假设恶意代码家族数目为M,重采样权重为W
i
,采样权重的组合可看作群智能算法中个体的位置,由下式给出:position=(W1,W2,...,W
n
)将训练模型的准确性作为目标函数;步骤3,生成各家族恶意代码,构建相对均衡的恶意代码数据集;根据PSO算法计算的恶意代码家族...
【专利技术属性】
技术研发人员:梁军淼,宁振虎,曹东芝,公备,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。