【技术实现步骤摘要】
一种对抗样本生成方法
[0001]本专利技术属于对抗网络
,具体涉及一种对抗样本生成方法。
技术介绍
[0002]2014年10月Ian J. Goodfellow等人提出了一个通过对抗过程估计生成模型的新框架,即生成式对抗网络(GAN,Generative Adversarial Networks),其分为两个网络:G(Generator,发生器)和D(Discriminator,鉴别器)。具体地,G是一个生成网络,它可接收一个随机的噪声z,并通过这个噪声生成样本,记做G(z);D是一个判别网络,用于判别一个样本是不是“真实的”,其输入参数是x,x代表一个样本,输出的结果是D(x),代表样本x为真实图片的概率,如果D(x)为1,就代表该样本100%是真实的,如果D(x)为0,就代表该样本不可能是真实的。在训练过程中,生成网络G的目标是尽量生成真实的样本去欺骗判别网络D,而判别网络D的目标是尽量把生成网络G生成的样本和真实的样本分别开来,这样,生成网络G和判别网络D构成了一个动态的“博弈过程”。在最理想的状态下,最后博弈的结果是:生成网络G可以生成足以“以假乱真”的样本G(z),而对于判别网络D来说,它难以判定生成网络G生成的样本究竟是不是真实的,此时D(G(z))=0.5,由此可得到一个生成式的模型G,其可以用来生成以假乱真的样本。
[0003]由此,研究人员提出了“对抗样本”这一概念。通过在原有样本中添加微小扰动的方法,成功地大幅度降低原有分类深度模型的准确率,实现了对于深度学习的对抗目的,同时也给 ...
【技术保护点】
【技术特征摘要】
1.一种对抗样本生成方法,其特征在于:包括:获取数据样本;其中,所述数据样本包括恶意样本和良性样本;对所述数据样本的apk文件进行静态反编译,得到所述数据样本的静态特征信息;对所述数据样本的apk文件进行动态分析,得到所述数据样本的动态特征信息;对所述静态特征信息中的特征项和所述动态特征信息中的特征项进行融合,得到特征向量;其中,所述静态特征信息和所述动态特征信息中均包括多个特征项;对所述特征向量进行特征项筛选,得到筛选后特征向量;构建初始模型,并将所述筛选后特征向量输入所述初始模型进行处理,得到对抗样本生成模型;根据所述对抗样本生成模型,生成对抗样本。2.根据权利要求1所述的一种对抗样本生成方法,其特征在于:对所述数据样本的apk文件进行静态反编译,得到所述数据样本的静态特征信息,包括:使用apktool工具对所述数据样本的apk文件进行静态反编译,得到所述apk文件的smali文件夹和AndroidManifest.xml文件;从所述AndroidManifest.xml文件中提取所述apk文件的permission特征信息、action特征信息、service特征信息、category特征信息、activity特征信息、provider特征信息和receiver特征信息;从所述smali文件夹中提取所述apk文件的API特征信息和操作码特征信息;将所述permission特征信息、所述action特征信息、所述service特征信息、所述category特征信息、所述activity特征信息、所述provider特征信息、所述receiver特征信息、所述API特征信息和所述操作码特征信息作为所述数据样本的静态特征信息。3.根据权利要求1所述的一种对抗样本生成方法,其特征在于:对所述数据样本的apk文件进行动态分析,得到所述数据样本的动态特征信息,包括:将所述数据样本的apk文件导入CuckooDroid工具部署的虚拟运行环境中模拟运行;通过基于Xposed框架的Dalvik API挂钩,捕获所述apk文件运行时的动态API执行序列;将所述动态API执行序列作为所述数据样本的动态特征信息。4.根据权利要求1所述的一种对抗样本生成方法,其特征在于:对所述静态特征信息中的特征项和所述动态特征信息中的特征项进行融合,得到特征向量,包括:获取所述静态特征信息和所述动态特征信息中各特征项在所述数据样本中出现的总次数;根据各特征项在所述数据样本中出现的总次数,对所述静态特征信息和所述动态特征信息进行融合,得到特征向量;其中,第i个数据样本对应的特征向量为:T
i
={x1:c1,x2:c2,
……
,xk:ck,
……
,xn:cn}式中,xk为当前数据样本中任一特征项的名称,ck为特征项xk在当前数据样本中出现的总次数,其中k={1,2,
……
,n},n为当前静态特征信息和所述动态特征信息中的特征项的总数。5.根据权利要求1所述的一种对抗样本生成方法,其特征在于:对所述特征向量进行特征项筛选,得到筛选后特征向量,包括:
对所述特征向量中的所有特征项进行重要度排序,得到排序后特征向量;获取并删除所述排序后特征向量中的恶意特征项和中性特征项,得到低维特征向量;选取所述低维特征向量中排序靠前指定位数内的所有特征项,得到筛选后特征向量。6.根据权利要求5所述的一种对抗样本生成方法,其特征在于:对所述特征向量中的所有特征项进行重要度排序,得到排序后特征向量,包括:基于随机森林算法计算特征向量中的所有特征项的第一重要度值,并按第一重要度值的大小,对所述特征向量中的所有特征项进行第一重要度...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。