【技术实现步骤摘要】
基于软件基因的安全防护软件测试集自动生成方法、架构
本专利技术涉及网络与信息安全领域,特别是涉及一种基于软件基因的安全防护软件测试集自动生成方法、架构。
技术介绍
恶意软件和安全防护策略以互相博弈的形式共同演进,提高对恶意样本的识别准确度成为研究机构的主要工作。不同的安全防护软件对于恶意程序的识别能力和定义是不同的,构造高质量的测试样本集可以更充分地评估安全防护软件的性能,有助于提升安全防护策略,测试样本集应当具有体量适当、种类丰富和保留原始数据集密度分布特征等特点。考虑到样本集来源问题,安全防防护软件对于不同测试集的识别准确度不尽相同,但不能根据识别准确度来定判测试集及生成测试集方法的性能。许多行业都通过制定或构造测评标准对相应的工作提供标准化的评估,在网络安全领域,需要持续更新原始样本库以保障生成最新的、有效的测试样本集。有学者通过AV-TEST或AV-Comparatives获得恶意样本及相关数据,用来测试安全防护软件的性能;也有研究人员主要通过基于沙箱的程序动态特征,检测和获取样本的行为特征;或者通过基于静态 ...
【技术保护点】
1.一种基于软件基因的安全防护软件测试集自动生成方法,其特征在于,所述方法包括以下步骤:/nS1:准备待检测数据集的样本,提取所述样本中的软件基因代码片段;/nS2:通过对比每一个样本的软件基因代码片段的相似性,对样本进行基于密度的聚类中心自动确定的混合属性数据聚类,形成多个不同大小的聚类;/nS3:对每个聚类进行基于可变网格的密度偏差抽样,得到测试样本,把所有聚类中得到的测试样本进行汇总,得到测试样本集。/n
【技术特征摘要】
1.一种基于软件基因的安全防护软件测试集自动生成方法,其特征在于,所述方法包括以下步骤:
S1:准备待检测数据集的样本,提取所述样本中的软件基因代码片段;
S2:通过对比每一个样本的软件基因代码片段的相似性,对样本进行基于密度的聚类中心自动确定的混合属性数据聚类,形成多个不同大小的聚类;
S3:对每个聚类进行基于可变网格的密度偏差抽样,得到测试样本,把所有聚类中得到的测试样本进行汇总,得到测试样本集。
2.根据权利要求1所述的方法,其特征在于:所述步骤S1具体包括:
S11:输入样本,对样本进行反汇编得到待处理代码;
S12:获取所述待处理代码中调用系统API的代码所在的位置,以相邻的两条调用系统API的代码之间的部分作为一个软件代码基因片段,将所述待处理代码切割成为多个软件基因代码片段。
3.根据权利要求1所述的方法,其特征在于:步骤S2具体包括:
S21:从所述软件基因代码片段的数值型属性和分类型属性两个维度的数据进行计算,得出每个样本的位置和任意两个样本的距离;
S22:根据聚类中心自动确定方法和所述距离,计算得出聚类个数K和聚类中心;
S23:再结合粒子群算法,确定出每个聚类的最佳阶段距离;
S24:通过比较每个样本所在位置与每个聚类中心之间的距离,判断所述每个样本具体属于哪一个聚类。
4.根据权利要求1所述的方法,其特征在于:所述步骤S3具体包括:
S31:将每个聚类中软件基因代码片段的所述两个维度的数据进行排序,等深度将排序后的数据划分成多个网格单元;
S32:计算所述网格单元的密度信息,分别比较两个维度中的相邻网格单元的密度信息的相似性,合并密度信息相似的网格后形成网格空间;每个聚类相对应的形成一个网格空间,每个网格空间中包含不同数量的网格,每个网格中包含不同数量的样本。
S33:对每个网格空间内的样本进行抽取。
5.根据权利要求3所述的方法,其特征在于:所述步骤S24具体包括:
S241:比较样本与聚类的聚类中心之间的距离;
S242:当所述距离小于或者等于聚类的最佳阶段距离时,则找出所述样本所属的聚类;
S243:当所述距离大于聚类的最佳阶段距离时,再重复步骤S241和S242,直到找出所述样本所属的聚类。
6.根据权利要求4所述的方法,其特征在于:所述步骤S34具体包括:
S341:每个网格空间中包含多个网格,网格中所含样本的个数为该网格密度,抽取时,同一个网格中的样本抽取率相等,不同网格中的样本抽取率由其密度占比率决定...
【专利技术属性】
技术研发人员:王禹翔,
申请(专利权)人:上海戎磐网络科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。