一种基于Jaccard系数的恶意样本相似性判定方法技术

技术编号:30020905 阅读:33 留言:0更新日期:2021-09-11 06:41
本发明专利技术公开了一种基于Jaccard系数的恶意样本相似性判定方法,其具体包括:利用String命令对恶意样本Ⅰ和恶意样本Ⅱ分别进行解析并提取恶意样本字符串,将提取到的恶意样本字符串分别转化为样本字符串集合A和B;计算出样本字符串集合A和B之间的Jaccard系数;设定一个阈值,若计算得到的Jaccard系数值大于阈值,则判定恶意样本Ⅰ和恶意样本Ⅱ之间具有较强的相似性;对于具有较强的相似性的恶意样本Ⅰ和恶意样本Ⅱ,利用空间谱函数,找到恶意样本所在的字符串。本发明专利技术提供了一种新型的恶意样本相似性判定方法,无需进行恶意样本特征提取等复杂操作,可以提高恶意样本相似性判定的效率。可以提高恶意样本相似性判定的效率。可以提高恶意样本相似性判定的效率。

【技术实现步骤摘要】
一种基于Jaccard系数的恶意样本相似性判定方法


[0001]本专利技术属于网络安全
,具体涉及一种基于Jaccard系数的恶意样本相似性判定方法。

技术介绍

[0002]通常情况下,不同的计算机网络恶意样本之间一般具有不同的功能特点,其各自内部结构由所具有的功能特点决定,因此可以通过提取恶意样本自身所具有的特征完成对恶意样本之间相似性的判断。目前,针对判断恶意样本之间是否具有相似性的技术方案,主要以构建机器学习算法模型为主,通过提取恶意样本特征完成相关的检测判断。在利用机器学习算法检测模型的技术方案中,需要对每种恶意样本进行特征提取,经过预处理并转化为相应的特征向量值之后,将其输入到机器学习算法模型中,根据输出的准确率、精确率等指标,综合得出恶意样本之间是否具有相似性等结论。对于利用机器学习算法进行检测的技术方案,不仅需要对数据进行预处理,还需要不断地进行调参处理并尽可能地优化检测模型,实施过程较为复杂,无法迅速获得稳定、可靠的结果。
[0003]另外,不法分子为了防止自己制作得恶意代码被检测,会对恶意代码样本中一些常用的字符本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Jaccard系数的恶意样本相似性判定方法,其特征在于,其具体包括:S1,利用String命令对恶意样本Ⅰ和恶意样本Ⅱ分别进行解析并提取恶意样本字符串,将提取到的恶意样本字符串分别转化为样本字符串集合A和B;S2,计算出样本字符串集合A和B之间的Jaccard系数;Jaccard系数用于比较有限样本集之间的相似性与差异性,字符串集合A和字符串集合B之间的Jaccard系数的计算公式为:其中,|
·
|表示计算集合中元素的个数,J(A,B)∈[0,1],当集合A,B都为空时,定义J(A,B)取值为1;S3,依据步骤S2所计算得到的Jaccard系数值,设定一个判定阈值μ,若计算得到的Jaccard系数值大于μ,则判定恶意样本Ⅰ和恶意样本Ⅱ之间具有较强的相似性;若计算得到的Jaccard系数值小于μ,则判定两个恶意样本之间没有较强的相似性;S4,对于具有较强的相似性的恶意样本Ⅰ和恶意样本Ⅱ,将其对应的字符串集合A和字符串集合B中的每个字符串分别转化为数字,得到两个字符串数值向量a和b,将两个字符串数值向量a和b分别均分为N段字符串子向量,即得到:a=[a1,a2,

,a
N
],b=[b1,b2,

,b
N
],以字符串子向量为基本元素,计算两个字符串数值向量a和b的互相关矩阵R,即得到:R=a
T
b,其中,互相关矩阵R的第i行、第j列的元素r
ij
=a
i
b
jT
,a
i
表示字符串数值向量a的第i个字符串子向量,i=1,2,

,N,b
j
表示字符串数值向量b的第j个字符串子向量,j=1,2,

【专利技术属性】
技术研发人员:任传伦刘文瀚吕帅夏建民张先国刘晓影王淮俞赛赛乌吉斯古愣孟祥頔
申请(专利权)人:中国电子科技集团公司第三十研究所中电科网络空间安全研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1