当前位置: 首页 > 专利查询>中南大学专利>正文

一种webshell恶意家族聚类分析方法技术

技术编号:32269501 阅读:24 留言:0更新日期:2022-02-12 19:33
本发明专利技术公开了一种webshell恶意家族聚类分析方法,它涉及信息安全技术领域;它包括以下步骤:步骤1:获取Webshell运行时的函数调用信息、参数值和返回值信息;步骤2:函数调用信息息进行清洗、拼接和排序;步骤3:对步骤2中的函数调用序列信息进行向量化;步骤4:计算参数值和返回值的信息熵,并按函数调用先后顺序进行排序;步骤5:根据步骤2和步骤4得到的func_seq、argv_seq和return_seq,搭建RNN模型分别对三类序列进行预测,学习代码家族特征;步骤6:将原始的序列数据和预测的序列数据经过minhash处理后,映射为像素点,形成像素图;步骤7:将步骤6得到原始像素图与预测像素图叠加,绘制最终的像素图;步骤8:使用DBSCAN聚类算法对步骤7得到的像素图进行聚类。聚类算法对步骤7得到的像素图进行聚类。聚类算法对步骤7得到的像素图进行聚类。

【技术实现步骤摘要】
一种webshell恶意家族聚类分析方法


[0001]本专利技术属于信息安全
,具体涉及一种webshell恶意家族聚类分析方法。

技术介绍

[0002]Webshell是一种用脚本语言编写的命令执行环境,攻击者通过将脚本文件上传至服务器,并将其隐藏在良性文件中,从而达到操纵服务器的目的。目前,WebShell已成为影响云主机安全的首要危害源。为了防止黑客的入侵,实时保障云用户的资产安全,一种高准确度、高效率的恶意Webshell检测方法至关重要。
[0003]传统WebShell防治手段大多基于预定义规则,新规则的创建和旧规则的更新总是慢于WebShell变种速度,导致恶意文件很容易绕过规则检测。为解决规则更新困难、不能及时检测新变种的问题,人们开始尝试基于启发式算法或深度学习模型进行恶WebShell检测,但此类方法仍然需要投入大量人力协助检测,如人工给恶意文件样本打标签、人工核验恶性/良性边界模糊的可疑文件以减少误报、人工确认新变种的出现等。
[0004]构建恶意文件家族体系是恶意文件检测的一个方向。构建一个完整的W本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种webshell恶意家族聚类分析方法,其特征在于:包括以下步骤:步骤1:获取Webshell运行时的函数调用信息、参数值和返回值信息;步骤2:函数调用信息进行清洗、拼接和排序;步骤3:对步骤2中的函数调用序列信息进行向量化;步骤4:计算参数值和返回值的信息熵,并按函数调用先后顺序进行排序;步骤5:根据步骤2和步骤4得到的func_seq、argv_seq和return_seq,搭建RNN模型分别对三类序列进行预测,学习代码家族特征;步骤6:将原始的序列数据和预测的序列数据经过minhash处理后,映射为像素点,形成像素图;步骤7:将步骤6得到原始像素图与预测像素图叠加,绘制最终的像素图;步骤8:使用DBSCAN聚类算法对步骤7得到的像素图进行聚类。2.根据权利要求1所述的一种webshell恶意家族聚类分析方法,其特征在于:步骤1中每个Webshell样本数据可以抽象为一种多属性的事件序列数据x={x1,x2,

,x
N
},其中x
i
表示该Webshell第i次调用的运行信息集合,每次调用的信息集合可分为基础属性信息和扩展属性信息两种信息,即x
i
可以描述为一对<Basic
i
,Extended
i
>。其中,基础属性信息(Basic)包括调用函数名(caller)和被调用函数名(callee),扩展属性(Extended)包括被调用函数的参数值(argv)、返回值(return)和污点信息(taint),Webshell样本x
i
的调用函数、被调用函数、参数值、返回值和污点信息分别为数、被调用函数、参数值、返回值和污点信息分别为3.根据权利要求1所述的一种webshell恶意家族聚类分析方法,其特征在于:步骤2包括以下步骤:步骤2.1:计算样本中中所有调用函数和被调用函数的出现次数,取出现次数较多的函数,作为核心函数,其余函数为非核心函数,在后续的编码处理中视为同一种函数;步骤2.2:基于n

gram的自然语言处理思想,将同一次函数调用过程中涉及的和进行字符串拼接,把视作为一个最小单元item;。步骤2.3:对步骤2.2得到的item,按照函数调用的先后顺序进行排序,得到每个Webshell样本的函数调用序列信息;此时,一个样本中的函数调用序列信息也可以表示为func_seq={item1,item2,

,item
i

,item
n
};n

gram的目的是保留函数调用过程中的序列信息。4.根据权利要求1所述的一种webshell恶意家族聚类分析方法,其特征在于:步骤3包括以下步骤:步骤3.1:类似自然语言处理中利用词向量模型对短文本进行向量化的思路,Webshell中每个样本的序列信息相当于一个短文本,每个最小单元item相当于短文本中的“单词”,所有样本的函数调用序列组成一个语料库;由于每个item就是一个“单词”,所以无需分词等操作;步骤3.2:设计CBOW模型的词向量维度,将步骤2.3中得到的函数调用序列信息作为语料库,输入至CBOW模型中进行训练,利用训练好的CBOW模型计算每个item对应的向量V
item
,并保存CBOW模型中的参数权重;
步骤3.3:利用步骤3.2得到的向量V
item
,分别对每个样本中的函数调用序列func_seq={item1,item2,

,item
i

,item
n
}所对应的向量V
sentence
=[V1,V2,

,V
i

,V
n
]进行求和,然后再取平均值,得到函数调用序列对应的向量5.根据权利要求1所述的一种webshell恶意家族聚类分析方法,其特征在于:步骤4包括以下步骤:步骤4.1:对参数值和返回值进行...

【专利技术属性】
技术研发人员:周芳芳袁键陈茁王心远吕胜蓝范毅伦李影赵颖
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1