【技术实现步骤摘要】
一种webshell检测方法、终端设备及存储介质
本专利技术涉及计算机网络安全
,具体地涉及一种基于命令序列及主动学习算法的webshell检测方法、终端设备及存储介质。
技术介绍
伴随着Web技术的提高和锁承载信息的爆炸性增长,Web从最初的简单静态内容的展示演变到提供丰富动态内容的交互式应用,从单一服务器拓展到大规模集群。今年来,CSDN密码泄漏门,ApacheStruts2漏洞,棱镜门等一系列网络安全时间进入人们的视野,这其中绝大部分都与Web网站安全息息相关。根据CNCERT每年发布的年度安全报告,与Web网站相关的入侵行为呈逐年上升趋势。在所有的安全威胁中,尤其以网站后门为甚。网站后门又被称为Webshell,是一种基于Web服务的后门程序。Webshell危害巨大,如果发现网站已经被植入Webshell后,则意味着攻击者已经利用漏洞掌握了服务器的控制权限。因此检测Webshell对于及时掌握网络安全态势具有及其重要的意义。尽管攻击手段变化无穷,但它们的目的往往是一致的,即窃取,破坏目标数据。 ...
【技术保护点】
1.一种基于命令序列及主动学习算法的webshell检测方法,其特征在于,包括以下步骤:/nS1.将带有webshell标签和正常代码标签的样本作为已标记样本集L,以及将没有标签的样本作为未标记样本集U;/nS2.提取所有样本的特征,即命令序列X
【技术特征摘要】
1.一种基于命令序列及主动学习算法的webshell检测方法,其特征在于,包括以下步骤:
S1.将带有webshell标签和正常代码标签的样本作为已标记样本集L,以及将没有标签的样本作为未标记样本集U;
S2.提取所有样本的特征,即命令序列Xi,i(i∈L∪U)表示第i个样本,并利用simhash算法对命令序列Xi进行规范化处理,将其表示成统一格式的特征Hi;
S3.将L的特征Hi作为输入,利用随机森林算法训练分类器C;
S4.将U的特征Hi作为输入,利用基于最大特征距离的样本选择策略对U进行选择,并将选择出的样本放入待标记样本集S;
S5.利用基于最小估计风险的样本标记策略对S中估计风险值最低的样本进行标记,并将标记后的样本加入L;
S6.更新L和U,并重新对C进行训练,直到U中所有样本被标记完毕;
S7.输出检测结果。
2.如权利要求1所述的方法,其特征在于,S2中的利用simhash算法对命令序列进行规范化处理的具体过程为:首先对命令序列Xi进行分词处理,将其分成多个API函数,其中Xi={opi1,opi2,...opin},n为API函数的数量,opin为调用API函数的命令,并根据导致系统出现安全问题的概率来确定每个API函数的权重,概率越高,权重越大;然后对每个命令都做b位的hash计算和加权,若hash值的第k位为1,则权重wk为正,否则为负;最后将加权后的权重累加和进行归一化处理,得到最终的simhash值Hi。
3.如权利要求2所述的方法,其特征在于,b=6。
4.如权利要求2所述的方法,其特征在于,S4中的最大特征距离为海明距离。
5.如权利要求4所述的方法,其特征在于,S4的具体过程为:首先对未标记样本集U的特征Hi进行两两计算,得到两个样本之间的海明距离,并将其保存在数组中;其次计算数组元素的最大值,并返回最大海明距离指向的样本;最后选择具有最大值的两个样本加入待标记样本集S中。
6.如权利要求2所述的方法,其特征在于,S5的具体过程为:首先将选择出的待标记样本集S...
【专利技术属性】
技术研发人员:陈奋,姚刚,孙晓波,龚利军,陈荣有,
申请(专利权)人:厦门服云信息科技有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。