一种网页后门检测方法和装置、计算机可读存储介质制造方法及图纸

技术编号:20917727 阅读:36 留言:0更新日期:2019-04-20 09:56
本申请公开了一种网页后门检测方法和装置、计算机可读存储介质,所述网页后门检测方法包括:获取网页脚本文件,去除网页脚本文件中的注释信息;提取网页脚本文件的特征向量,所述特征向量包括文件中的各字符串数组的数组元素拼接所得的字符串中最长字符串的长度及所述最长字符串的信息熵;使用预先训练好的随机森林分类器模型对提取的特征向量进行检测,以确定所述网页脚本文件是否为网页后门Webshell文件。本申请通过对文件进行特征向量提取,并通过随机森林分类器模型对提取的特征向量进行检测,能够提高对Webshell脚本文件的检测能力,提高Web服务器的安全性。

A Backdoor Detection Method and Device for Web Pages and Computer Readable Storage Media

This application discloses a web page back door detection method and device, and a computer readable storage medium. The web page back door detection method includes: acquiring web page script files, removing annotation information in web page script files; extracting feature vectors of web page script files, which include the longest word in the string obtained by splicing the array elements of each string array in the file. The length of strings and the information entropy of the longest strings mentioned above are used to detect the extracted feature vectors using a pre-trained random forest classifier model to determine whether the web script file is a web page back door web shell file. By extracting the feature vectors from the documents and detecting the extracted feature vectors through the random forest classifier model, this application can improve the detection ability of Web shell script files and the security of Web servers.

【技术实现步骤摘要】
一种网页后门检测方法和装置、计算机可读存储介质
本专利技术涉及网络安全检测
,尤其涉及一种网页后门检测方法和装置、计算机可读存储介质。
技术介绍
Webshell是以asp、php、jsp、aspx等网页脚本文件形式存在的一种命令执行环境,也叫做网页后门。黑客可以利用Webshell来获取服务器的访问权限,并借助服务器来执行任意的系统命令、对系统上的文件进行增删改查、植入恶意软件或者进一步攻击内网等操作。因此,为了维护网站(Web)服务器的安全性,有必要对Webshell进行检测。现有的Webshell检测技术,通常通过提取脚本文件中的特征代码,通过特征代码匹配的方式进行检测,这种检测方法只能检测已知威胁,对未知威胁的检测能力较差,如果黑客对Webshell脚本文件进行混淆、加密处理,将很难进行有效的检测。
技术实现思路
本专利技术实施例提供了一种网页后门检测方法和装置、计算机可读存储介质,能够提高Webshell检测的准确率。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种网页后门检测方法,包括:获取网页脚本文件,去除网页脚本文件中的注释信息;提取网页脚本文件的特征向量,所述特征向量包括文件中的各字符串数组的数组元素拼接所得的字符串中最长字符串的长度及所述最长字符串的信息熵;使用预先训练好的随机森林分类器模型对提取的特征向量进行检测,以确定所述网页脚本文件是否为网页后门Webshell文件。在一实施例中,所述特征向量还包括以下至少之一:所述文件的信息熵、所述字符串变量长度的均值、所述字符串变量长度的方差、所述文件长度、所述最大字符串变量长度、所述最大字符串的信息熵、所述文件中敏感函数的频率、所述文件中匹配的特征代码段个数。在一实施例中,所述方法之前还包括:获取网页脚本文件样本,提取所述网页脚本文件样本中的特征向量,将提取的特征向量划分为原始训练集和原始测试集;使用所述原始训练集和随机森林算法训练所述随机森林分类器模型;使用所述原始测试集对训练好的所述分类器模型进行验证,并根据预设的评估指标,对所述随机森林分类器模型进行参数调整。在一实施例中,所述使用所述原始训练集和随机森林算法训练所述随机森林分类器模型,包括:从所述原始训练集中进行k轮随机有放回采样,得到k个训练集,每个训练集包括n个所述训练样本,k和n均为自然数;对k个训练集,根据训练集中的训练样本以及所述训练样本的特征向量选择分裂属性,依据分裂属性对训练集进行训练生成决策树;将生成的多棵决策树组成所述随机森林分类器。在一实施例中,所述决策树为分类回归树CART决策树;生成所述决策树时,根据基尼指数选择分裂点进行分裂。在一实施例中,所述预设的评估指标,包括:准确率、检出率、误报率、AUC指标。本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如以上任一项所述的网页后门检测方法的步骤。本专利技术实施例还提供了一种网页后门检测装置,包括处理器及存储器,其中:所述处理器用于执行存储器中存储的程序,以实现如以上任一项所述的网页后门检测方法的步骤。本专利技术实施例还提供了一种网页后门检测装置,包括获取单元、提取单元和检测单元,其中:获取单元,用于获取网页脚本文件,去除网页脚本文件中的注释信息;提取单元,用于提取网页脚本文件的特征向量,所述特征向量包括文件中的各字符串数组的数组元素拼接所得的字符串中最长字符串的长度及所述最长字符串的信息熵;检测单元,用于使用预先训练好的随机森林分类器模型对提取的特征向量进行检测,以确定所述网页脚本文件是否为Webshell文件。在一实施例中,所述提取单元提取的特征向量还包括以下至少之一:所述文件的信息熵、所述字符串变量长度的均值、所述字符串变量长度的方差、所述文件长度、所述最大字符串变量长度、所述最大字符串的信息熵、所述文件中敏感函数的频率、所述文件中匹配的特征代码段个数。本专利技术实施例的技术方案,具有如下有益效果:本专利技术实施例提供的网页后门检测方法和装置、计算机可读存储介质,通过对文件进行特征向量提取,并通过随机森林分类器模型对提取的特征向量进行检测,能够有效地检测出混淆、加密处理后的Webshell脚本文件,提高了Webshell检测的准确率和Web服务器的安全性。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术实施例的一种网页后门检测方法的流程示意图;图2为本专利技术实施例的一种网页后门检测装置的结构示意图;图3为本专利技术实施例的另一种网页后门检测装置的结构示意图;图4为本专利技术实施例的一种随机森林模型训练流程示意图;图5为本专利技术实施例的一种随机森林模型检测流程示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。参考图1,根据本专利技术实施例的一种网页后门检测方法,包括如下步骤:步骤101:获取网页脚本文件,去除网页脚本文件中的注释信息;在本专利技术的一实施例中,所述注释信息为形如“/*······*/”、“//······”这样的无关代码。在本专利技术的一实施例中,所述方法之前还包括:获取网页脚本文件样本,提取所述网页脚本文件样本中的特征向量,将提取的特征向量划分为原始训练集和原始测试集;使用所述原始训练集和随机森林算法训练所述随机森林分类器模型;使用所述原始测试集对训练好的所述随机森林分类器模型进行验证,并根据预设的评估指标,对所述随机森林分类器模型进行参数调整。在该实施例的一示例中,所述将提取的特征向量划分为原始训练集和原始测试集,包括:采用十折交叉检验法,将提取的特征向量随机分成十份,轮流将其中的九份作为原始训练集,剩下的一份作为原始测试集。在该实施例的一示例中,所述使用所述原始训练集和随机森林算法训练所述随机森林分类器模型,包括:从所述原始训练集中进行k轮随机有放回采样,得到k个训练集,每个训练集包括n个所述训练样本,k和n均为自然数;对k个训练集,根据训练集中的训练样本以及所述训练样本的特征向量选择分裂属性,依据分裂属性对训练集进行训练生成决策树;将生成的多棵决策树组成随机森林。在该实施例的一示例中,所述决策树为分类回归树(ClassificationandRegressionTrees,CART)决策树;生成所述决策树时,根据基尼指数选择分裂点进行分裂。需要说明的是,如果训练数据集D根据特征A是否取某一可能值a被分割为D1和D2两部分,则在特征A的条件下,集合D的基尼指数Gini(D)定义为:基尼指数Gini(D)表示集合D的不确定性,基尼指数Gini(D,A)表示经过A=a分割后集合D的不确定性。基尼指数越大,样本的不确定性也就越大。在该实施例的一示例中,所述预设的评估指标,包括:准确率、检出率、误报率、ROC曲线下面积(AreaUnderrocCurve,AUC)指标。需要说明的是,受试者工作特征曲线(ReceiverOperatorCharacteristicC本文档来自技高网...

【技术保护点】
1.一种网页后门检测方法,其特征在于,包括:获取网页脚本文件,去除网页脚本文件中的注释信息;提取网页脚本文件的特征向量,所述特征向量包括文件中的各字符串数组的数组元素拼接所得的字符串中最长字符串的长度及所述最长字符串的信息熵;使用预先训练好的随机森林分类器模型对提取的特征向量进行检测,以确定所述网页脚本文件是否为网页后门Webshell文件。

【技术特征摘要】
1.一种网页后门检测方法,其特征在于,包括:获取网页脚本文件,去除网页脚本文件中的注释信息;提取网页脚本文件的特征向量,所述特征向量包括文件中的各字符串数组的数组元素拼接所得的字符串中最长字符串的长度及所述最长字符串的信息熵;使用预先训练好的随机森林分类器模型对提取的特征向量进行检测,以确定所述网页脚本文件是否为网页后门Webshell文件。2.根据权利要求1所述的方法,其特征在于,所述特征向量还包括以下至少之一:所述文件的信息熵、所述字符串变量长度的均值、所述字符串变量长度的方差、所述文件长度、所述最大字符串变量长度、所述最大字符串的信息熵、所述文件中敏感函数的频率、所述文件中匹配的特征代码段个数。3.根据权利要求1所述的方法,其特征在于,所述方法之前还包括:获取网页脚本文件样本,提取所述网页脚本文件样本中的特征向量,将提取的特征向量划分为原始训练集和原始测试集;使用所述原始训练集和随机森林算法训练所述随机森林分类器模型;使用所述原始测试集对训练好的所述分类器模型进行验证,并根据预设的评估指标,对所述随机森林分类器模型进行参数调整。4.根据权利要求3所述的方法,其特征在于,所述使用所述原始训练集和随机森林算法训练所述随机森林分类器模型,包括:从所述原始训练集中进行k轮随机有放回采样,得到k个训练集,每个训练集包括n个所述训练样本,k和n均为自然数;对k个训练集,根据训练集中的训练样本以及所述训练样本的特征向量选择分裂属性,依据分裂属性对训练集进行训练生成决策树;将生成的多棵决策树组成所述随机森林...

【专利技术属性】
技术研发人员:虎志强
申请(专利权)人:北京兰云科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1