This application discloses a web page back door detection method and device, and a computer readable storage medium. The web page back door detection method includes: acquiring web page script files, removing annotation information in web page script files; extracting feature vectors of web page script files, which include the longest word in the string obtained by splicing the array elements of each string array in the file. The length of strings and the information entropy of the longest strings mentioned above are used to detect the extracted feature vectors using a pre-trained random forest classifier model to determine whether the web script file is a web page back door web shell file. By extracting the feature vectors from the documents and detecting the extracted feature vectors through the random forest classifier model, this application can improve the detection ability of Web shell script files and the security of Web servers.
【技术实现步骤摘要】
一种网页后门检测方法和装置、计算机可读存储介质
本专利技术涉及网络安全检测
,尤其涉及一种网页后门检测方法和装置、计算机可读存储介质。
技术介绍
Webshell是以asp、php、jsp、aspx等网页脚本文件形式存在的一种命令执行环境,也叫做网页后门。黑客可以利用Webshell来获取服务器的访问权限,并借助服务器来执行任意的系统命令、对系统上的文件进行增删改查、植入恶意软件或者进一步攻击内网等操作。因此,为了维护网站(Web)服务器的安全性,有必要对Webshell进行检测。现有的Webshell检测技术,通常通过提取脚本文件中的特征代码,通过特征代码匹配的方式进行检测,这种检测方法只能检测已知威胁,对未知威胁的检测能力较差,如果黑客对Webshell脚本文件进行混淆、加密处理,将很难进行有效的检测。
技术实现思路
本专利技术实施例提供了一种网页后门检测方法和装置、计算机可读存储介质,能够提高Webshell检测的准确率。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种网页后门检测方法,包括:获取网页脚本文件,去除网页脚本文件中的注释信息;提取网页脚本文件的特征向量,所述特征向量包括文件中的各字符串数组的数组元素拼接所得的字符串中最长字符串的长度及所述最长字符串的信息熵;使用预先训练好的随机森林分类器模型对提取的特征向量进行检测,以确定所述网页脚本文件是否为网页后门Webshell文件。在一实施例中,所述特征向量还包括以下至少之一:所述文件的信息熵、所述字符串变量长度的均值、所述字符串变量长度的方差、所述文件长度、所述最大字符串变 ...
【技术保护点】
1.一种网页后门检测方法,其特征在于,包括:获取网页脚本文件,去除网页脚本文件中的注释信息;提取网页脚本文件的特征向量,所述特征向量包括文件中的各字符串数组的数组元素拼接所得的字符串中最长字符串的长度及所述最长字符串的信息熵;使用预先训练好的随机森林分类器模型对提取的特征向量进行检测,以确定所述网页脚本文件是否为网页后门Webshell文件。
【技术特征摘要】
1.一种网页后门检测方法,其特征在于,包括:获取网页脚本文件,去除网页脚本文件中的注释信息;提取网页脚本文件的特征向量,所述特征向量包括文件中的各字符串数组的数组元素拼接所得的字符串中最长字符串的长度及所述最长字符串的信息熵;使用预先训练好的随机森林分类器模型对提取的特征向量进行检测,以确定所述网页脚本文件是否为网页后门Webshell文件。2.根据权利要求1所述的方法,其特征在于,所述特征向量还包括以下至少之一:所述文件的信息熵、所述字符串变量长度的均值、所述字符串变量长度的方差、所述文件长度、所述最大字符串变量长度、所述最大字符串的信息熵、所述文件中敏感函数的频率、所述文件中匹配的特征代码段个数。3.根据权利要求1所述的方法,其特征在于,所述方法之前还包括:获取网页脚本文件样本,提取所述网页脚本文件样本中的特征向量,将提取的特征向量划分为原始训练集和原始测试集;使用所述原始训练集和随机森林算法训练所述随机森林分类器模型;使用所述原始测试集对训练好的所述分类器模型进行验证,并根据预设的评估指标,对所述随机森林分类器模型进行参数调整。4.根据权利要求3所述的方法,其特征在于,所述使用所述原始训练集和随机森林算法训练所述随机森林分类器模型,包括:从所述原始训练集中进行k轮随机有放回采样,得到k个训练集,每个训练集包括n个所述训练样本,k和n均为自然数;对k个训练集,根据训练集中的训练样本以及所述训练样本的特征向量选择分裂属性,依据分裂属性对训练集进行训练生成决策树;将生成的多棵决策树组成所述随机森林...
【专利技术属性】
技术研发人员:虎志强,
申请(专利权)人:北京兰云科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。