【技术实现步骤摘要】
一种Webshell文件检测方法、装置、电子设备及存储介质
本专利技术涉及信息安全领域
,尤其涉及一种Webshell文件检测方法、装置、电子设备及存储介质。
技术介绍
Webshell是一种以ASP、PHP和JSP等网页文件形式存在的命令执行环境。入侵者可以通过XSS、sql注入等手段获得上传权限,再将包含Webshell的网页文件上传至服务器,之后入侵者可以访问该网页文件,通过Webshell获得更高的权限,以达到控制服务器的目的。根据Webshell的大小和功能,可以将Webshell分成大马、小马和一句话木马。大马功能全面,一般包括提权命令、数据库连接、磁盘管理等功能,入侵者可以进行文件和数据库的删除和修改,或执行一些命令等;小马体积小、隐蔽性强,所拥有的功能较少,通常只能用于文件上传以及为数据库提权;一句话木马是指仅由一行代码完成的可动态接收脚本指令并执行的脚本木马,多用于代码执行一些关键函数,由于该木马通常被插入原有的正常文件中,代码量极小,因而隐蔽性强,不易被检测发现。传统的Webshel ...
【技术保护点】
1.一种Webshell文件检测方法,其特征在于,所述方法包括:/n将待检测的文件对应的第一字符串拆分为多个第一词组,其中每个第一词组包括至少两个单词;/n确定每个第一词组在所述第一字符串中出现的次数,以及所述文件的总词组数;/n针对每个第一词组,根据该第一词组在所述第一字符串中出现的次数,及所述文件的总词组数,确定该第一词组的第一参数;并根据保存的样本文件数及所述文件,确定文件总数量,根据所述文件总数量,及包含该第一词组的文件数量,确定该第一词组的第二参数;/n根据预设的矩阵中每个预测词组的位置,确定所述文件对应的目标矩阵,其中所述目标矩阵中与所述每个预测词组对应的该第一 ...
【技术特征摘要】
1.一种Webshell文件检测方法,其特征在于,所述方法包括:
将待检测的文件对应的第一字符串拆分为多个第一词组,其中每个第一词组包括至少两个单词;
确定每个第一词组在所述第一字符串中出现的次数,以及所述文件的总词组数;
针对每个第一词组,根据该第一词组在所述第一字符串中出现的次数,及所述文件的总词组数,确定该第一词组的第一参数;并根据保存的样本文件数及所述文件,确定文件总数量,根据所述文件总数量,及包含该第一词组的文件数量,确定该第一词组的第二参数;
根据预设的矩阵中每个预测词组的位置,确定所述文件对应的目标矩阵,其中所述目标矩阵中与所述每个预测词组对应的该第一词组处的第一数值,根据所述第一参数和所述第二参数确定;
将所述目标矩阵输入到预先训练完成的XGBoost模型中,确定所述文件是否为Webshell文件。
2.如权利要求1所述的方法,其特征在于,所述XGBoost模型的训练过程包括:
针对样本文件集合中的每个样本文件,将该样本文件对应的第二字符串拆分为多个第二词组,其中每个第二词组包括至少两个单词;确定每个第二词组在该第二字符串中出现的次数,以及该样本文件的总词组数;针对每个第二词组,根据该第二词组在该第二字符串中出现的次数,及样本文件集合的总词组数,确定该第二词组的第三参数;并根据样本文件集合的中包含的样本文件的总数量,及包含该第二词组的样本文件数量,确定该第二词组的第四参数;根据预设的矩阵中每个预测词组的位置,确定该样本文件对应的训练子矩阵,其中所述训练子矩阵中与所述每个预测词组对应的该第二词组处的第二数值,根据所述第三参数和所述第四参数确定;
根据每个样本文件对应的训练子矩阵,确定样本文件集合对应的训练矩阵;
根据所述训练矩阵及预先标注的样本文件集合中每个样本是否为Webshell文件的标识信息,对所述XGBoost模型进行训练。
3.如权利要求1所述的方法,其特征在于,所述将待检测的文件对应的第一字符串拆分为多个第一词组之前,所述方法还包括:
将待检测的文件对应的字符串去除表示回车换行的字符,得到所述第一字符串。
4.如权利要求1所述的方法,其特征在于,所述根据所述文件总数量,及包含该第一词组的文件数量,确定该第一词组的第二参数包括:
根据确定第一词组的第二参数,其中,IDF为该第一词组的第二参数。
5.如权利要求1所述的方法,其特征在于,所述根据所述第一参数和所述第二参数确定第一数值包括:
将所述第一参数和所述第二参数的积确定为第一数值。
6.一种Webshell文件检测装置,其特征在于,所述装置包括:
拆分模块,用于将待检测的文件对应的第一字符串拆分为多个第一词组,其中每个第一词组包括至少两个单词;
第一确定模块,用于确定每个第一词组在所述第一字符串中出现的次数,以及所述文件的总词组数;
第二确定模块,用于针对每个第一词组,根据该第一词组在所述第一字符串中出现的次数,及所述文件的总词组数,确定该第一词组的第一参数;并根据保存的样本文件数及所述文件,确定文件总数量,根据所述文件总数量,及包含该第一词组的文件数量,确定该第一词组的第二参数;
第三确定模块,用于根据预设的矩阵中每个预测词组的位置,确定所述文件对应的目标矩阵,其...
【专利技术属性】
技术研发人员:徐迪,
申请(专利权)人:中移杭州信息技术有限公司,中国移动通信集团有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。