网页后门的检测方法、装置和计算机设备制造方法及图纸

技术编号:22102134 阅读:29 留言:0更新日期:2019-09-14 03:24
本申请提出了一种网页后门的检测方法、装置和计算机设备,其中,上述网页后门的检测方法包括:获取待检测文件;从所述待检测文件的源文件中提取操作码;从所述操作码中提取N元模型特征,以所述N元模型特征作为所述操作码的特征向量;将所述操作码的特征向量输入预先训练的卷积神经网络模型进行分类,获得所述待检测文件是否包括网页后门的分类结果。本申请可以通过卷积神经网络对网页后门进行检测,提高网页后门检测的准确度,并且实现简单,对系统性能的影响较小。

Inspection methods, devices and computer equipment for back doors of web pages

【技术实现步骤摘要】
网页后门的检测方法、装置和计算机设备
本申请涉及网络安全
,尤其涉及一种网页后门的检测方法、装置和计算机设备。
技术介绍
Web,全名WorldWideWeb,即全球广域网,通俗称呼为网站,是一种基于超文本和超文本传输协议(HyperTextTransferProtocol;以下简称:HTTP)的、全球性的、动态交互的、跨平台的分布式图形信息系统。WebShell就是以动态服务器页面(ActiveServerPages;以下简称:ASP)、超文本预处理器(HypertextPreprocessor;以下简称:PHP)、Java服务器页面(JavaServerPages;以下简称:JSP)或者公共网关接口(CommonGatewayInterface;以下简称:CGI)等网页文件形式存在的一种命令执行环境,也可以将其称作为一种网页后门。现有相关技术中,通常采用静态检测方案、动态检测方案、日志分析方案和统计学分析方案对Webshell进行检测,由于业务系统更新频繁,Web脚本文件相关的属性经常发生变化,所以偏重于文件属性检测的方法往往会产生更多的误报。基于动态行为检测的方法往往技术难度较大,难以实现,而且对系统造成的性能影响较大,甚至可能对系统稳定性造成影响。基于日志的检测方法,一方面由于业务功能较多且复杂,部分功能可能很少会被用到,其日志访问可能会命中某些检测规则,从而造成更多的误报,另一方面大量的日志记录处理起来会对服务器性能产生负担,而且由于日志量巨大检测过程消耗时间长,检测速度较慢。而窃密型WebShell后门往往会模拟正常的数据库操作,不具有较为明显静态特殊属性,被访问的次数比较少无法形成较为明显的访问特征,通过日志分析也很难发现。
技术实现思路
本申请实施例提供了一种网页后门的检测方法、装置和计算机设备,以通过卷积神经网络对网页后门进行检测,提高网页后门检测的准确度,并且实现简单,对系统性能的影响较小。第一方面,本申请实施例提供了一种网页后门的检测方法,包括:获取待检测文件;从所述待检测文件的源文件中提取操作码;从所述操作码中提取N元模型特征,以所述N元模型特征作为所述操作码的特征向量;将所述操作码的特征向量输入预先训练的卷积神经网络模型进行分类,获得所述待检测文件是否包括网页后门的分类结果。其中一种可能的实现方式中,所述从所述待检测文件的源文件中提取操作码包括:利用所述待检测文件的源文件的解释器,将所述待检测文件的源代码转换为对应的操作码。其中一种可能的实现方式中,所述从所述操作码中提取N元模型特征包括:利用N-Gram模型从所述操作码中提取N元模型特征。其中一种可能的实现方式中,所述将所述操作码的特征向量输入预先训练的卷积神经网络模型进行分类,获得所述待检测文件是否包括网页后门的分类结果之前,还包括:收集预定数量的网页文件的源文件作为样本数据;对所述样本数据中属于网页后门的源文件和不属于网页后门的源文件进行标注;从标注后的样本数据中提取所述样本数据的操作码;从所述样本数据的操作码中提取N元模型特征,以提取的N元模型特征作为所述样本数据的操作码的样本特征向量;将所述样本特征向量划分为训练集和测试集;将所述训练集中的样本特征向量输入待训练的卷积神经网络模型进行训练,获得训练结果模型;将所述测试集中的样本特征向量输入所述训练结果模型进行递归训练,当所述训练结果模型输出的分类结果与所述测试集中的样本特征向量的标注信息的误差在预定范围内时,获得训练好的卷积神经网络模型,所述训练结果模型输出的分类结果为所述测试集中的样本特征向量是否包括网页后门的分类结果。其中一种可能的实现方式中,所述对所述样本数据中属于网页后门的源文件和不属于网页后门的源文件进行标注之前,还包括:对所述样本数据进行预处理,所述预处理包括以下之一或组合:过滤所述样本数据中不符合待训练的卷积神经网络模型所要求的数据规则的数据、对所述样本数据中的敏感数据进行脱敏和对所述样本数据进行格式化处理。第二方面,本申请实施例提供一种网页后门的检测装置,包括:获取模块,用于获取待检测文件;提取模块,用于从所述获取模块获取的待检测文件的源文件中提取操作码;以及从所述操作码中提取N元模型特征,以所述N元模型特征作为所述操作码的特征向量;检测模块,用于将所述提取模块提取的所述操作码的特征向量输入预先训练的卷积神经网络模型进行分类,获得所述待检测文件是否包括网页后门的分类结果。其中一种可能的实现方式中,所述提取模块,具体用于利用所述待检测文件的源文件的解释器,将所述待检测文件的源代码转换为对应的操作码。其中一种可能的实现方式中,所述提取模块,具体用于利用N-Gram模型从所述操作码中提取N元模型特征。其中一种可能的实现方式中,所述网页后门的检测装置还包括:收集模块、标注模块、划分模块和训练模块;所述收集模块,用于在所述检测模块将所述操作码的特征向量输入预先训练的卷积神经网络模型进行分类,获得所述待检测文件是否包括网页后门的分类结果之前,收集预定数量的网页文件的源文件作为样本数据;所述标注模块,用于对所述收集模块收集的样本数据中属于网页后门的源文件和不属于网页后门的源文件进行标注;所述提取模块,还用于从所述标注模块标注后的样本数据中提取所述样本数据的操作码;以及从所述样本数据的操作码中提取N元模型特征,以提取的N元模型特征作为所述样本数据的操作码的样本特征向量;所述划分模块,用于将所述样本特征向量划分为训练集和测试集;所述训练模块,用于将所述训练集中的样本特征向量输入待训练的卷积神经网络模型进行训练,获得训练结果模型;以及将所述测试集中的样本特征向量输入所述训练结果模型进行递归训练,当所述训练结果模型输出的分类结果与所述测试集中的样本特征向量的标注信息的误差在预定范围内时,获得训练好的卷积神经网络模型,所述训练结果模型输出的分类结果为所述测试集中的样本特征向量是否包括网页后门的分类结果。其中一种可能的实现方式中,所述网页后门的检测装置还包括:预处理模块,用于在所述标注模块对所述样本数据中属于网页后门的源文件和不属于网页后门的源文件进行标注之前,对所述样本数据进行预处理,所述预处理包括以下之一或组合:过滤所述样本数据中不符合待训练的卷积神经网络模型所要求的数据规则的数据、对所述样本数据中的敏感数据进行脱敏和对所述样本数据进行格式化处理。第三方面,本申请实施例提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上所述的方法。第四方面,本申请实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。以上技术方案中,获取待检测文件之后,从上述待检测文件的源文件中提取操作码,然后从上述操作码中提取N元模型特征,以上述N元模型特征作为上述操作码的特征向量,最后将上述操作码的特征向量输入预先训练的卷积神经网络模型进行分类,获得上述待检测文件是否包括网页后门的分类结果,从而可以通过卷积神经网络对网页后门进行检测,提高网页后门检测的准确度,并且实现简单,对系统性能的影响较小。【附图说明】为了更清楚地说明本申请实施例的技本文档来自技高网
...

【技术保护点】
1.一种网页后门的检测方法,其特征在于,包括:获取待检测文件;从所述待检测文件的源文件中提取操作码;从所述操作码中提取N元模型特征,以所述N元模型特征作为所述操作码的特征向量;将所述操作码的特征向量输入预先训练的卷积神经网络模型进行分类,获得所述待检测文件是否包括网页后门的分类结果。

【技术特征摘要】
1.一种网页后门的检测方法,其特征在于,包括:获取待检测文件;从所述待检测文件的源文件中提取操作码;从所述操作码中提取N元模型特征,以所述N元模型特征作为所述操作码的特征向量;将所述操作码的特征向量输入预先训练的卷积神经网络模型进行分类,获得所述待检测文件是否包括网页后门的分类结果。2.根据权利要求1所述的方法,其特征在于,所述从所述待检测文件的源文件中提取操作码包括:利用所述待检测文件的源文件的解释器,将所述待检测文件的源代码转换为对应的操作码。3.根据权利要求1所述的方法,其特征在于,所述从所述操作码中提取N元模型特征包括:利用N-Gram模型从所述操作码中提取N元模型特征。4.根据权利要求1-3任意一项所述的方法,其特征在于,所述将所述操作码的特征向量输入预先训练的卷积神经网络模型进行分类,获得所述待检测文件是否包括网页后门的分类结果之前,还包括:收集预定数量的网页文件的源文件作为样本数据;对所述样本数据中属于网页后门的源文件和不属于网页后门的源文件进行标注;从标注后的样本数据中提取所述样本数据的操作码;从所述样本数据的操作码中提取N元模型特征,以提取的N元模型特征作为所述样本数据的操作码的样本特征向量;将所述样本特征向量划分为训练集和测试集;将所述训练集中的样本特征向量输入待训练的卷积神经网络模型进行训练,获得训练结果模型;将所述测试集中的样本特征向量输入所述训练结果模型进行递归训练,当所述训练结果模型输出的分类结果与所述测试集中的样本特征向量的标注信息的误差在预定范围内时,获得训练好的卷积神经网络模型,所述...

【专利技术属性】
技术研发人员:李坤
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1