一种网页后门检测方法、装置、设备及存储介质制造方法及图纸

技术编号:19745911 阅读:19 留言:0更新日期:2018-12-12 04:51
本说明书实施例提供了一种网页后门检测方法、装置、设备及存储介质。其方法包括:通过监测目标主机与浏览器之间的网络流量获取html文件;从html文件中提取html标签,得到html骨架;利用预先建立的html骨架模型对html骨架进行匹配,html骨架模型是以多个html骨架为样本进行训练得到的;根据匹配结果判断所述html文件是否为网页后门文件。网页后门的变种通常是改变渲染效果等方式实现的,这些改变通常不涉及html骨架的改变,因此,采用本说明书实施例提供的检测方法,可有效对抗网页后门的变种。

【技术实现步骤摘要】
一种网页后门检测方法、装置、设备及存储介质
本说明书实施例涉及网络安全
,尤其涉及一种网页后门检测方法、装置、设备及存储介质。
技术介绍
网页后门是黑客攻击目标主机的常用工具。以Webshell为例,其是以asp(ActiveServerPages,动态目标主机页面)、php(HypertextPreprocessor,超文本预处理器)、jsp(JavaServerPages,Java目标主机页面)或cgi(通用网关接口)等网页文件形式存在的命令执行环境,也可以将其称为一种网页后门。传统的网页后门检测方法主要是通过对已知网页后门文件的特征做出准确描述,进而形成正则表达式,利用正则表达式进行网页后门检测。这种检测方式依赖于人工经验,其灵活性差。而网页后门为避免被识别,出现了各式变种,采用上述传统检测方式难以应对网页后门变种。
技术实现思路
本说明书实施例提供及一种网页后门检测方法、装置、设备及存储介质,较之基于正则表达式的检测方法,其实现方式简单灵活,可有效对抗网页后门变种。第一方面,本说明书实施例提供一种网页后门检测方法,该方法包括:通过监测目标主机与浏览器之间的网络流量获取html(超级文本标记语言)文件;从所述html文件中提取html标签,得到按照在所述html文件中的顺序排列的html标签序列,所述html标签序列构成所述html文件的html骨架;利用预先建立的html骨架模型对所述html骨架进行匹配,所述html骨架模型是以多个html骨架为样本进行训练得到的;根据匹配结果判断所述html文件是否为网页后门文件。可选的,所述html骨架模型是通过提取已知的网页后门文件的html骨架,以所述已知的网页后门文件的html骨架为样本进行训练得到的。可选的,所述匹配结果为匹配度的取值,所述根据匹配结果判断所述html文件是否为网页后门文件,包括:将所述匹配度的取值与设定的阈值进行比较;若所述匹配度的取值超过设定的阈值,判断所述html文件为网页后门文件。可选的,若所述匹配度的取值未超过设定的阈值,该方法还包括:提取所述html文件中标签的属性信息,标签的属性信息包括标签的属性和属性值;利用预先建立的属性信息模型分别对所述标签的属性信息进行匹配;根据匹配结果判断所述html文件是否为网页后门文件;或者,对所述html文件进行分段处理,得到多个html片段;利用预先建立的片段哈希模型分别对每个html片段进行匹配;根据匹配结果判断所述html文件是否为网页后门文件。基于上述任意方法实施例,可选的,所述利用预先建立的html骨架模型对所述html骨架进行匹配之前,该方法还包括:按照预定的规则将html标签中的特定字符串替换为标准字符串;建立所述html骨架模型时,按照所述预定的规则将作为样本的html骨架中的html标签中的特定字符串替换为标准字符串。第二方面,本说明书实施例提供一种网页后门检测装置,包括:Html文件获取模块,用于通过监测目标主机与浏览器之间的网络流量获取html文件;Html骨架提取模块,用于从所述html文件中提取html标签,得到按照在所述html文件中的顺序排列的html标签序列,所述html标签序列构成所述html文件的html骨架;模型匹配模块,用于利用预先建立的html骨架模型对所述html骨架进行匹配,所述html骨架模型是以多个html骨架为样本进行训练得到的;网页后门检测模块,用于根据匹配结果判断所述html文件是否为网页后门文件。可选的,所述html骨架模型是通过提取已知的网页后门文件的html骨架,以所述已知的网页后门文件的html骨架为样本进行训练得到的。可选的,所述网页后门检测模块用于:将所述匹配度的取值与设定的阈值进行比较;若所述匹配度的取值超过设定的阈值,判断所述html文件为网页后门文件。可选的,若所述匹配度的取值未超过设定的阈值,还包括第二检测模块,用于:提取所述html文件中各个标签的属性信息,标签的属性信息包括标签的属性和属性值;利用预先建立的属性信息模型分别对每个标签的属性信息进行匹配;根据匹配结果判断所述html文件是否为网页后门文件;或者,对所述html文件进行分段处理,得到多个html片段;利用预先建立的片段哈希模型分别对每个html片段进行匹配;根据匹配结果判断所述html文件是否为网页后门文件。第三方面,本说明书实施例提供一种网页后门检测设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:通过监测目标主机与浏览器之间的网络流量获取html文件;从所述html文件中提取html标签,得到按照在所述html文件中的顺序排列的html标签序列,所述html标签序列构成所述html文件的html骨架;利用预先建立的html骨架模型对所述html骨架进行匹配,所述html骨架模型是以多个html骨架为样本进行训练得到的;根据匹配结果判断所述html文件是否为网页后门文件。第四方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:通过监测目标主机与浏览器之间的网络流量获取html文件;从所述html文件中提取html标签,得到按照在所述html文件中的顺序排列的html标签序列,所述html标签序列构成所述html文件的html骨架;利用预先建立的html骨架模型对所述html骨架进行匹配,所述html骨架模型是以多个html骨架为样本进行训练得到的;根据匹配结果判断所述html文件是否为网页后门文件。本说明书实施例有益效果如下:专利技术人在实现本专利技术的过程中,通过创造性劳动发现:网页后门文件的html骨架与正常的html骨架不同,即网页后门文件的html标签排序方式区别于正常的html标签排序方式,且有迹可循。因此,可以通过训练html骨架得到html骨架模型,进而对待识别的html文件的html骨架进行模型匹配,从而判断该html文件是否为网页后门文件,实现了网页后门的识别。另外,网页后门的变种通常是改变渲染效果等方式实现的,这些改变通常不涉及html骨架的改变,因此,采用本说明书实施例提供的检测方法,可有效对抗网页后门的变种。附图说明图1为本说明书实施例提供的应用场景示意图;图2为本说明书实施例第一方面的方法流程图;图3为本说明书实施例第二方面的装置示意图。具体实施方式为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。本说明书实施例提供的技术方案应用于网络的流量层,可以在网关处实现,也可以在具备网关功能的设备上实现,还可以在任何能够监测到网络流量的设备上实现。以在网关上采用本说明书实施例提供的方法为例,如图1所示,网关101监测目标主机102与浏览器103之间的网络流量,从中获取html文件,即以开始标签<html>开始,以结束标签</html>本文档来自技高网...

【技术保护点】
1.一种网页后门检测方法,其特征在于,包括:通过监测目标主机与浏览器之间的网络流量获取超级文本标记语言html文件;从所述html文件中提取html标签,得到按照在所述html文件中的顺序排列的html标签序列,所述html标签序列构成所述html文件的html骨架;利用预先建立的html骨架模型对所述html骨架进行匹配,所述html骨架模型是以多个html骨架为样本进行训练得到的;根据匹配结果判断所述html文件是否为网页后门文件。

【技术特征摘要】
1.一种网页后门检测方法,其特征在于,包括:通过监测目标主机与浏览器之间的网络流量获取超级文本标记语言html文件;从所述html文件中提取html标签,得到按照在所述html文件中的顺序排列的html标签序列,所述html标签序列构成所述html文件的html骨架;利用预先建立的html骨架模型对所述html骨架进行匹配,所述html骨架模型是以多个html骨架为样本进行训练得到的;根据匹配结果判断所述html文件是否为网页后门文件。2.根据权利要求1所述的方法,其特征在于,所述html骨架模型是通过提取已知的网页后门文件的html骨架,以所述已知的网页后门文件的html骨架为样本进行训练得到的。3.根据权利要求1所述的方法,其特征在于,所述匹配结果为匹配度的取值,所述根据匹配结果判断所述html文件是否为网页后门文件,包括:将所述匹配度的取值与设定的阈值进行比较;若所述匹配度的取值超过设定的阈值,判断所述html文件为网页后门文件。4.根据权利要求3所述的方法,其特征在于,若所述匹配度的取值未超过设定的阈值,该方法还包括:提取所述html文件中标签的属性信息,所述标签的属性信息包括标签的属性和属性值;利用预先建立的属性信息模型分别对所述标签的属性信息进行匹配;根据匹配结果判断所述html文件是否为网页后门文件;或者,对所述html文件进行分段处理,得到多个html片段;利用预先建立的片段哈希模型分别对每个html片段进行匹配;根据匹配结果判断所述html文件是否为网页后门文件。5.根据权利要求1~4任一项所述的方法,其特征在于,所述利用预先建立的html骨...

【专利技术属性】
技术研发人员:张鑫王凯平
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1