一种网页后门检测方法、装置、设备及存储介质制造方法及图纸

技术编号:19635435 阅读:21 留言:0更新日期:2018-12-01 16:06
本说明书实施例提供了一种网页后门检测方法、装置、设备及存储介质。其方法包括:通过监测目标主机与浏览器之间的网络流量获取超级文本标记语言html文件;对所述html文件进行分段处理,得到多个html片段;利用预先建立的片段哈希模型分别对每个html片段进行匹配;根据匹配结果判断所述html文件是否为网页后门文件。网页后门的变种通常是改变渲染效果等方式实现的,这些改变通常不涉及html片段匹配数量的改变,因此,采用本说明书实施例提供的检测方法,可有效对抗网页后门的变种。

A Backdoor Detection Method, Device, Equipment and Storage Medium for Web Pages

The embodiment of this specification provides a web page back door detection method, device, device and storage medium. The methods include: obtaining HTml files by monitoring the network traffic between the target host and browser; segmenting the HTML files to obtain multiple HTML fragments; matching each HTML fragment with the pre-established fragment hash model; judging the HTML text according to the matching results Does the file belong to the back door of the web page? Variations of the back door of a web page are usually achieved by changing the rendering effect, and these changes usually do not involve changes in the number of HTML fragments matched. Therefore, the detection method provided in the embodiments of this specification can effectively combat variations of the back door of a web page.

【技术实现步骤摘要】
一种网页后门检测方法、装置、设备及存储介质
本说明书实施例涉及网络安全
,尤其涉及一种网页后门检测方法、装置、设备及存储介质。
技术介绍
网页后门是黑客攻击目标主机的常用工具。以Webshell为例,其是以asp(ActiveServerPages,动态目标主机页面)、php(HypertextPreprocessor,超文本预处理器)、jsp(JavaServerPages,Java目标主机页面)或cgi(通用网关接口)等网页文件形式存在的命令执行环境,也可以将其称为一种网页后门。传统的网页后门检测方法主要是通过对已知网页后门文件的特征做出准确描述,进而形成正则表达式,利用正则表达式进行网页后门检测。这种检测方式依赖于人工经验,其灵活性差。而网页后门为避免被识别,出现了各式变种,采用上述传统检测方式难以应对网页后门变种。
技术实现思路
本说明书实施例提供及一种网页后门检测方法、装置、设备及存储介质,较之基于正则表达式的检测方法,其实现方式简单灵活,可有效对抗网页后门变种。第一方面,本说明书实施例提供一种网页后门检测方法,该方法包括:通过监测目标主机与浏览器之间的网络流量获取html(超级文本标记语言)文件;对所述html文件进行分段处理,得到多个html片段;利用预先建立的片段哈希模型分别对每个html片段进行匹配;根据匹配的html片段数量判断所述html文件是否为网页后门文件。可选的,所述片段哈希模型是通过对已知的网页后门文件进行分段处理,以所述已知的网页后门文件的html片段为样本进行训练得到的。可选的,所述根据匹配的html片段数量判断所述html文件是否为网页后门文件,包括:将命中率与设定的阈值进行比较,所述命中率为匹配的html片段数量与html片段总数的比值;若所述命中率超过设定的阈值,判断所述html文件为网页后门文件。可选的,所述根据匹配的html片段数量判断所述html文件是否为网页后门文件之前,该方法还包括:根据所述html片段总数调整所述阈值,所述html片段总数越高,所述阈值越低。可选的,若所述匹配度的取值未超过设定的阈值,该方法还包括:提取所述html文件中各个标签的属性信息,标签的属性信息包括标签的属性和属性值;利用预先建立的属性信息模型分别对每个标签的属性信息进行匹配;根据匹配结果判断所述html文件是否为网页后门文件;或者,从所述html文件中提取html标签,得到按照在所述html文件中的顺序排列的html标签序列,所述html标签序列构成所述html文件的html骨架;利用预先建立的html骨架模型对所述html骨架进行匹配,所述html骨架模型是以多个html骨架为样本进行训练得到的;根据匹配结果判断所述html文件是否为网页后门文件。基于上述任意方法实施例,可选的,所述利用预先建立的片段哈希模型分别对每个html片段进行匹配之前,该方法还包括:按照预定的规则将html文件中的特定字符串替换为标准字符串;建立所述片段哈希模型时,按照所述预定的规则将作为样本的html片段中的特定字符串替换为标准字符串。基于上述任意方法实施例,可选的,所述对所述html文件进行分段处理,得到多个html片段,包括:对所述html文件进行分段处理,并删除设定的通用html片段,得到多个html片段。基于上述任意方法实施例,可选的,所述对所述html文件进行分段处理,得到多个html片段,包括:以大于号为分段标识,对所述html文件进行分段处理,得到多个html片段。第二方面,本说明书实施例提供一种网页后门检测装置,包括:Html文件获取模块,用于通过监测目标主机与浏览器之间的网络流量获取html文件;Html分段模块,用于对所述html文件进行分段处理,得到多个html片段;模型匹配模块,用于利用预先建立的片段哈希模型分别对每个html片段进行匹配;网页后门检测模块,用于根据匹配的html片段数量判断所述html文件是否为网页后门文件。可选的,所述片段哈希模型是通过对已知的网页后门文件进行分段处理,以所述已知的网页后门文件的html片段为样本进行训练得到的。可选的,所述网页后门检测模块用于:将命中率与设定的阈值进行比较,所述命中率为匹配的html片段数量与html片段总数的比值;若所述命中率超过设定的阈值,判断所述html文件为网页后门文件。可选的,还包括阈值调整模块,用于根据所述html片段总数调整所述阈值,所述html片段总数越高,所述阈值越低。可选的,若所述命中率未超过设定的阈值,还包括第二检测模块,用于:提取所述html文件中各个标签的属性信息,标签的属性信息包括标签的属性和属性值;利用预先建立的属性信息模型分别对每个标签的属性信息进行匹配;根据匹配结果判断所述html文件是否为网页后门文件;或者,从所述html文件中提取html标签,得到按照在所述html文件中的顺序排列的html标签序列,所述html标签序列构成所述html文件的html骨架;利用预先建立的html骨架模型对所述html骨架进行匹配,所述html骨架模型是以多个html骨架为样本进行训练得到的;根据匹配结果判断所述html文件是否为网页后门文件。基于上述任意装置实施例,可选的,还包括预处理模块:按照预定的规则将html文件中的特定字符串替换为标准字符串;建立所述片段哈希模型时,按照所述预定的规则将作为样本的html片段中的特定字符串替换为标准字符串。基于上述任意装置实施例,可选的,所述html分段模块用于:对所述html文件进行分段处理,并删除设定的通用html片段,得到多个html片段。基于上述任意装置实施例,可选的,所述html分段模块用于:以大于号为分段标识,对所述html文件进行分段处理,得到多个html片段。第三方面,本说明书实施例提供一种网页后门检测设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:通过监测目标主机与浏览器之间的网络流量获取超级文本标记语言html文件;对所述html文件进行分段处理,得到多个html片段;利用预先建立的片段哈希模型分别对每个html片段进行匹配;根据匹配的html片段数量判断所述html文件是否为网页后门文件。第四方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:通过监测目标主机与浏览器之间的网络流量获取超级文本标记语言html文件;对所述html文件进行分段处理,得到多个html片段;利用预先建立的片段哈希模型分别对每个html片段进行匹配;根据匹配的html片段数量判断所述html文件是否为网页后门文件。本说明书实施例有益效果如下:专利技术人在实现本专利技术的过程中,通过创造性劳动发现:网页后门文件的html片段与正常的html片段不同,且有迹可循。因此,可以通过训练html片段得到片段哈希模型,进而对待识别的html文件的html片段进行模型匹配,从而判断该heml文件是否为网页后门文件,实现了网页后门的识别。另外,网页后门的变种通常是改变渲染效果等方式实现的,这些改变通常不影响匹配的html片段的数量,因此,采用本说明书实施例提供的检本文档来自技高网...

【技术保护点】
1.一种网页后门检测方法,其特征在于,包括:通过监测目标主机与浏览器之间的网络流量获取超级文本标记语言html文件;对所述html文件进行分段处理,得到多个html片段;利用预先建立的片段哈希模型分别对每个html片段进行匹配;根据匹配的html片段数量判断所述html文件是否为网页后门文件。

【技术特征摘要】
1.一种网页后门检测方法,其特征在于,包括:通过监测目标主机与浏览器之间的网络流量获取超级文本标记语言html文件;对所述html文件进行分段处理,得到多个html片段;利用预先建立的片段哈希模型分别对每个html片段进行匹配;根据匹配的html片段数量判断所述html文件是否为网页后门文件。2.根据权利要求1所述的方法,其特征在于,所述片段哈希模型是通过对已知的网页后门文件进行分段处理,以所述已知的网页后门文件的html片段为样本进行训练得到的。3.根据权利要求2所述的方法,其特征在于,所述根据匹配的html片段数量判断所述html文件是否为网页后门文件,包括:将命中率与设定的阈值进行比较,所述命中率为匹配的html片段数量与html片段总数的比值;若所述命中率超过设定的阈值,判断所述html文件为网页后门文件。4.根据权利要求3所述的方法,其特征在于,所述根据匹配的html片段数量判断所述html文件是否为网页后门文件之前,该方法还包括:根据所述html片段总数调整所述阈值,所述html片段总数越高,所述阈值越低。5.根据权利要求3所述的方法,其特征在于,若所述匹配度的取值未超过设定的阈值,该方法还包括:提取所述html文件中各个标签的属性信息,标签的属性信息包括标签的属性和属性值;利用预先建立的属性信息模型分别对每个标签的属性信息进行匹配;根据匹配结果判断所述html文件是否为网页后门文件;或者,从所述html文件中提取html标签,得到按照在所述html文件中的顺序排列的html标签序列,所述html标签序列构成所述h...

【专利技术属性】
技术研发人员:张鑫
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1