一种基于静态域的恶意网页识别检测方法、计算机及存储介质技术

技术编号:33139895 阅读:43 留言:0更新日期:2022-04-22 13:49
本发明专利技术提出一种基于静态域的恶意网页识别检测方法、计算机及存储介质,属于网页识别检测技术领域。包括步骤一、实时监听网页流量,提取HTTP头部的URL地址;步骤二、将URL地址与黑名单库中存储的URL地址进行匹配;步骤三、解析匹配失败的网页流量;步骤四、爬取解析后的网页流量中的JS、CSS文件;步骤五、提取目标网页的网页指纹;步骤六、识别网页流量;步骤七、比较两个网页的URL地址;若URL地址相同,说明流量中的网页为正常网页,保存匹配日志;若URL地址不同,说明流量中的网页为恶意网页,进行阻断。解决不能适用于实际应用中实时检测的需要的技术问题。实现了降低网页匹配过程的时间成本的技术效果。成本的技术效果。成本的技术效果。

【技术实现步骤摘要】
一种基于静态域的恶意网页识别检测方法、计算机及存储介质


[0001]本申请涉及一种检测方法,尤其涉及一种基于静态域的恶意网页识别检测方法、计算机及存储介质,属于网页识别检测


技术介绍

[0002]钓鱼攻击是通过社会工程学或技术手段窃取用户隐私数据的网络犯罪行为,近些年,许多不法分子通过搭建恶意网站来从事非法活动,并利用各种手段(如URL混淆等)来增加网页的隐蔽性,使得传统防御检测技术失效。
[0003]网页指纹是根据响应报文首部的键值对和网页文档中提取出来的一系列特殊元素(标签、属性等)经过hash运算计算产生的字节序列。网页识别是从网页候选库中识别出与目标网页最匹配的网页。
[0004]基于网页指纹的网页去重算法。算法执行时,首先对被检测网页进行预处理,除噪等,保留网页的纯文本信息,对纯文本信息进行归一化处理,提取关键词及其位置向量,构成网页指纹,然后比较指纹库与被检测网页的相似度判断是否为重复网页。
[0005]基于机器学习的检测方法。将钓鱼网站的识别看做文本分类或聚类的问题,利用URL构成词汇、DNS和Whois信息对网页进行检测,应用机器学习方法对网页的性质进行判断。
[0006]基于网页指纹的去重算法中采用的指纹是由从网页中提取出的特征关键词和其位置向量构成的,而特征词是由网页中的纯文本信息提取出来的,如果文本规模过大可能导致指纹在存储过程中占用过多的空间资源;只考虑页面上显示的纯文本信息过于片面,该算法中提出的网页指纹提取技术只适用于网页中包含大量文本内容的网页识别,不具备普适性。
[0007]基于机器学习的检测方法中,机器学习方法需要的特征提取以及模型训练需要耗费大量的资源,不能适用于实际应用中实时检测的需要。

技术实现思路

[0008]在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
[0009]鉴于此,为解决现有技术中存在的不能适用于实际应用中实时检测的需要的技术问题,本专利技术提供一种基于静态域的恶意网页识别检测方法、计算机及存储介质。
[0010]方案一:本专利技术提供了一种基于静态域的恶意网页识别检测方法,包括以下步骤:
[0011]步骤一、实时监听网页流量,提取HTTP头部的URL地址;
[0012]步骤二、将步骤一所述URL地址与黑名单库中存储的URL地址进行匹配;若匹配成
功,则对流量进行阻断,若匹配失败执行步骤三;
[0013]步骤三、解析匹配失败的网页流量;
[0014]步骤四、爬取解析后的网页流量中的JS、CSS文件;
[0015]步骤五、提取目标网页的网页指纹;
[0016]步骤六、识别网页流量;若识别成功,执行步骤七,若识别失败执行步骤一;
[0017]步骤七、比较两个网页的URL地址;若URL地址相同,说明流量中的网页为正常网页,保存匹配日志;若URL地址不同,说明流量中的网页为恶意网页,进行阻断。
[0018]优选的,步骤三所述解析匹配失败的网页流量的具体方法是,包括以下步骤:
[0019]步骤三一、从响应报文中提取网页源代码;
[0020]步骤三二、顺序读取输入的源代码字符串,调用递归算法解析字符串,初始父节点为空;
[0021]步骤三三、每解析到一个开始标签或文本时,为该标签或文本节点设置为父节点,同时将该节点添加到父节点的孩子列表中;
[0022]步骤三四、解析提取标签节点属性和值,文本节点的文本信息;
[0023]步骤三五、解析到结束标签时返回,直到解析完所有输入的字符串,获得完整的DOM结构。
[0024]具体的,完整的DOM结构为步骤五提供提取网页指纹的数据输入。
[0025]优选的,步骤四所述爬取解析后的网页流量中的JS、CSS文件的具体方法是,包括以下步骤:
[0026]步骤四一、通过HTTP库向目标站点发起请求,即发送一个Request;
[0027]步骤四二、接收服务端返回的响应内容;
[0028]步骤四三、解析内容,存储解析出的JS,CSS资源,作为网页特征。
[0029]优选的,步骤五所述提取目标网页的网页指纹的具体方法是,包括提取响应报文首部、HTML DOM树head子树、HTML DOM树body子树;
[0030]响应报文首部提取方法:将响应首部进行分类,对其中与网页源码直接相关的字段进行哈希运算提取指纹片段;
[0031]HTML DOM树head子树提取方法:将head子树中元素节点的部分属性看做一系列键值对,与响应首部类似进行指纹提取;
[0032]HTML DOM树body子树提取方法:对body部分前M层的节点的每一层节点进行层次指纹提取,其中每一个元素节点提取一字节指纹数据,并按照提取顺序将层次指纹拼接成body树的指纹,将多叉树结构转化为线性结构。
[0033]优选的,步骤六所述识别网页流量具体方法是,包括以下步骤:
[0034]步骤六一、在特征库中查询目标网页特征词,将特征库作为网页候选集,将网页候选集中包含目标网页特征词数量少于预定义阈值的网页筛选掉,更新网页候选集;
[0035]步骤六二、更新后的网页候选集,将会得到一个候选网页列表P
i
=(p1,p2,......,p
n
),如果候选网页V
p
的特征词包含在目标网页特征词中,则将候选网页Vp的特征词加入候选网页V
p
=(w1,w2,......,w
n
),其中特征词W
i
按照目标网页特征词中提取顺序排序,形成候选网页特征向量集,W
i
的计算公式如下:
[0036]tf

idf
i,j
=tf
i,j
×
idf
i
[0037][0038]其中,tf表示特征词词频,idf表示逆向文件频率,n
k,j
表示第k个词在网页j中出现的频率,|D|表示候选集中的网页总数,|{J:t
i
∈d
j
}|表示包含词语t
i
的网页数量;
[0039]步骤六三、比较候选网页V
p
与目标网页V
t
的余弦相似度,对相似性度量低于设定阈值的网页进行过滤,获取最终的候选网页集;
[0040]步骤六四、将最终的候选网页集与步骤五所述的目标网页的网页指纹匹配,具体方法是,响应首部指纹和HTML head部分的指纹为线性序列,应用LCS算法计算候选网页与目标网页的相似度;
[0041]步骤六五、HTML body本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于静态域的恶意网页识别检测方法,其特征在于,包括以下步骤:步骤一、实时监听网页流量,提取HTTP头部的URL地址;步骤二、将步骤一所述URL地址与黑名单库中存储的URL地址进行匹配;若匹配成功,则对流量进行阻断,若匹配失败执行步骤三;步骤三、解析匹配失败的网页流量;步骤四、爬取解析后的网页流量中的JS、CSS文件;步骤五、提取目标网页的网页指纹;步骤六、识别网页流量;若识别成功,执行步骤七,若识别失败执行步骤一;步骤七、比较两个网页的URL地址;若URL地址相同,说明流量中的网页为正常网页,保存匹配日志;若URL地址不同,说明流量中的网页为恶意网页,进行阻断。2.根据权利要求1所述的方法,其特征在于,步骤三所述解析匹配失败的网页流量的具体方法是,包括以下步骤:步骤三一、从响应报文中提取网页源代码;步骤三二、顺序读取输入的源代码字符串,调用递归算法解析字符串,初始父节点为空;步骤三三、每解析到一个开始标签或文本时,为该标签或文本节点设置为父节点,同时将该节点添加到父节点的孩子列表中;步骤三四、解析提取标签节点属性和值,文本节点的文本信息;步骤三五、解析到结束标签时返回,直到解析完所有输入的字符串,获得完整的DOM结构。3.根据权利要求1所述的方法,其特征在于,步骤四所述爬取解析后的网页流量中的JS、CSS文件的具体方法是,包括以下步骤:步骤四一、通过HTTP库向目标站点发起请求,即发送一个Request;步骤四二、接收服务端返回的响应内容;步骤四三、解析内容,存储解析出的JS,CSS资源,作为网页特征。4.根据权利要求3所述的方法,其特征在于,步骤五所述提取目标网页的网页指纹的具体方法是,包括提取响应报文首部、HTML DOM树head子树、HTML DOM树body子树;响应报文首部提取方法:将响应首部进行分类,对其中与网页源码直接相关的字段进行哈希运算提取指纹片段;HTML DOM树head子树提取方法:将head子树中元素节点的部分属性看做一系列键值对,与响应首部类似进行指纹提取;HTML DOM树body子树提取方法:对body部分前M层的节点的每一层节点进行层次指纹提取,其中每一个元素节点提取一字节指纹数据,并按照提取顺序将层次指纹拼接成body树的指纹,将多叉树结构转化为线性结构。5.根据权利要求4所述的方法,其特征在于,步骤六所述识别网页流量具体方法是,包括以下步骤:步骤六一、在特征库中查询目标网页特征词,将特征库作为网页候选集,将网页候选集中包含目标网页特征词数量少于预定义阈值的网页筛选掉,更新网页候选集;步骤...

【专利技术属性】
技术研发人员:余翔湛刘立坤陈巍史建焘葛蒙蒙叶麟于喜东王永强冯帅赵跃王久金宋赟祖郭明昊胡智超苗钧重刘凡李精卫石开宇韦贤葵孔德文羿天阳刘奉哲李竑杰
申请(专利权)人:上海浦东发展银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1