【技术实现步骤摘要】
一种基于静态域的恶意网页识别检测方法、计算机及存储介质
[0001]本申请涉及一种检测方法,尤其涉及一种基于静态域的恶意网页识别检测方法、计算机及存储介质,属于网页识别检测
技术介绍
[0002]钓鱼攻击是通过社会工程学或技术手段窃取用户隐私数据的网络犯罪行为,近些年,许多不法分子通过搭建恶意网站来从事非法活动,并利用各种手段(如URL混淆等)来增加网页的隐蔽性,使得传统防御检测技术失效。
[0003]网页指纹是根据响应报文首部的键值对和网页文档中提取出来的一系列特殊元素(标签、属性等)经过hash运算计算产生的字节序列。网页识别是从网页候选库中识别出与目标网页最匹配的网页。
[0004]基于网页指纹的网页去重算法。算法执行时,首先对被检测网页进行预处理,除噪等,保留网页的纯文本信息,对纯文本信息进行归一化处理,提取关键词及其位置向量,构成网页指纹,然后比较指纹库与被检测网页的相似度判断是否为重复网页。
[0005]基于机器学习的检测方法。将钓鱼网站的识别看做文本分类或聚类的问题,利用URL构成词汇、DNS和Whois信息对网页进行检测,应用机器学习方法对网页的性质进行判断。
[0006]基于网页指纹的去重算法中采用的指纹是由从网页中提取出的特征关键词和其位置向量构成的,而特征词是由网页中的纯文本信息提取出来的,如果文本规模过大可能导致指纹在存储过程中占用过多的空间资源;只考虑页面上显示的纯文本信息过于片面,该算法中提出的网页指纹提取技术只适用于网页中包含大量文本内容的网页识 ...
【技术保护点】
【技术特征摘要】
1.一种基于静态域的恶意网页识别检测方法,其特征在于,包括以下步骤:步骤一、实时监听网页流量,提取HTTP头部的URL地址;步骤二、将步骤一所述URL地址与黑名单库中存储的URL地址进行匹配;若匹配成功,则对流量进行阻断,若匹配失败执行步骤三;步骤三、解析匹配失败的网页流量;步骤四、爬取解析后的网页流量中的JS、CSS文件;步骤五、提取目标网页的网页指纹;步骤六、识别网页流量;若识别成功,执行步骤七,若识别失败执行步骤一;步骤七、比较两个网页的URL地址;若URL地址相同,说明流量中的网页为正常网页,保存匹配日志;若URL地址不同,说明流量中的网页为恶意网页,进行阻断。2.根据权利要求1所述的方法,其特征在于,步骤三所述解析匹配失败的网页流量的具体方法是,包括以下步骤:步骤三一、从响应报文中提取网页源代码;步骤三二、顺序读取输入的源代码字符串,调用递归算法解析字符串,初始父节点为空;步骤三三、每解析到一个开始标签或文本时,为该标签或文本节点设置为父节点,同时将该节点添加到父节点的孩子列表中;步骤三四、解析提取标签节点属性和值,文本节点的文本信息;步骤三五、解析到结束标签时返回,直到解析完所有输入的字符串,获得完整的DOM结构。3.根据权利要求1所述的方法,其特征在于,步骤四所述爬取解析后的网页流量中的JS、CSS文件的具体方法是,包括以下步骤:步骤四一、通过HTTP库向目标站点发起请求,即发送一个Request;步骤四二、接收服务端返回的响应内容;步骤四三、解析内容,存储解析出的JS,CSS资源,作为网页特征。4.根据权利要求3所述的方法,其特征在于,步骤五所述提取目标网页的网页指纹的具体方法是,包括提取响应报文首部、HTML DOM树head子树、HTML DOM树body子树;响应报文首部提取方法:将响应首部进行分类,对其中与网页源码直接相关的字段进行哈希运算提取指纹片段;HTML DOM树head子树提取方法:将head子树中元素节点的部分属性看做一系列键值对,与响应首部类似进行指纹提取;HTML DOM树body子树提取方法:对body部分前M层的节点的每一层节点进行层次指纹提取,其中每一个元素节点提取一字节指纹数据,并按照提取顺序将层次指纹拼接成body树的指纹,将多叉树结构转化为线性结构。5.根据权利要求4所述的方法,其特征在于,步骤六所述识别网页流量具体方法是,包括以下步骤:步骤六一、在特征库中查询目标网页特征词,将特征库作为网页候选集,将网页候选集中包含目标网页特征词数量少于预定义阈值的网页筛选掉,更新网页候选集;步骤...
【专利技术属性】
技术研发人员:余翔湛,刘立坤,陈巍,史建焘,葛蒙蒙,叶麟,于喜东,王永强,冯帅,赵跃,王久金,宋赟祖,郭明昊,胡智超,苗钧重,刘凡,李精卫,石开宇,韦贤葵,孔德文,羿天阳,刘奉哲,李竑杰,
申请(专利权)人:上海浦东发展银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。