一种网页暗链可疑度评估方法、系统、设备及存储介质技术方案

技术编号:38623212 阅读:14 留言:0更新日期:2023-08-31 18:26
本发明专利技术公开了一种网页暗链可疑度评估方法、系统、设备及存储介质,方法为扫描识别网页内各项资源是否存在隐藏链接并评分;根据是否包含js可疑行为进行二次渲染检测评分;根据前后比对结果结合量化算法对页面包含暗链的可疑程度作出量化评估。本发明专利技术优化了基于js隐式修改html源码场景下的页面源码暗链发现功能,并提升了暗链规则正则匹配的精准度;根据源码特征判定是否需要二次计算页面疑似暗链特征情况,并在计算过程中根据敏感词匹配结果调整暗链匹配分数,提升了精准度;针对不存在js隐式修改的页面源码采取单次匹配计算,减少了不必要的资源消耗;最后综合计算分数序列,得出可靠的量化评估结果。可靠的量化评估结果。可靠的量化评估结果。

【技术实现步骤摘要】
一种网页暗链可疑度评估方法、系统、设备及存储介质


[0001]本专利技术涉及网络安全
,更具体地说,它涉及一种网页暗链可疑度评估方法、系统、设备及存储介质。

技术介绍

[0002]暗链也称黑链,即网页上被黑客恶意植入的隐蔽链接,是黑帽SEO的作弊手法之一,其目的就是利用高权重网站外链来提升自身站点在搜索引擎的搜索排名。现有的检测方案有几种类型:
[0003]a.直接匹配法。作为现有的暗链检测的普遍技术方案之一,是通过先获取网页源码,再使用暗链关键词,或者正则表达式遍历匹配源码,从而发现网页中的暗链。
[0004]b.基于渲染前后的直接二次比对方法。例如:专利号2016102803259(一种基于栈的暗链检测方法),就是通过调用无头浏览器渲染获得的html源码暴露隐藏的链接的方法
[0005]c.基于历史数据的二次比对法。例如:专利号2020106803894(一种网站异常暗链的检测方法、装置、设备及存储介质),就是利用历史页面作为基准,与检测时获得的页面进行比对评估而发现新增的隐藏暗链。
[0006]d.暗链指向目标评估法。例如:专利号2021111246058(一种基于链接内容的暗链检测方法和系统),就是根据正则方法获取html隐藏链接,然后访问隐藏链接页面并对该页面进行评估,根据评估结果评定是否是暗链。
[0007]e.机器学习或语义分析法。例如:专利号2014104522212(一种基于统计机器学习的互联网暗链检测方法),通过语言分析建立预测模型,进而直接预测是否存在暗链。
[0008]对于直接匹配法,由于网页源码支持javascript(js)编程语言,理论上可以有无数种实现暗链的编写和加密方式,其复杂性远超出了现有的暗链检测方法中的关键词库和正则库的匹配囊括范围,造成较多的遗漏。另外,使用js编程语言编写的网页,必然不会存在任何一种网页编写特征是黑客专属的,一般的开发者也会使用同样的编写方法。使得使用直接匹配方法的暗链检测会产生大量的误报。
[0009]同样的,渲染前后二次比对法、历史数据二次比对法、机器学习或语义分析法等方法,其出发点都是肯定了暗链“一定是”黑客编写的这一想法,忽略了网站开发者也会出于交互效果、显示效果等而编写大量隐藏的元素,其中会包含链接,这些链接会被以上方法标记为暗链而产生误报。
[0010]对于暗链指向目标评估法,可预见的是,会消耗更多的系统资源,效率也会比较低,而且会存在由于暗链所在域名实效导致无法访问而无法评估的问题。

技术实现思路

[0011]本专利技术要解决的技术问题是针对现有技术的上述不足,本专利技术的目的一是提供一种网页暗链可疑度评估方法。
[0012]本专利技术的目的二是提供一种网页暗链可疑度评估系统。
[0013]本专利技术的目的三是提供一种计算机设备。
[0014]本专利技术的目的四是提供一种计算机存储介质。
[0015]为了实现上述目的一,本专利技术提供一种网页暗链可疑度评估方法,扫描识别网页内各项资源是否存在隐藏链接并评分;根据是否包含js可疑行为进行二次渲染检测评分;根据前后比对结果结合量化算法对页面包含暗链的可疑程度作出量化评估。
[0016]作为进一步地改进,包括如下步骤:
[0017]步骤S1.初始化配置,获取待检测网页的源码;
[0018]步骤S2.准备正则特征库检测资源,包括暗链正则库、js非法操作正则库、敏感词库;
[0019]步骤S3.源码预处理,先从正则特征库加载敏感词库,获取敏感词列表,并将敏感词库内容作为新专有名词插入分词库来提升准确率,再利用分词库对源码进行分词;
[0020]步骤S4.利用多线程技术并行处理每条检测规则与源码的匹配和定位;
[0021]针对每条检测规则,根据其匹配结果获取匹配位置和包含的url以及相应的匹配分数;
[0022]根据步骤S3中源码的分词结果,结合敏感词库,识别源码存在的敏感词;当包含敏感词时,匹配出敏感词分数序列,根据敏感词分数序列通过增权算法对原始匹配分数提权,最高不超过N分,最后返回匹配结果及匹配分数;
[0023]步骤S5.从js非法操作正则库中获取js非法操作检测规则,使用js非法操作检测规则,检测源码是否存在加密;如果存在,则调用渲染器来渲染源码,并截取渲染后的html源码,针对渲染后的页面信息重复步骤4;如果不存在,则进入步骤S7;
[0024]步骤S6.从暗链正则库中获取暗链检测规则,根据暗链检测规则遍历比对渲染前后的匹配结果,通过比对渲染前后文件差异,对渲染结果分数序列进行提权或降权处理;如果渲染前无,渲染后新增,则认定存在隐藏链接,该匹配结果分数提权至最高;如果渲染前后都有,则认定页面内容无隐藏项,该匹配结果分数降权以减少可能的误报影响;如果渲染前有,渲染后没有,则不作改变;进入步骤S7;
[0025]步骤S7.页面综合分数计算,针对全页面的匹配项检测结果的分数序列通过总分算法计算后取整,得出页面整体评定分数,分数越高代表页面包含暗链的可能性越大。
[0026]进一步地,所述N=9,在步骤S6中,匹配结果分数提权至最高为9分;匹配结果分数降权为70%;在步骤S7中,得出页面整体评定分数为0~9分。
[0027]进一步地,暗链正则库中的每条检测规则为检测某种特定html元素隐藏方式的正则表达式,根据对已知真实暗链的抽样统计的频次,经过线性变换公式计算后给出1~9分的整数分数,出现频次越高则分数越高,,代表此隐藏方式越可能被黑客利用,线性变换公式为:
[0028][0029]其中,S代表原始频次;Smax代表最高频次;Smin代表最低频次;F代表变换后的分数。
[0030]进一步地,js非法操作正则库用于检查源码中是否包含js更改html源码标签的行为的规则;通过检查是否存在使用js隐藏暗链或推广词汇来判断是否需要调用浏览器渲
染,以达到提高检测精准度,同时减少不必要系统资源消耗的目的。
[0031]进一步地,在敏感词库中,根据真实暗链样本的跟随词统计出来的高频词汇表,经人工或机器筛查后,再通过与暗链正则库同样的计算方式得到每个词线性转换后的计算分数,作为专用的敏感词列表。
[0032]进一步地,增权算法为:
[0033][0034]其中,Sf代表最终加权结果分数;ai代表敏感词检测结果的分数序列;St代表分数上限,这里设定为9分;b代表暗链本身基础得分;
[0035]当ai个数为0时:
[0036]S
f
=b
[0037]总分算法为:
[0038][0039]其中,S:页面总分;pmax:页面分数序列中的最大值;pi:页面分数序列除了最大值以外的数组成的序列;
[0040]当分数序列个数等于1时:
[0041]S=p
max
[0042]当分数序列个数等于0时:
[0043]S=0。
[0044]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页暗链可疑度评估方法,其特征在于,扫描识别网页内各项资源是否存在隐藏链接并评分;根据是否包含js可疑行为进行二次渲染检测评分;根据前后比对结果结合量化算法对页面包含暗链的可疑程度作出量化评估。2.根据权利要求1所述的一种网页暗链可疑度评估方法,其特征在于,包括如下步骤:步骤S1.初始化配置,获取待检测网页的源码;步骤S2.准备正则特征库检测资源,包括暗链正则库、js非法操作正则库、敏感词库;步骤S3.源码预处理,先加载敏感词库,获取敏感词列表,并将敏感词库内容作为新专有名词插入分词库来提升准确率,再利用分词库对源码进行分词;步骤S4.利用多线程技术并行处理每条检测规则与源码的匹配和定位;针对每条检测规则,根据其匹配结果获取匹配位置和包含的url以及相应的匹配分数;根据步骤S3中源码的分词结果,结合敏感词库,识别源码存在的敏感词;当包含敏感词时,匹配出敏感词分数序列,根据敏感词分数序列通过增权算法对原始匹配分数提权,最高不超过N分,最后返回匹配结果及匹配分数;步骤S5.从js非法操作正则库中获取js非法操作检测规则,使用js非法操作检测规则,检测源码是否存在加密;如果存在,则调用渲染器来渲染源码,并截取渲染后的html源码,针对渲染后的页面信息重复步骤4;如果不存在,则进入步骤S7;步骤S6.从暗链正则库中获取暗链检测规则,根据暗链检测规则遍历比对渲染前后的匹配结果,通过比对渲染前后文件差异,对渲染结果分数序列进行提权或降权处理;如果渲染前无,渲染后新增,则认定存在隐藏链接,该匹配结果分数提权至最高;如果渲染前后都有,则认定页面内容无隐藏项,该匹配结果分数降权以减少可能的误报影响;如果渲染前有,渲染后没有,则不作改变;进入步骤S7;步骤S7.页面综合分数计算,针对全页面的匹配项检测结果的分数序列通过总分算法计算后取整,得出页面整体评定分数,分数越高代表页面包含暗链的可能性越大。3.根据权利要求2所述的一种网页暗链可疑度评估方法,其特征在于,所述N=9,在步骤S6中,匹配结果分数提权至最高为9分;匹配结果分数降权为70%;在步骤S7中,得出页面整体评定分数为0~9分。4.根据权利要求2所述的一种网页暗链可疑度评估方法,其特征在于,暗链正则库中的每条检测规则为检测某种特定...

【专利技术属性】
技术研发人员:张海林胡金龙韦宁宁
申请(专利权)人:东信网安深圳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1