一种基于页面相似度的扫描方法和装置制造方法及图纸

技术编号:22167702 阅读:17 留言:0更新日期:2019-09-21 10:55
本发明专利技术公开了一种基于页面相似度的扫描方法和装置,所述方法包括:确定第一HTTP请求与第二HTTP请求之间的时间间隔不大于预设时间间隔;获取针对所述第一HTTP请求返回的第一页面及针对所述第二HTTP请求返回的第二页面;从所述第一页面对应的第一代码中删除标签类代码及标签属性类代码,及从所述第二页面对应的第二代码中删除标签类代码及标签属性类代码;对删除操作过滤后的第一代码和删除操作过滤后的第二代码进行页面相似度计算;若页面相似度低于第一阈值,则对所述第二页面进行页面扫描。采用本发明专利技术提供的方法,旨在解决现有技术中页面相似度的判断准确性低,短期内重复扫描的次数多,扫描效率不高的问题。

A Scanning Method and Device Based on Page Similarity

【技术实现步骤摘要】
一种基于页面相似度的扫描方法和装置
本申请涉及金融科技(Finteh)
,尤其涉及一种基于页面相似度的扫描方法和装置。
技术介绍
Web应用已经广泛应用于公共领域和个人领域,因其互联、开放等特性,更容易遭受黑客的攻击。每年发现的Web漏洞数量一直居高不下,这也是导致Web应用频繁遭受攻击的重要原因。传统金融业正在逐步向金融科技(Finteh)转变,基于金融行业的安全性、实时性要求,也对漏洞检测技术提出的更高的要求。提前发现Web应用系统中隐藏的漏洞,提前给出详尽的漏洞描述和修补方案,才能防患于未然。部分金融平台在业务功能上存在着漏洞,由于单个金融平台动辄上千甚至上万个页面,因此漏洞扫描往往时间紧、任务重。现有技术中,页面相似度算法主要用在扫描时判断页面是否稳定;根据页面相似度判断金融平台是否存在安全风险,以决定是否需要进行漏洞扫描。现有技术中,在页面相似度的计算时,页面相似度的判断准确性较低,如何实现有效地获取页面相似度,从而提高漏洞扫描率,成为目前亟待解决的问题。
技术实现思路
本申请实施例提供了一种基于页面相似度的扫描方法,旨在解决现有技术中页面相似度的计算准确性低,扫描效率不高的问题。第一方面、本专利技术实施例提供了一种基于页面相似度的扫描方法,包括:确定第一HTTP请求与第二HTTP请求之间的时间间隔不大于预设时间间隔;第一HTTP请求和第二HTTP请求是在不同时刻发起的针对同一URL的访问请求;获取针对第一HTTP请求返回的第一页面及针对第二HTTP请求返回的第二页面;第一页面为已通过页面扫描的页面;从第一页面对应的第一代码中删除标签类代码及标签属性类代码,及从第二页面对应的第二代码中删除标签类代码及标签属性类代码;对删除操作过滤后的第一代码和删除操作过滤后的第二代码进行页面相似度计算;若页面相似度低于第一阈值,则对第二页面进行页面扫描。上述技术方案中,针对预设时间段内返回的第一页面和第二页面才进行页面相似度计算,而且在计算页面相似度之前,删除标签类代码及标签属性类代码,这是因为标签类代码和标签属性类代码在计算页面相似度时意义不大,甚至可能引起误判,因而删除标签类代码及标签属性类代码,一方面可以减少计算量另一方面使得页面相似度的计算进一步提高。在一种可能的实现方式里,若确定第一HTTP请求与第二HTTP请求之间的时间间隔大于预设时间间隔,则对第二页面进行页面扫描。若请求的时间间隔大于预设时间间隔,页面存在漏洞的可能性高,则不再做页面相似度的计算,直接进行对第二页面进行页面扫描,从而提高了页面扫描的效率,也减少了页面相似度计算次数。在一种可能的实现方式里,对删除操作过滤后的第一代码和删除操作过滤后的第二代码进行页面相似度计算之前,还包括:通过正则匹配将第一代码中与预设字段符合的信息删除,及通过正则匹配将第二代码中与预设字段符合的代码删除;或通过正则匹配将第一代码中与预设字段符合的信息替换为设定代码,及通过正则匹配将第二代码中与预设字段符合的信息替换为设定代码。在计算页面相似度时,有一些预设字段,如序列号、时间戳和流水号的内容,会影响页面相似度的计算,在计算之前,通过正则匹配将第一页面和第二页面中与预设字段符合的信息删除,或者替换为设定格式的字符,再计算页面相似度,这样可以减少这类信息造成页面相似度计算的不准确。在一种可能的实现方式里,从第一页面对应的第一代码中删除标签类代码及标签属性类代码之前,还包括:确定第一代码的包体长度与第二代码的包体长度的比值不大于第二阈值。在计算页面相似度之前,还可以选择设置是否根据包体长度来计算页面的相似度,如果两个页面的body长度比较值不大于第二阈值,则认为页面变化不大,需要进一步通过页面相似度来确认是否需要启动页面扫描,需要说明的是,通过包体长度来计算页面的相似度,只是一种初步估算的方法,实际结果并不一定很准确。而在比较值大于第二阈值时,则认为页面变化大,直接进行页面扫描即可。从而可以通过包体长度在对页面变化有一定判断的基础上,提升进入页面扫描的效率。在一种可能的实现方式里,从第一页面对应的第一代码中删除标签类代码及标签属性类代码之前,还包括:确定第一代码的标题与第二代码的标题相似度大于第三阈值。即根据两个页面的title值,来判断页面是否有变化。一般的情况下,如果title值有变化,则页面变化的可能性大。如果title值相同,则再删除标签类代码及标签属性类代码等操作来计算页面相似度。从而可以通过标题来对页面变化做一个初判的基础上,提升进入页面扫描的效率。在一种可能的实现方式里,从第一页面对应的第一代码中删除标签类代码及标签属性类代码之前,还包括:确定第一页面的HTTP响应码与第二页面的HTTP响应码相同;和/或确定,来判断第二页面未出现响应异常。即判断两个页面的响应码是否相同,如果不同或者响应码为出现异常,可判断页面变化的可能性大,则不用再进行相似度计算,可以直接扫描。第二方面、本专利技术实施例还提供了一种页面扫描的装置,该装置包括:确定单元:确定第一HTTP请求与第二HTTP请求之间的时间间隔不大于预设时间间隔;第一HTTP请求和第二HTTP请求是在不同时刻发起的针对同一URL的访问请求;获取针对所述第一HTTP请求返回的第一页面及针对第二HTTP请求返回的第二页面;第一页面为已通过页面扫描的页面;检测单元:从第一页面对应的第一代码中删除标签类代码及标签属性类代码,及从第二页面对应的第二代码中删除标签类代码及标签属性类代码;对删除操作过滤后的第一代码和删除操作过滤后的第二代码进行页面相似度计算;若页面相似度低于第一阈值,则对所述第二页面进行页面扫描。在一种可能的实现方式里,确定单元还用于:若确定第一HTTP请求与第二HTTP请求之间的时间间隔大于预设时间间隔,则对第二页面进行页面扫描。在一种可能的实现方式里,确定单元还用于:通过正则匹配将第一代码中与预设字段符合的信息删除,及通过正则匹配将第二代码中与预设字段符合的代码删除;或通过正则匹配将第一代码中与预设字段符合的信息替换为设定代码,及通过正则匹配将第二代码中与预设字段符合的信息替换为设定代码。在一种可能的实现方式里,确定单元还用于:确定第一代码的包体长度与第二代码的包体长度的比较值大于第二阈值。在一种可能的实现方式里,确定单元还用于:确定第一代码的标题与第二代码的标题相似度大于第三阈值。在一种可能的实现方式里,确定单元还用于:确定第一页面的HTTP响应码与第二页面的HTTP响应码相同;以判断第二页面是否出现响应异常。第三方面、本专利技术实施例还提供了一种计算设备,包括:存储器,用于存储程序指令;处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行第一方面或第一方面中任一实施例的方法。第四方面、本专利技术实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行第一方面或第一方面中任一实施例的方法。附图说明图1为本专利技术实施例一种可能的系统架构示意图;图2为本申请实施例提供的一种可能的实现方式流程示意图;图3为本申请实施例提供的第二种可能的实现方式流程示意图;图4为本申请实施例提供的第三种可能的实现方式流程示意图;图5为本申请实施例提供本文档来自技高网...

【技术保护点】
1.一种基于页面相似度的扫描方法,其特征在于,所述方法包括:确定第一HTTP请求与第二HTTP请求之间的时间间隔不大于预设时间间隔;所述第一HTTP请求和所述第二HTTP请求是在不同时刻发起的针对同一URL的访问请求;获取针对所述第一HTTP请求返回的第一页面及针对所述第二HTTP请求返回的第二页面;所述第一页面为已通过页面扫描的页面;从所述第一页面对应的第一代码中删除标签类代码及标签属性类代码,及从所述第二页面对应的第二代码中删除标签类代码及标签属性类代码;对删除操作过滤后的第一代码和删除操作过滤后的第二代码进行页面相似度计算;若页面相似度低于第一阈值,则对所述第二页面进行页面扫描。

【技术特征摘要】
1.一种基于页面相似度的扫描方法,其特征在于,所述方法包括:确定第一HTTP请求与第二HTTP请求之间的时间间隔不大于预设时间间隔;所述第一HTTP请求和所述第二HTTP请求是在不同时刻发起的针对同一URL的访问请求;获取针对所述第一HTTP请求返回的第一页面及针对所述第二HTTP请求返回的第二页面;所述第一页面为已通过页面扫描的页面;从所述第一页面对应的第一代码中删除标签类代码及标签属性类代码,及从所述第二页面对应的第二代码中删除标签类代码及标签属性类代码;对删除操作过滤后的第一代码和删除操作过滤后的第二代码进行页面相似度计算;若页面相似度低于第一阈值,则对所述第二页面进行页面扫描。2.如权利要求1所述的扫描方法,其特征在于,所述方法还包括:若确定所述第一HTTP请求与所述第二HTTP请求之间的时间间隔大于所述预设时间间隔,则对所述第二页面进行页面扫描。3.如权利要求1所述的扫描方法,其特征在于,对删除操作过滤后的第一代码和删除操作过滤后的第二代码进行页面相似度计算之前,还包括:通过正则匹配将所述第一代码中与预设字段符合的信息删除,及通过正则匹配将所述第二代码中与所述预设字段符合的信息删除;或通过正则匹配将所述第一代码中与所述预设字段符合的信息替换为设定代码,及通过正则匹配将所述第二代码中与所述预设字段符合的信息替换为所述设定代码。4.如权利要求1所述的扫描方法,其特征在于,从所述第一页面对应的第一代码中删除标签类代码及标签属性类代码之前,还包括:确定所述第一代码的包体长度与所述第二代码的包体长度的比较值大于第二阈值;其中比较值越大代表包体长度越相似。5.如权利要求1所述的扫描方法,其特征在于,从所述第一页面对应的第一代码中删除标签类代码及标签属性类代码之前,还包括:确定所述第一代码的标题与所述第二代码的标题相似度大于第三阈值。6.如权利要求1所述的扫描方法,其特征在于,从所述第一页面对应的第一代码中删除标签类代码及标签属性类代码之前,还包括:确定所述第一页面的HTTP响应码与所述第二页面的HTTP响应码相同;和/或确定所述第二页面未出现响应异常。7.一种基于页面相似度扫描装置,其特征在于,所述...

【专利技术属性】
技术研发人员:张何钫
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1