一种门户网站异常超链接的检测方法、装置、设备及介质制造方法及图纸

技术编号:34435476 阅读:19 留言:0更新日期:2022-08-06 16:18
本发明专利技术涉及一种门户网站异常超链接的检测方法、装置、设备及介质,该方法包括:步骤101)获取门户网站中所有超链接;步骤102)对超链接进行解析请求,筛选出存在异常的超链接;步骤103)完成对出错所在网页的登记,错误链接位置标识以及错误原因的捕获记录,生成测试报告。与现有技术相比,本发明专利技术具有检测效率高、检测精准度高等优点。测精准度高等优点。测精准度高等优点。

【技术实现步骤摘要】
一种门户网站异常超链接的检测方法、装置、设备及介质


[0001]本专利技术涉及web自动化测试技术,尤其是涉及一种门户网站异常超链接的检测方法、装置、设备及介质。

技术介绍

[0002]随着互联网技术的不断发送与迭代更新,门户网站也逐渐成为的每家企业的门面和不可或缺的一部分,在门户网站中,也会出现无数的超链接,进行页面跳转,运营人员也会根据不同情况来配置门户网站的超链接,但不同的链接或者广告业务,可能会因为商品下架、网站迁移、业务或者服务到期等情况无法进行正常访问,运营人员未能及时替换链接,导致的门户网站中链接无法正常跳转的情况时有发生。
[0003]经过检索中国专利公开号CN108282478A公开了一种WEB站点安全检测方法、装置及计算机可读介质,具体公开通过网络爬虫抓取网页源码并进行解析,再利用网络实时状态检测对网站进行巡查,主要包括检测网站状态是否正常、网页中是否有文字或者图片被篡改、网站中是否含有死链接、错误链接等影响网络效率问题,以保证WEB站点的稳定性;依据当前主流的网页木马检测技术,建立木马特征数据库和被检测网站模板,通过周期性地获取待检测网站网页信息,对网页代码进行定期检测,并完成对木马病毒的实时检测。在第一时间将上述二者检测结果反馈给用户,有助于用户及时消除安全隐患和潜在风险。此外,还会根据两大方面的检测结果定期生成网站安全状态的报表,帮助用户了解、跟踪并分析站点在各个时间段所处的安全状态,从而能够定制符合自身需求的安全防护策略和侧重点,保护WEB站点拥有者的既得利益的同时也间接保护了站点访问者的权益。
[0004]但是对于网站上的超链接如何进行异常检测,并在检测到异常超链接后如何进行处置,从而来快速回复网站,上述现有专利并未涉及,因此也成为本专利技术需要解决的技术问题。

技术实现思路

[0005]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种检测效率高、检测精准度高的门户网站异常超链接的检测方法、装置、设备及介质。
[0006]本专利技术的目的可以通过以下技术方案来实现:
[0007]根据本专利技术的第一方面,提供了一种门户网站异常超链接的检测方法,该方法包括:
[0008]步骤101)获取门户网站中所有超链接;
[0009]步骤102)对超链接进行解析请求,筛选出存在异常的超链接;
[0010]步骤103)完成对出错所在网页的登记,错误链接位置标识以及错误原因的捕获记录,生成测试报告。
[0011]作为优选的技术方案,所述的步骤101)具体为:
[0012]步骤1011)获取门户网站的HTML信息;
[0013]步骤1012)对HTML信息进行解析,并判断是否存在超链接,若存在,获取完整的URL链接。
[0014]作为优选的技术方案,所述的步骤1011)具体为:
[0015]通过Python编码,以多线程并发的方式对需要爬取的门户网站进行访问请求,并获取该门户网站的最终HTML信息。
[0016]作为优选的技术方案,所述的步骤1012)具体为:
[0017]在获取到门户网站的HTML后,使用Python

BeautifulSoup第三方类库,获取到对应HTML中所有<a>标签,并进行数据解析,判断<a>标签中是否存在超链接,若存在超链接,则通过urlparse方法,获取到完整的URL链接并存到缓存数据。
[0018]作为优选的技术方案,所述的步骤102)具体包括:
[0019]1021)对所有URL进行去重;
[0020]1022)对解析出来的超链接进行HTTP GET请求,通过响应判断链接是否访问正常,若出现异常链接,记录对应的<a>标签、链接、链接来源、链接位置信息。
[0021]作为优选的技术方案,所述的步骤103)中的测试报告的字段包含爬取的门户网站链接、网站名称、获取到的异常超链接、异常超链接所在的坐标位置以及局部截图、异常原因、爬取的时间点信息。
[0022]作为优选的技术方案,该方法在报告中,对异常超链接位置进行了精准的局部截图,具体的截图过程为:将浏览器大小修改为Xpath同等大小,并通过JS方法移动滚动条到对应Xpath位置,进行截图。
[0023]根据本专利技术的第二方面,提供了一种门户网站异常超链接的检测装置,该装置包括:
[0024]超链接获取模块,用于获取门户网站中所有超链接;
[0025]异常超链接筛选模块,用于对超链接进行解析请求,筛选出存在异常的超链接;
[0026]测试报告生成模块,用于完成对出错所在网页的登记,错误链接位置标识以及错误原因的捕获记录,生成测试报告。
[0027]根据本专利技术的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现所述的方法。
[0028]根据本专利技术的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现所述的方法。
[0029]与现有技术相比,本专利技术具有以下优点:
[0030]1)本专利技术通过页面爬虫技术以及web自动化测试技术,将需要检测的门户网站进行可配置,如果发现异常链接,可以做到门户网站中局部位置截图,让运营人员立即发现异常位置,以便于快速对配置进行替换;
[0031]2)本专利技术测试效率高,通过多线程并发的方式,大大提高了测试效率;
[0032]3)本专利技术为了让运营人员与研发人员根据直观的了解异常超链接所在位置,在报告中,还对异常超链接位置进行了精准的局部截图,使报告更有可读性。
附图说明
[0033]图1为本专利技术门户网站异常链接检测的方法流程示意图;
[0034]图2为本专利技术采用的整体流程具体实施方案示意图;
[0035]图3为本专利技术中超链接解析实施方案流程示意图;
[0036]图4为本专利技术中对门户网站网址获取及爬取方案流程示意图;
[0037]图5为本专利技术中对超链接断言方案示意图;
[0038]图6为本专利技术中对异常链接解析定位方案示意图;
[0039]图7为本专利技术中获取错误位置标识并完成局部位置截图方案示意图;
[0040]图8为本专利技术中生成测试报告方案示意图;
[0041]图9为本专利技术中维护需要爬取的门户网站方案示意图;
[0042]图10为本专利技术中定时调度服务启动方案示意图。
具体实施方式
[0043]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。
[0044]如图1所示,本专利技术一种门户网站异常超链接的检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种门户网站异常超链接的检测方法,其特征在于,该方法包括:步骤101)获取门户网站中所有超链接;步骤102)对超链接进行解析请求,筛选出存在异常的超链接;步骤103)完成对出错所在网页的登记,错误链接位置标识以及错误原因的捕获记录,生成测试报告。2.根据权利要求1所述的一种门户网站异常超链接的检测方法,其特征在于,所述的步骤101)具体为:步骤1011)获取门户网站的HTML信息;步骤1012)对HTML信息进行解析,并判断是否存在超链接,若存在,获取完整的URL链接。3.根据权利要求2所述的一种门户网站异常超链接的检测方法,其特征在于,所述的步骤1011)具体为:通过Python编码,以多线程并发的方式对需要爬取的门户网站进行访问请求,并获取该门户网站的最终HTML信息。4.根据权利要求2所述的一种门户网站异常超链接的检测方法,其特征在于,所述的步骤1012)具体为:在获取到门户网站的HTML后,使用Python

BeautifulSoup第三方类库,获取到对应HTML中所有<a>标签,并进行数据解析,判断<a>标签中是否存在超链接,若存在超链接,则通过urlparse方法,获取到完整的URL链接并存到缓存数据。5.根据权利要求1所述的一种门户网站异常超链接的检测方法,其特征在于,所述的步骤102)具体包括:1021)...

【专利技术属性】
技术研发人员:吕俊杰陈勇叶协彪
申请(专利权)人:浙江浩瀚能源科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1