一种网页获取方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:22219108 阅读:41 留言:0更新日期:2019-09-30 01:20
本申请公开了一种网页获取方法,包括根据接收的网页获取指令启动预设探测脚本;利用所述预设探测脚本探测目标网站的网页访问行为;对各所述网页访问行为对应的被访问网页进行数据采集,获得第一网页数据集;该网页获取方法可有效实现孤岛网页以及受权限控制的网页的获取,进而保证获取网页的全面性和完整性。本申请还公开了一种网页获取装置、设备及计算机可读存储介质,均具上述有益效果。

A Web Page Acquisition Method, Device, Equipment and Computer Readable Storage Media

【技术实现步骤摘要】
一种网页获取方法、装置、设备及计算机可读存储介质
本申请涉及计算机
,特别涉及一种网页获取方法,还涉及一种网页获取装置、设备及计算机可读存储介质。
技术介绍
网页是构成网站的基本元素,是承载各种网站应用的平台,随着互联网技术的快速发展,用户对网络的需求量越来越大,网页浏览器的功能也随之增多。因此,对网站中的网页进行有效管理,才能更好的满足用户的众多需求,为用户提供便利。网页的有效管理离不开网页的获取,传统技术中的网页获取主要依赖于网络爬虫进行页面爬取,然而,由于网站中存在有大量的网页孤链,而这些网页孤链与网站中的其他网页并没有建立超级链接关系,导致网络爬虫无法发现;另外,网站中的部分网页由于受到登录或权限控制等限制同样也无法获取到,例如,现有的网络爬虫在进行网页访问时,经常会遇到加密数据和网页权限的问题,其中有些网页则是需要会员权限才能访问。由此可见,现有的基于网络爬虫的网页获取技术无法实现孤岛网页以及受权限控制的网页的获取,从而导致严重的网页获取不完整、不全面的问题,无法对网页管理提供强有效的保证。因此,如何实现孤岛网页以及受权限控制的网页的获取是本领域技术人员亟待解决的问题。
技术实现思路
本申请的目的是提供一种网页获取方法,该网页获取方法可有效实现孤岛网页以及受权限控制的网页的获取,进而保证获取网页的全面性和完整性;本申请的另一目的是提供一种网页获取装置、设备及计算机可读存储介质,均具有上述有益效果。第一方面,本申请提供了一种网页获取方法,所述网页获取方法包括:根据接收的网页获取指令启动预设探测脚本;利用所述预设探测脚本探测目标网站的网页访问行为;对各所述网页访问行为对应的被访问网页进行数据采集,获得第一网页数据集。优选的,所述网页获取方法还包括:根据所述网页获取指令启动云端爬虫;通过所述云端爬虫进行网页探测,获得第二网页数据集;对所述第一网页数据集和所述第二网页数据集进行合并处理,获得样本网页数据集。优选的,所述对所述第一网页数据集和所述第二网页数据集进行合并处理,获得样本网页数据集,包括:计算所述第一网页数据集和所述第二网页数据集的并集,获得所述样本数据集。优选的,所述网页获取方法还包括:对所述样本网页数据集中的各个样本网页数据进行漏洞识别,以确定各个所述样本网页数据是否存在WEB漏洞。优选的,所述对所述样本网页数据集中的各个样本网页数据进行漏洞识别,以确定各个所述样本网页数据是否存在WEB漏洞,包括:将所述样本网页数据集中的各个样本网页数据与预设漏洞网页数据集中的各个漏洞网页数据进行对比分析,若所述样本网页数据与所述漏洞网页数据相同,则判定所述样本网页数据存在所述WEB漏洞。优选的,所述将所述样本网页数据集中的各个样本网页数据与预设漏洞网页数据集中的各个漏洞网页数据进行对比分析,若所述样本网页数据与所述漏洞网页数据相同,则判定所述样本网页数据存在所述WEB漏洞,包括:将各所述样本网页数据的页面访问顺序与各所述漏洞网页数据的页面访问顺序进行对比分析;若所述页面访问顺序相同,则判定所述样本网页数据存在所述WEB漏洞。优选的,所述对所述样本网页数据集中的各个样本网页数据进行漏洞识别,以确定各个所述样本网页数据是否存在WEB漏洞,包括:判断所述样本网页数据是否为权限类网页;若是,则对所述权限类网页发起HTTP请求;判断是否接收到所述权限类网页根据所述HTTP请求反馈的登录成功信息;若是,则判定所述权限类网页存在身份验证漏洞。第二方面,本申请还提供了一种网页获取装置,所述网页获取装置包括:脚本启动模块,用于根据接收的网页获取指令启动预设探测脚本;行为探测模块,用于利用所述预设探测脚本探测目标网站的网页访问行为;网页获取模块,用于对各所述网页访问行为对应的被访问网页进行数据采集,获得第一网页数据集。第三方面,本申请还提供了一种网页获取设备,所述网页获取设备包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述任意一种网页获取方法的步骤。第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种网页获取方法的步骤。本申请所提供的一种网页获取方法,包括根据接收的网页获取指令启动预设探测脚本;利用所述预设探测脚本探测目标网站的网页访问行为;对各所述网页访问行为对应的被访问网页进行数据采集,获得第一网页数据集。可见,本申请所提供的技术方案,由于用户在进行网页访问时,除了正常的基于超链接实现的网页访问之外,还可以通过手动输入网址的方式实现孤岛网页的访问,也可以基于预先获知或注册的权限信息实现受权限控制的网页的访问,因此,可以在前端设置探测脚本对用户的网页访问行为进行探测,进一步对被访问网页进行数据采集,即可获得相应的网页数据,相较于传统的基于网络爬虫的网页获取方式,本申请所提出的技术方案还可实现对孤岛网页以及受权限控制的网页的获取,解决了现有技术中网页获取不完整、不全面的问题,为网站页面管理提供了有效保证。本申请所提供的一种网页获取装置、设备及计算机可读存储介质,均具有上述有益效果,在此不再赘述。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请所提供的一种网页获取方法的流程示意图;图2为本申请所提供的另一种网页获取方法的流程示意图;图3为本申请所提供的一种WEB漏洞识别方法的流程示意图;图4为本申请所提供的一种网页获取装置的结构示意图;图5为本申请所提供的另一种网页获取装置的结构示意图;图6为本申请所提供的一种网页获取设备的结构示意图。具体实施方式本申请的核心是提供一种网页获取方法,该网页获取方法可有效实现孤岛网页以及受权限控制的网页的获取,进而保证获取网页的全面性和完整性;本申请的另一核心是提供一种网页获取装置、设备及计算机可读存储介质,均具有上述有益效果。为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。请参考图1,图1为本申请所提供的一种网页获取方法的流程示意图,该网页获取方法可以包括:S101:根据接收的网页获取指令启动预设探测脚本;本步骤旨在基于网页获取指令启动预设探测脚本,该预设探测脚本为技术人员预先设置在WEB前端的探测程序,用以探测WEB前端是否发生网页访问行为,该网页访问行为即为用户基于WEB前端进行网页访问的行为。其中,网页获取指令可以为用户直接基于WEB前端输入的指令,也可以为基于预设响应条件自动触发的指令,其具体获取方式并不影响本技术方案的实施。S102:利用预设探测脚本探测目标网站的网页访问行为;具体的,当预设探测脚本启动后,将会针对目标网站是否发生网页探测行为进行实时探测,其中,该目标网站即为用户所需要本文档来自技高网...

【技术保护点】
1.一种网页获取方法,其特征在于,包括:根据接收的网页获取指令启动预设探测脚本;利用所述预设探测脚本探测目标网站的网页访问行为;对各所述网页访问行为对应的被访问网页进行数据采集,获得第一网页数据集。

【技术特征摘要】
1.一种网页获取方法,其特征在于,包括:根据接收的网页获取指令启动预设探测脚本;利用所述预设探测脚本探测目标网站的网页访问行为;对各所述网页访问行为对应的被访问网页进行数据采集,获得第一网页数据集。2.如权利要求1所述的网页获取方法,其特征在于,还包括:根据所述网页获取指令启动云端爬虫;通过所述云端爬虫进行网页探测,获得第二网页数据集;对所述第一网页数据集和所述第二网页数据集进行合并处理,获得样本网页数据集。3.如权利要求2所述的网页获取方法,其特征在于,所述对所述第一网页数据集和所述第二网页数据集进行合并处理,获得样本网页数据集,包括:计算所述第一网页数据集和所述第二网页数据集的并集,获得所述样本数据集。4.如权利要求2或3所述的网页获取方法,其特征在于,还包括:对所述样本网页数据集中的各个样本网页数据进行漏洞识别,以确定各个所述样本网页数据是否存在WEB漏洞。5.如权利要求4所述的网页获取方法,其特征在于,所述对所述样本网页数据集中的各个样本网页数据进行漏洞识别,以确定各个所述样本网页数据是否存在WEB漏洞,包括:将所述样本网页数据集中的各个样本网页数据与预设漏洞网页数据集中的各个漏洞网页数据进行对比分析,若所述样本网页数据与所述漏洞网页数据相同,则判定所述样本网页数据存在所述WEB漏洞。6.如权利要求5所述的网页获取方法,其特征在于,所述将所述样本网页数据集中的各个样本网页数据与预设漏...

【专利技术属性】
技术研发人员:王振兴
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1