网页数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:18019036 阅读:34 留言:0更新日期:2018-05-23 05:14
本发明专利技术涉及一种网页数据处理方法、装置、计算机设备及存储介质。该方法包括:获取第一网页的第一网页数据,查询与第一网页数据关联的第二网页地址;从第二网页地址中获取第二网页对应的网站的域名,提取第二网页对应的网站的域名的后缀;当第二网页对应的网站的域名的后缀与预存的标准域名的后缀相同时,则获取与标准域名对应的网络地址作为第二网页的网络地址;根据第二网页的网络地址对第二网页进行访问,并爬取第二网页上的第二网页数据;将第一网页数据与第二网页数据分别输出至对应的类别。上述网页数据处理方法、装置、计算机设备及存储介质避免只查询到第一网页数据而导致的查询的网页数据有遗漏,进而导致分析网页数据不准确。

【技术实现步骤摘要】
网页数据处理方法、装置、计算机设备及存储介质
本专利技术涉及网络安全领域,特别是涉及一种网页数据处理方法、装置、计算机设备及存储介质。
技术介绍
随着互联网科技的发展,在生活中,用户可以从网络上获取到越来越多的信息,因此,有时会出现一些相关的高危漏洞或者于高危漏洞相关的高危信息,则从网页上获取到高危漏洞或者高危漏洞的相关信息是非常重要的。传统地,是从当前已知的网页上查询相应的网页数据,从而对网页数据进行分析得到有关高危漏洞或者高危漏洞的相关信息,但是,仅从当前网页查询相应的网页数据会导致大量的网页数据出现遗漏,导致对网页数据分析不准确。
技术实现思路
基于此,有必要针对遗漏包含高危漏洞或者高危漏洞有关的高危信息的网页数据的问题,提供一种网页数据处理方法、装置、计算机设备及存储介质。一种网页数据处理方法,所述方法包括:获取第一网页的第一网页数据,查询与所述第一网页数据关联的第二网页地址;从所述第二网页地址中获取所述第二网页对应的网站的域名,提取所述第二网页对应的网站的域名的后缀;当所述第二网页对应的网站的域名的后缀与预存的标准域名的后缀相同时,则获取与所述标准域名对应的网络地址作为所述第二网页的网络地址;根据所述第二网页的网络地址对所述第二网页进行访问,并爬取所述第二网页上的第二网页数据;将所述第一网页数据与所述第二网页数据分别输出至对应的类别。在其中一个实施例中,所述根据所述第二网页的网络地址对所述第二网页进行访问,并爬取所述第二网页上的第二网页数据的步骤,包括:当所述第二网页携带有限制访问标识时,则向代理服务器发送爬取所述第二网页上的网页数据的爬取指令;接收所述代理服务器返回的身份验证请求,并根据所述身份验证请求向所述代理服务器发送对应的身份标识;当所述身份标识经所述代理服务器验证成功时,则接收所述代理服务器返回的从所述第二网页上爬取到的网页数据。在其中一个实施例中,所述根据所述第二网页的网络地址对所述网页进行访问,并爬取所述第二网页上的第二网页数据的步骤,包括:当所述第二网页未携带有限制访问标识时,则根据所述第二网页地址,获取所述第二网页对应的爬取逻辑与通信协议;根据所述第二网页对应的通信协议访问所述第二网页并遍历所述第二网页的第二网页数据;当遍历到与所述爬取逻辑对应的第二网页数据时,则爬取与所述爬取逻辑对应的第二网页数据。在其中一个实施例中,所述将所述第一网页数据与所述第二网页数据分别输出至对应的类别的步骤,包括:将所述第一网页数据携带的网页标识以及所述第二网页数据携带的网页标识分别与已存取的网页标识进行匹配;当所述第一网页数据携带的网页标识以及所述第二网页数据携带的网页标识其中至少一个与已存储的网页标识不匹配时,则提取不匹配的网页数据的关键字;将不匹配的网页数据输出至与所述关键字对应的存储类别下。在其中一个实施例中,所述方法还包括:获取预设的接收所述第一网页数据与所述第二网页数据的邮箱地址;提取所述邮箱地址对应的部门标识,并获取与所述部门标识对应的存储类别;将所获取的所述存储类别下的第一网页数据与第二网页数据发送至所述邮箱地址对应的邮箱中。在其中一个实施例中,所述根据所述第二网页的网络地址对所述网页进行访问,并爬取所述第二网页上的第二网页数据的步骤,包括:预设爬取所述第二网页的第二网页数据的爬取时间;当到达所述爬取时间时,则从网络地址库中随机选取可用的爬取网络地址;通过所述爬取网络地址访问所述第二网页,并爬取所述第二网页上的第二网页数据。在其中一个实施例中,所述根据所述第二网页的网络地址对所述第二网页进行访问,并爬取所述第二网页上的第二网页数据的步骤,包括:根据所述第二网页的网络地址访问所述第二网页并查询所述第二网页是否渲染完成;当所述第二网页未渲染完成时,则根据所述第二网页地址获取所述第二网页对应的渲染逻辑;根据所述第二网页对应的渲染逻辑对所述第二网页进行渲染;爬取渲染完成的所述第二网页上的第二网页数据。一种网页数据处理装置,所述装置包括:查询模块,用于获取第一网页的第一网页数据,查询与所述第一网页数据关联的第二网页地址;提取模块,用于从所述第二网页地址中获取所述第二网页对应的网站的域名,提取所述第二网页对应的网站的域名的后缀;获取模块,用于当所述第二网页对应的网站的域名的后缀与预存的标准域名的后缀相同时,则获取与所述标准域名对应的网络地址作为所述第二网页的网络地址;爬取模块,用于根据所述第二网页的网络地址对所述第二网页进行访问,并爬取所述第二网页上的第二网页数据;输出模块,用于将所述第一网页数据与所述第二网页数据分别输出至对应的类别。一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的步骤。一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法中的步骤。上述网页数据处理方法、装置、计算机设备及存储介质,根据第一网页的第一网页数据查询到第二网页地址,从第二网页地址中获取到第二网页对应的网站的域名,当获取到的网站的域名的后缀与标准域名的后缀相同时,则将标准域名对应的网络地址作为第二网页的网络地址,进而根据第二网页的网络地址访问第二网页,且爬取第二网页上的第二网页数据,进而输出第一网页数据与第二网页数据,根据第一网页数据即可查询到第二网页,进而获取到第二网页数据,将第一网页数据与第二网页数据按照类别进行分类,避免只查询到第一网页数据而导致的查询的网页数据有遗漏,进而导致分析网页数据不准确。附图说明图1为一实施例中网页数据处理方法的应用场景图;图2为一实施例中网页数据处理方法的流程图;图3为一实施例中网页数据处理装置的结构示意图;图4为一实施例中计算机设备的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本专利技术,并不用于限定本专利技术。在详细说明根据本专利技术的实施例前,应该注意到的是,所述的实施例主要在于与网页数据处理方法、装置、计算机设备及存储介质相关的步骤和装置组件的组合。因此,所述装置组件和方法步骤已经在附图中通过常规符号在适当的位置表示出来了,并且只示出了与理解本专利技术的实施例有关的细节,以免因对于得益于本专利技术的本领域普通技术人员而言显而易见的那些细节模糊了本专利技术的公开内容。在本文中,诸如左和右,上和下,前和后,第一和第二之类的关系术语仅仅用来区分一个实体或动作与另一个实体或动作,而不一定要求或暗示这种实体或动作之间的任何实际的这种关系或顺序。术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含,由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素,而且还包含没有明确列出的其他要素,或者为这种过程、方法、物品或者设备所固有的要素。请参见图1,图1提供一网页数据处理方法的应用场景图,其中包括网页数据处理平台、第一网站服务器与第二网站服务器,当网页数据处理平台从第一网站服务器获取到第一网页的网页数据时,则查询第一网页数据对应的第二网页地址,进而获取第二网页对应的网站的域名,当获取到的网站的域名的后缀与预存的标准域名的后缀相同时,则获取与标准域名对应的网络地址作为第二网本文档来自技高网...
网页数据处理方法、装置、计算机设备及存储介质

【技术保护点】
一种网页数据处理方法,其特征在于,所述方法包括:获取第一网页的第一网页数据,查询与所述第一网页数据关联的第二网页地址;从所述第二网页地址中获取所述第二网页对应的网站的域名,提取所述第二网页对应的网站的域名的后缀;当所述第二网页对应的网站的域名的后缀与预存的标准域名的后缀相同时,则获取与所述标准域名对应的网络地址作为所述第二网页的网络地址;根据所述第二网页的网络地址对所述第二网页进行访问,并爬取所述第二网页上的第二网页数据;将所述第一网页数据与所述第二网页数据分别输出至对应的类别。

【技术特征摘要】
1.一种网页数据处理方法,其特征在于,所述方法包括:获取第一网页的第一网页数据,查询与所述第一网页数据关联的第二网页地址;从所述第二网页地址中获取所述第二网页对应的网站的域名,提取所述第二网页对应的网站的域名的后缀;当所述第二网页对应的网站的域名的后缀与预存的标准域名的后缀相同时,则获取与所述标准域名对应的网络地址作为所述第二网页的网络地址;根据所述第二网页的网络地址对所述第二网页进行访问,并爬取所述第二网页上的第二网页数据;将所述第一网页数据与所述第二网页数据分别输出至对应的类别。2.根据权利要求1所述的方法,其特征在于,所述根据所述第二网页的网络地址对所述第二网页进行访问,并爬取所述第二网页上的第二网页数据的步骤,包括:当所述第二网页携带有限制访问标识时,则向代理服务器发送爬取所述第二网页上的网页数据的爬取指令;接收所述代理服务器返回的身份验证请求,并根据所述身份验证请求向所述代理服务器发送对应的身份标识;当所述身份标识经所述代理服务器验证成功时,则接收所述代理服务器返回的从所述第二网页上爬取到的网页数据。3.根据权利要求1所述的方法,其特征在于,所述根据所述第二网页的网络地址对所述网页进行访问,并爬取所述第二网页上的第二网页数据的步骤,包括:当所述第二网页未携带有限制访问标识时,则根据所述第二网页地址,获取所述第二网页对应的爬取逻辑与通信协议;根据所述第二网页对应的通信协议访问所述第二网页并遍历所述第二网页的第二网页数据;当遍历到与所述爬取逻辑对应的第二网页数据时,则爬取与所述爬取逻辑对应的第二网页数据。4.根据权利要求1所述的方法,其特征在于,所述将所述第一网页数据与所述第二网页数据分别输出至对应的类别的步骤,包括:将所述第一网页数据携带的网页标识以及所述第二网页数据携带的网页标识分别与已存取的网页标识进行匹配;当所述第一网页数据携带的网页标识以及所述第二网页数据携带的网页标识其中至少一个与已存储的网页标识不匹配时,则提取不匹配的网页数据的关键字;将不匹配的网页数据输出至与所述关键字对应的存储类别下。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:获取...

【专利技术属性】
技术研发人员:张澍滋
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1