网页中隐藏URL的提取方法、装置和系统制造方法及图纸

技术编号:9087058 阅读:201 留言:0更新日期:2013-08-28 23:37
本发明专利技术提出一种网页中隐藏动态统一资源定位符URL的提取方法、装置和系统,其中该方法包括以下步骤:获取并加载网页;对网页进行分析以提取网页中的JavaScript脚本中的事件句柄代码;以及通过JavaScript引擎加载事件句柄代码,并根据加载结果获取网页中隐藏的URL。根据本发明专利技术实施例方法,一方面在对网站进行安全测试时可以覆盖更多的隐藏在网页中的URL,提高了安全测试的效率和覆盖率,另一方面可以将本发明专利技术的方法提供给网络爬虫,网络爬虫通过获取的页面中隐藏的URL可以更深层次的挖掘网络中的信息,提升了网络爬虫的网络覆盖率。

【技术实现步骤摘要】
网页中隐藏URL的提取方法、装置和系统
本专利技术涉及计算机
,尤其涉及一种网页中隐藏URL的提取方法、装置和系统。
技术介绍
网络爬虫获取互联网中网页的URL(UniformResourceLocator,动态统一资源定位符),以通过搜索引擎等提供给用户更多的信息服务。目前,网络爬虫可以利用页面标签正则表达式匹配获取页面中的URL,这种静态的获取方法存在以下缺点:(1)无法获取页面加载过程中产生的URL;(2)无法获取页面加载后被服务器重定向的URL;(3)无法获取动态的网页中隐藏的URL。
技术实现思路
本专利技术旨在至少解决上述技术问题之一。为此,本专利技术的第一个目的在于提出一种网页中隐藏URL的提取方法。该方法一方面在对网站进行安全测试时可以覆盖更多的隐藏在网页中的URL,提高了安全测试的效率和覆盖率。本专利技术的第二个目的在于提出一种网页中隐藏URL的提取装置。本专利技术的第三个目的在于提出一种网页中隐藏URL的提取系统。为了实现上述目的,本专利技术第一方面实施例的文件中漏洞的检测方法包括以下步骤:获取并加载网页;对所述网页进行分析以提取所述网页中的JavaScript脚本中的事件句柄代码;以及通过JavaScript引擎加载所述事件句柄代码,并根据加载结果获取所述网页中隐藏的URL。根据本专利技术实施例的网页中隐藏URL的提取方法,浏览器通过JavaScript引擎加载从JavaScript脚本中提取的事件句柄,并根据加载结果获取网页中隐藏的URL,一方面在对网站进行安全测试时可以覆盖更多的隐藏在网页中的URL,提高了安全测试的效率和覆盖率,另一方面可以将本专利技术的方法提供给网络爬虫,网络爬虫通过获取的页面中隐藏的URL可以更深层次的挖掘网络中的信息,提升了网络爬虫的网络覆盖率。为了实现上述目的,本专利技术第二方面实施例的网页中隐藏URL的提取装置,包括:网页获取模块,用于获取并加载网页;分析提取模块,用于对所述网页进行分析以提取所述网页中的JavaScript脚本中的事件句柄代码;以及加载及URL获取模块,用于通过JavaScript引擎加载所述事件句柄代码,并根据加载结果获取所述网页中隐藏的URL。根据本专利技术实施例的网页中隐藏URL的提取装置,浏览器通过JavaScript引擎加载从JavaScript脚本中提取的事件句柄,并根据加载结果获取网页中隐藏的URL,一方面在对网站进行安全测试时可以覆盖更多的隐藏在网页中的URL,提高了安全测试的效率和覆盖率,另一方面可以将本专利技术的方法提供给网络爬虫,网络爬虫通过获取的页面中隐藏的URL可以更深层次的挖掘网络中的信息,提升了网络爬虫的网络覆盖率。为了实现上述目的,本专利技术第三方面实施例的网页中隐藏URL的提取系统,包括:搜索引擎;以及如权利要求6-9任一项所述的网页中隐藏URL的提取装置,所述提取装置将所述网页中隐藏的URL提供至所述搜索引擎。根据本专利技术实施例的网页中隐藏URL的提取系统,搜索引擎通过回调模块回调的页面中隐藏的URL可以更深层次的挖掘网络中的信息,提升了网络覆盖率。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,图1是根据本专利技术一个实施例的网页中隐藏URL的提取方法的流程图;图2是根据本专利技术一个具体实施例的网页中隐藏URL的提取方法的流程图;图3是根据本专利技术另一个具体实施例的网页中隐藏URL的提取方法的流程图;图4是根据本专利技术一个实施例的网页中隐藏URL的提取装置的结构示意图;图5是根据本专利技术一个具体实施例的网页中隐藏URL的提取装置的结构示意图;图6是根据本专利技术另一个具体实施例的网页中隐藏URL的提取装置的结构示意图;以及图7是根据本专利技术一个实施例的网页中隐藏URL的提取系统的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。此外,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本专利技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本专利技术的实施例所属
的技术人员所理解。下面参考附图描述根据本专利技术实施例的网页中隐藏URL的提取方法、装置和系统。目前,网络爬虫无法获取页面加载过程中产生的URL、页面加载后被服务器重定向的URL和动态的网页中隐藏的URL等,例如,在使用JavaScript脚本编写的网页中,大量的URL隐藏在JavaScript代码中,由于只有在用户和网页交互时才能产生对应的URL信息,网络爬虫很难获取到这些动态网页中隐藏的URL,如果浏览器通过JavaScript引擎模拟用户和网页的交互事件,可以获取模拟交互事件过程中产生的隐藏在JavaScript代码中的URL。为此,本专利技术提出了一种网页中隐藏URL的提取方法,包括以下步骤:获取并加载网页;对网页进行分析以提取网页中的JavaScript脚本中的事件句柄代码;以及通过JavaScript引擎加载事件句柄代码,并根据加载结果获取网页中隐藏的URL。图1是根据本专利技术一个实施例的网页中隐藏URL的提取方法的流程图。如图1所示,网页中隐藏URL的提取方法包括:S101,获取并加载网页。在本专利技术的一个实施例中,下述的S101-S103由浏览器完成。在本专利技术的一个实施例中,对浏览器的源码进行修改以获取浏览器加载网页过程中产生的URL。具体地,浏览器加载网页过程中,通过get函数或者post函数的向浏览器外部请求URL,其中通过post函数可以向浏览器外部请求URL同时还可以请求参数信息,例如,用户的ID等。通过对浏览器的源码进行修改,浏览器在加载网页过程中可以获取get函数和post函数向浏览器外部发出的请求,同时浏览器还可以获取post函数想浏览器外部请求的参数信息。更具体地,对于get函数来说,浏览器获取的参数信息会显示在URL之后,而对于post函数来说,浏览器获取的参数信息不会显示在URL之后,而是放置在http(Hypertexttransferprotocol,超文本传输协议)包的包体本文档来自技高网
...

【技术保护点】
一种网页中隐藏动态统一资源定位符URL的提取方法,其特征在于,包括以下步骤:S1:获取并加载网页;S2:对所述网页进行分析以提取所述网页中的JavaScript脚本中的事件句柄代码;以及S3:通过JavaScript引擎加载所述事件句柄代码,并根据加载结果获取所述网页中隐藏的URL。

【技术特征摘要】
1.一种网页中隐藏动态统一资源定位符URL的提取方法,其特征在于,包括以下步骤:S1:获取并加载网页;S2:对所述网页进行分析以提取所述网页中的JavaScript脚本中的事件句柄代码;S31:通过JavaScript引擎加载所述事件句柄代码,以模拟用户和网页之间的交互式事件,其中按照事件的类型确定模拟所述交互式事件的触发顺序;S32:对模拟所述交互式事件过程中产生的请求信息进行监控,并分析所述请求信息以获取浏览器向外部请求的URL;S33:将所述浏览器向外部请求的URL作为所述网页中隐藏的URL。2.如权利要求1所述的方法,其特征在于,所述步骤S1-S33由浏览器完成。3.如权利要求1-2任一项所述的方法,其特征在于,所述步骤S2进一步包括:S21:获取所述网页的文件对象模块DOM树结构;以及S22:根据所述网页的DOM树结构提取所述网页中的JavaScript脚本中的事件句柄代码。4.如权利要求1-2任一项所述的方法,其特征在于,还包括:保存获取的所述网页中隐藏的URL以供搜索引擎调取。5.一种网页中隐藏URL的提取装置,其特征在于,包括:网页获取模块,用于获取并加载网页;分析提取模块,用于对所述网页进行分析以提取所述网页中的JavaScript脚本中的事件句柄代码;...

【专利技术属性】
技术研发人员:周正吉李鸣雷张彪王丹练坤梅刘磊
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1