网页的统一资源定位符URL的过滤方法和装置制造方法及图纸

技术编号:12814423 阅读:55 留言:0更新日期:2016-02-05 14:34
本发明专利技术公开了一种网页的统一资源定位符URL的过滤方法和装置,其中,该方法包括:获取待处理URL集合,其中,待处理URL集合包括多个待处理网页的URL;对待处理URL集合中的每个URL执行以下过滤操作,其中,待处理URL集合中当前执行以下过滤操作的URL为当前URL:根据预设的配置文件中的过滤标识符判断当前URL是否为待检测URL;若URL为待检测URL,则根据配置文件中的过滤字段对当前URL进行匹配;若根据过滤字段成功对当前URL进行匹配,则从待处理URL集合中过滤掉当前URL。本发明专利技术解决了由于现有技术无法过滤垃圾网页的URL的技术问题,从而实现了在过滤掉垃圾网页的URL之后进行Web安全扫描,提高Web安全扫描的效率。

【技术实现步骤摘要】

本专利技术涉及计算机领域,具体而言,涉及一种网页的统一资源定位符URL的过滤方法和装置
技术介绍
在对通用网关接口(CGI, Common Gateway Interface)进行网页Web安全扫描时,通常需要尽可能的收集所有CGI,并过滤掉其中的垃圾页面,提高Web安全扫描的效率。目前,本领域技术人员通常采集CGI的方法主要包括以下两种:一是通过网络爬虫,在互联网上爬取URL ;二是通过旁路WAF的流量来获取CGI。然而,上述这两种获取CGI的方法,都不可避免的收集到很多垃圾网页,其中,上述垃圾网页可以为不能访问的或者不存在的网页,这些垃圾网页在对Web安全扫描毫无意义,甚至在很大程度上影响了 Web安全扫描的效率。随着采集到的CGI的数量不断增加,通过上述CGI采集方法收集到的垃圾网页也随之增加,这样,在网页Web安全扫描的过程中,快速地从海量的URL中筛选出垃圾网页,并过滤掉垃圾网页对应的URL,就变得十分重要。然而,针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种网页的统一资源定位符URL的过滤方法和装置,以至少解决由于现有技术无法过滤垃圾网页的URL的技术问题。根据本专利技术实施例的一个方面,提供了一种网页的统一资源定位符URL的过滤方法,包括:获取待处理URL集合,其中,上述待处理URL集合包括多个待处理网页的URL ;对上述待处理URL集合中的每个URL执行以下过滤操作,其中,上述待处理URL集合中当前执行以下过滤操作的URL为当前URL:根据预设的配置文件中的过滤标识符判断上述当前URL是否为待检测URL ;若上述URL为上述待检测URL,则根据上述配置文件中的过滤字段对上述当前URL进行匹配;若根据上述过滤字段成功对上述当前URL进行匹配,则从上述待处理URL集合中过滤掉上述当前URL。根据本专利技术实施例的另一方面,还提供了一种网页的统一资源定位符URL的过滤装置,包括:获取单元,用于获取待处理URL集合,其中,上述待处理URL集合包括多个待处理网页的URL ;过滤单元,用于对上述待处理URL集合中的每个URL执行以下过滤操作,其中,上述待处理URL集合中当前执行以下过滤操作的URL为当前URL:根据预设的配置文件中的过滤标识符判断上述当前URL是否为待检测URL ;在上述URL为上述待检测URL时,根据上述配置文件中的过滤字段对上述当前URL进行匹配;在根据上述过滤字段成功对上述当前URL进行匹配时,从上述待处理URL集合中过滤掉上述当前URL。在本专利技术实施例中,通过利用配置文件对获取的待处理URL进行过滤,其中,上述配置文件中至少包括过滤标识符、过滤字段,通过利用过滤标识符判断上述待处理URL是否为待检测URL,以达到对上述URL进行初步筛选的目的,然后通过过滤字段对待检测的URL进行匹配,进而对成功匹配的URL进行过滤,从而实现了在Web安全扫描的过程中,不再对不必要的垃圾网页所对应的URL进行扫描,从而实现了提高Web安全扫描的效率。进而解决了由于现有技术无法过滤垃圾网页的URL的技术问题。此外,通过利用过滤字段中的特征参数和/或特征字符串,对上述待检测URL按照预定的匹配方式进行匹配,达到了对URL的准确过滤的目的,从而实现了提高对网页的统一资源定位符URL的过滤的准确性的技术效果。【附图说明】此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种可选的应用网页的统一资源定位符URL的过滤方法的硬件环境示意图;图2是根据本专利技术实施例的一种可选的网页的统一资源定位符URL的过滤方法的流程图;图3是根据本专利技术实施例的一种可选的获取网页的统一资源定位符URL的方法的流程图;图4是根据本专利技术实施例的一种可选的网页的统一资源定位符URL的过滤方法中的配置文件的示意图;图5是根据本专利技术实施例的另一种可选的网页的统一资源定位符URL的过滤方法的流程图;图6是根据本专利技术实施例的另一种可选的网页的统一资源定位符URL的过滤方法中的配置文件的示意图;图7是根据本专利技术实施例的一种可选的网页的统一资源定位符URL的过滤装置的示意图;以及图8是根据本专利技术实施例的一种可选的应用网页的统一资源定位符URL的过滤方法的服务器的示意图。【具体实施方式】为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例1根据本专利技术实施例,提供了一种网页的统一资源定位符URL的过滤方法,上述网页的统一资源定位符URL的过滤方法可以应用于如图1所示的硬件环境中,其中,用于对网页的统一资源定位符URL执行过滤的过滤服务器102可以通过网络与上述网页所在的网页服务器104建立链接,并对由上述网页服务器104发送的待处理的URL进行过滤。其中,上述网络包括但不限于:广域网、城域网或局域网。可选地,如图2所示,本实施例中的网页的URL的过滤方法包括:S202,获取待处理URL集合,其中,待处理URL集合包括多个待处理网页的URL ;S204,对待处理URL集合中的每个URL执行以下过滤操作,其中,待处理URL集合中当前执行以下过滤操作的URL为当前URL:S2042,根据预设的配置文件中的过滤标识符判断当前URL是否为待检测URL ;S2044,若URL为待检测URL,则根据配置文件中的过滤字段对当前URL进行匹配;S2046,若根据过滤字段成功对当前URL进行匹配,则从待处理URL集合中过滤掉当前URL ;S2048,若URL不为待检测URL,或者,若根据过滤字段没有对当前URL进行成功匹配,则不从待处理URL集合中过滤掉当前URL。可选地,在本实施例中,上述网页的统一资源定位符URL的过滤方法可以应用于Web安全扫描的过程中。例如,结合图1所示,在执行对上述Web安全扫描之前,获取上述待处理的URL集合,其中,上述待处理URL集合包括多个待处理网页的URL,对上述URL集合中的每个URL执行过滤操作,以使从过滤服务器102所获取的海量的URL中过滤掉不必要执行Web安全扫描的垃圾网页所对应的URL。上述举例只是一种示例,本实施例对此不做任何限定。可选地,在本实施例中,结合图3所示,在获取待处理的URL集合之前本文档来自技高网
...

【技术保护点】
一种网页的统一资源定位符URL的过滤方法,其特征在于,包括:获取待处理URL集合,其中,所述待处理URL集合包括多个待处理网页的URL;对所述待处理URL集合中的每个URL执行以下过滤操作,其中,所述待处理URL集合中当前执行以下过滤操作的URL为当前URL:根据预设的配置文件中的过滤标识符判断所述当前URL是否为待检测URL;若所述URL为所述待检测URL,则根据所述配置文件中的过滤字段对所述当前URL进行匹配;若根据所述过滤字段成功对所述当前URL进行匹配,则从所述待处理URL集合中过滤掉所述当前URL。

【技术特征摘要】

【专利技术属性】
技术研发人员:何双宁董昭马杰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1