一种URL分类方法和系统、数据处理方法和系统技术方案

技术编号:18458702 阅读:24 留言:0更新日期:2018-07-18 12:40
本申请提供了一种URL分类方法和系统、数据处理方法和系统,其中,该URL分类方法包括:确定待分类统一资源定位符URL中是否有查询参数名字段;如果没有查询参数名字段,则将所述待分类URL中的路径和文件名,作为所述待分类URL的标识数据;如果有查询参数名字段,则将所述待分类URL中的查询参数名和文件名,作为所述待分类URL的标识数据;根据所述标识数据,对所述待分类URL进行分类。利用本申请实施例提供的技术方案,可以解决现有技术中URL进行分析处理时,重复性操作太多,处理效率低下的技术问题,达到了提高URL的处理效率的技术效果。

URL classification method and system, data processing method and system

The present application provides a URL classification method and a system, data processing method and system, in which the URL classification method includes determining whether there is a query parameter name in the unified resource locator URL to be classified; if there is no query parameter name section, the path and the file name in the unclassified URL are divided as described. The identification data of the class URL; if there is a query parameter name segment, the query parameter name and the file name in the unclassified URL are used as the identification data of the unclassified URL; according to the identified data, the unclassified URL is classified. By using the technical scheme provided by this application example, the technical effect of improving the processing efficiency of the URL can be achieved by solving the technical problems of too many repeatability operations and low efficiency in the analysis and processing of URL in the existing technology.

【技术实现步骤摘要】
一种URL分类方法和系统、数据处理方法和系统
本申请属于数据处理
,尤其涉及一种URL分类方法和系统、数据处理方法和系统。
技术介绍
随着网络技术的不断发展,人们对互联网的使用也越来越多。对互联网数据的处理工作也变得更为繁琐。例如:对于网络流量而言,有些是正常的网络流量(例如:人们正常的方位流量),有些是异常的网络流量(例如:非法登陆、请求失败等等)。如何实现对网络流量的分析处理,对于互联网的安全和有序运行起着重要的作用。考虑到统一资源定位符(UniformResourceLocator,简称为URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。因此,对URL进行分析可以获知很多的网络信息,例如,通过对URL进行分析整理,可以知道哪些URL是有危险,哪些是安全的。对URL中所携带的信息进行检测,也可以知道网站的流量,以及浏览情况等等。然而,现有的对URL进行分析整理,一般是按照一条URL、一条URL的方式逐条遍历的方式进行处理的。即,对每条URL都进行具体的分析和处理,这显然是不合适的,这种方式大大增加了分析处理操作的工作量,降低了URL分析处理的效率。针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
本申请目的在于提供一种URL分类方法和系统、数据处理方法和系统,可以实现对URL的高效处理。本申请提供一种URL分类方法和系统、数据处理方法和系统是这样实现的:一种URL分类方法,所述方法包括:确定待分类统一资源定位符URL中是否有查询参数名字段;如果没有查询参数名字段,则将所述待分类URL中的路径和文件名,作为所述待分类URL的标识数据;如果有查询参数名字段,则将所述待分类URL中的查询参数名和文件名,作为所述待分类URL的标识数据;根据所述标识数据,对所述待分类URL进行分类。一种URL分类方法,所述方法包括:按照预设的字段提取规则,从待分类URL的中提取字段;将提取的字段,作为所述待分类URL的标识数据,其中,所述标识数据用于表征所述待分类URL的处理逻辑;根据所述标识数据,对所述待分类URL进行分类。一种数据处理方法,所述方法包括:将待审计的网站流量日志中的URL划分为多个类别,其中,同一类别中URL对应同一套处理逻辑;对同一类别中的多条URL,仅提取一条进行分析处理。一种URL分类系统,所述系统包括:确定模块,用于确定待分类URL中是否有查询参数名字段;第一生成模块,用于在确定没有查询参数名字段的情况下,将所述待分类URL中的路径和文件名,作为所述待分类URL的标识数据;第二生成模块,用于在确定有查询参数名字段的情况下,将所述待分类URL中的查询参数名和文件名,作为所述待分类URL的标识数据;划分模块,用于根据所述标识数据,对所述待分类URL进行分类。一种URL分类系统,所述系统包括:提取模块,用于按照预设的字段提取规则,从待分类URL的中提取字段;生成模块,用于将提取的字段,作为所述待分类URL的标识数据,其中,所述标识数据用于表征所述待分类URL的处理逻辑;划分模块,用于根据所述标识数据,对所述待分类URL进行分类。一种数据处理系统,所述系统包括:划分模块,用于将待审计的网站流量日志中的URL划分为多个类别,其中,同一类别中URL对应同一套处理逻辑;处理模块,用于对同一类别中的多条URL,仅提取一条进行分析处理。本申请提供的URL分类方法和系统、数据处理方法和系统,按照URL的处理逻辑的不同,提取URL中可以表征URL处理逻辑的标识数据,并根据该标识数据将URL划分为不同类别,同一类别中的URL适应于相同的处理逻辑,从而有效提高了URL的分类效率,且通过URL的分类也可以降低后续对URL进行集中处理时的操作重复性,从而解决了现有技术中URL进行分析处理时,重复性操作太多,处理效率低下的技术问题,达到了提高URL的处理效率的技术效果。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请提供的URL分类方法的一种实施例的方法流程图;图2是本申请提供的URL分类方法的另一种实施例的方法流程图;图3是本申请提供的URL特征提取示意图;图4是本申请提供的网络数据安全分析的原理示意图;图5是本申请提供的URL分类设备的硬件结构示意图;图6是本申请提供的URL分类装置的结构示意图;图7是本申请提供的数据处理系统的应用场景示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。专利技术人考虑到现有的URL所标识的网页实质上是一种文本,具备很大的相似性,因此,对于不同的URL往往有很多URL是采用同一套处理逻辑的,例如,同一网站中针对同一主题的URL,往往对应着相同的处理逻辑,如果对这些URL都分别进行分析处理,往往会造成很大的操作重复和资源浪费。因此,对URL进行分类就显得很有必要。为此,在本专利技术实施例中,提供了一种URL分类方法,如图1所示,可以包括以下步骤:步骤101:提取待分类URL的标识数据,其中,所述标识数据用于表征所述待分类URL的处理逻辑;上述的待分类URL可以从实时网络流量中提取的URL,也可以是从网络流量日志中提取的URL。因为URL自身是按照预定格式生成的,待分类URL可以是一条URL,也可以是多条URL组成的集合。URL中是可以包括以下组成部分,且每个组成部分的命名或者生成规则是固定的,例如,按照以下标准生成URL:协议://域名:端口/路径/文件名?查询参数名[数组下标]=查询变量。因此,URL自身所携带的内容可以标识这该条URL的诸多属性和信息,为了实现对URL的分类,从而使得对于适用于同一套处理逻辑的URL可以属于同一类别,因此,可以从URL自身提取标识数据,该标识数据可以表征待分类URL的处理逻辑。其中,标识数据可以是URL中某个或某几个完整的字段,也可以是URL中的某个或者某几个字段进行处理后的得到的字段。在本例中,可以按照预设的字段提取规则,提取待分类URL的标识数据,例如:可以从URL的结构中选择一个或者多个有标识性的字段,将这些字段作为URL的标识数据。在设定了标识字段之后,可以按照以下方式提取URL的标识数据:S1:确定待分类URL中是否有第一字段;S2:如果没有第一字段,则从待分类URL中提取第二字段和第三字段作为待分类URL的标识数据;S3:如果有第一字段,则确定第一字段中是否有用于传递变量值的字符;S4:如果有用于传递变量值的字符,则从第一字段中去除所述用于传递变量值的字符,将去除用于传递变量值的字符和所本文档来自技高网
...

【技术保护点】
1.一种URL分类方法,其特征在于,所述方法包括:确定待分类统一资源定位符URL中是否有查询参数名字段;如果没有查询参数名字段,则将所述待分类URL中的路径和文件名,作为所述待分类URL的标识数据;如果有查询参数名字段,则将所述待分类URL中的查询参数名和文件名,作为所述待分类URL的标识数据;根据所述标识数据,对所述待分类URL进行分类。

【技术特征摘要】
1.一种URL分类方法,其特征在于,所述方法包括:确定待分类统一资源定位符URL中是否有查询参数名字段;如果没有查询参数名字段,则将所述待分类URL中的路径和文件名,作为所述待分类URL的标识数据;如果有查询参数名字段,则将所述待分类URL中的查询参数名和文件名,作为所述待分类URL的标识数据;根据所述标识数据,对所述待分类URL进行分类。2.根据权利要求1所述的方法,其特征在于,将所述待分类URL中的查询参数名和文件名,作为所述待分类URL的标识数据,包括:确定所述查询参数名字段中是否有用于传递变量值的字符;如果有,则将所述待分类URL中的文件名、去除用于传递变量值的字符之后的查询参数名、以及不带有用于传递变量值的字符的查询参数名,作为所述待分类URL的标识数据。3.根据权利要求1所述的方法,其特征在于,在根据所述标识数据,对所述待分类URL进行分类之后,所述方法还包括:通过划分至的URL类别所对应的处理逻辑,确定所述待分类URL是否为安全的网络请求。4.一种URL分类方法,其特征在于,所述方法包括:按照预设的字段提取规则,从待分类URL的中提取字段;将提取的字段,作为所述待分类URL的标识数据,其中,所述标识数据用于表征所述待分类URL的处理逻辑;根据所述标识数据,对所述待分类URL进行分类。5.根据权利要求4所述的方法,其特征在于,按照预设的字段提取规则,从待分类URL的中提取字段,包括:确定所述待分类URL中是否有第一字段;如果没有第一字段,则从所述待分类URL中提取第二字段和第三字段作为所述待分类URL的标识数据;如果有第一字段,则确定所述第一字段中是否有用于传递变量值的字符;如果有用于传递变量值的字符,则从所述第一字段中去除所述用于传递变量值的字符,将去除用于传递变量值的字符和所述第三字段作为所述待分类URL的标识数据;如果没有用于传递变量值的字符,则将所述第一字段和所述第三字段作为所述待分类URL的标识数据。6.根据权利要求5所述的方法,其特征在于,所述第一字段为查询参数名字段,所述第二字段为路径字段,所述第三字段为文件名字段。7.根据权利要求5所述的方法,其特征在于,所述用于传递变量值的字符为数组下标。8.根据权利要求5所述的方法,其特征在于,将所述第一字段和所述第三字段作为所述待分类URL的标识数据,包括:将所述待分类URL中的查询参数名和文件名,以序列形式,作为所述待分类URL的标识数据。9.根据权利要求4至8中任一项所述的方法,其特征在于,在提取待分类URL的标识数据之前,还包括:从待安全审计的网站流量日志中提取一条URL作为所述待分类URL。10.根据权利要求4至8中任一项所述的方法,其特征在于,在根据所述标识数据,对所述待分类URL进行分类之后,还包括:通过划分至的URL类别所对应的处理逻辑,对所述待分类URL进行处理。11.根据权利要求10所述的方法,其特征在于,通过划分至的URL类别所对应的处理逻辑,对所述待分类URL进...

【专利技术属性】
技术研发人员:郭家龙
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1