The present application provides a URL classification method and a system, data processing method and system, in which the URL classification method includes determining whether there is a query parameter name in the unified resource locator URL to be classified; if there is no query parameter name section, the path and the file name in the unclassified URL are divided as described. The identification data of the class URL; if there is a query parameter name segment, the query parameter name and the file name in the unclassified URL are used as the identification data of the unclassified URL; according to the identified data, the unclassified URL is classified. By using the technical scheme provided by this application example, the technical effect of improving the processing efficiency of the URL can be achieved by solving the technical problems of too many repeatability operations and low efficiency in the analysis and processing of URL in the existing technology.
【技术实现步骤摘要】
一种URL分类方法和系统、数据处理方法和系统
本申请属于数据处理
,尤其涉及一种URL分类方法和系统、数据处理方法和系统。
技术介绍
随着网络技术的不断发展,人们对互联网的使用也越来越多。对互联网数据的处理工作也变得更为繁琐。例如:对于网络流量而言,有些是正常的网络流量(例如:人们正常的方位流量),有些是异常的网络流量(例如:非法登陆、请求失败等等)。如何实现对网络流量的分析处理,对于互联网的安全和有序运行起着重要的作用。考虑到统一资源定位符(UniformResourceLocator,简称为URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。因此,对URL进行分析可以获知很多的网络信息,例如,通过对URL进行分析整理,可以知道哪些URL是有危险,哪些是安全的。对URL中所携带的信息进行检测,也可以知道网站的流量,以及浏览情况等等。然而,现有的对URL进行分析整理,一般是按照一条URL、一条URL的方式逐条遍历的方式进行处理的。即,对每条URL都进行具体的分析和处理,这显然是不合适的,这种方式大大增加了分析处理操作的工作量,降低了URL分析处理的效率。针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
本申请目的在于提供一种URL分类方法和系统、数据处理方法和系统,可以实现对URL的高效处理。本申请提供一种URL分类方法和系统、数据处理方法和系统是这样实现的:一种URL分类方法,所述方法包括:确定待分类统一资源定 ...
【技术保护点】
1.一种URL分类方法,其特征在于,所述方法包括:确定待分类统一资源定位符URL中是否有查询参数名字段;如果没有查询参数名字段,则将所述待分类URL中的路径和文件名,作为所述待分类URL的标识数据;如果有查询参数名字段,则将所述待分类URL中的查询参数名和文件名,作为所述待分类URL的标识数据;根据所述标识数据,对所述待分类URL进行分类。
【技术特征摘要】
1.一种URL分类方法,其特征在于,所述方法包括:确定待分类统一资源定位符URL中是否有查询参数名字段;如果没有查询参数名字段,则将所述待分类URL中的路径和文件名,作为所述待分类URL的标识数据;如果有查询参数名字段,则将所述待分类URL中的查询参数名和文件名,作为所述待分类URL的标识数据;根据所述标识数据,对所述待分类URL进行分类。2.根据权利要求1所述的方法,其特征在于,将所述待分类URL中的查询参数名和文件名,作为所述待分类URL的标识数据,包括:确定所述查询参数名字段中是否有用于传递变量值的字符;如果有,则将所述待分类URL中的文件名、去除用于传递变量值的字符之后的查询参数名、以及不带有用于传递变量值的字符的查询参数名,作为所述待分类URL的标识数据。3.根据权利要求1所述的方法,其特征在于,在根据所述标识数据,对所述待分类URL进行分类之后,所述方法还包括:通过划分至的URL类别所对应的处理逻辑,确定所述待分类URL是否为安全的网络请求。4.一种URL分类方法,其特征在于,所述方法包括:按照预设的字段提取规则,从待分类URL的中提取字段;将提取的字段,作为所述待分类URL的标识数据,其中,所述标识数据用于表征所述待分类URL的处理逻辑;根据所述标识数据,对所述待分类URL进行分类。5.根据权利要求4所述的方法,其特征在于,按照预设的字段提取规则,从待分类URL的中提取字段,包括:确定所述待分类URL中是否有第一字段;如果没有第一字段,则从所述待分类URL中提取第二字段和第三字段作为所述待分类URL的标识数据;如果有第一字段,则确定所述第一字段中是否有用于传递变量值的字符;如果有用于传递变量值的字符,则从所述第一字段中去除所述用于传递变量值的字符,将去除用于传递变量值的字符和所述第三字段作为所述待分类URL的标识数据;如果没有用于传递变量值的字符,则将所述第一字段和所述第三字段作为所述待分类URL的标识数据。6.根据权利要求5所述的方法,其特征在于,所述第一字段为查询参数名字段,所述第二字段为路径字段,所述第三字段为文件名字段。7.根据权利要求5所述的方法,其特征在于,所述用于传递变量值的字符为数组下标。8.根据权利要求5所述的方法,其特征在于,将所述第一字段和所述第三字段作为所述待分类URL的标识数据,包括:将所述待分类URL中的查询参数名和文件名,以序列形式,作为所述待分类URL的标识数据。9.根据权利要求4至8中任一项所述的方法,其特征在于,在提取待分类URL的标识数据之前,还包括:从待安全审计的网站流量日志中提取一条URL作为所述待分类URL。10.根据权利要求4至8中任一项所述的方法,其特征在于,在根据所述标识数据,对所述待分类URL进行分类之后,还包括:通过划分至的URL类别所对应的处理逻辑,对所述待分类URL进行处理。11.根据权利要求10所述的方法,其特征在于,通过划分至的URL类别所对应的处理逻辑,对所述待分类URL进...
【专利技术属性】
技术研发人员:郭家龙,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。