一种对URL进行分类的方法及装置制造方法及图纸

技术编号:10220684 阅读:109 留言:0更新日期:2014-07-16 20:40
本发明专利技术公开了一种对统一资源定位符(URL)进行分类的方法及装置,包括根据URL分类库中的目标URL与分类信息的对应关系,对每一个目标URL按照字符进行处理,构建URL分类库的分类树;当有URL需要分类时,待分类URL在分类树中按照自身的组成字符进行逐一字符匹配,确定待分类URL的分类信息。本发明专利技术方法中,在建立分类树时,以目标URL字符的ASCII码的数值作为Tree中的节点数组的下标来构建URL树,即采用树型结构存储目标URL分类库。这样,在进行URL分类时,只需要对待分类URL做一次逐一字符的访问,即可完成分类过程,提高了分类效率并实现了快速分类,进而实现了对万亿级的上网记录数据中用户访问的URL的快速分类。

【技术实现步骤摘要】
一种对URL进行分类的方法及装置
本专利技术涉及互联网技术,尤指一种对统一资源定位符(URL,UniformResourceLocator)进行分类的方法及装置。
技术介绍
目前,在对上网记录数据中用户访问的某个URL进行分类时,需要将该待分类URL的整个URL与分类库中的各目标URL逐一进行匹配,如果能够匹配上,则返回匹配上的分类库中的目标URL对应的分类信息。以分类库中有100个目标URL为例,一次分类过程的平均匹配次数会在50次以上,而最大匹配系数则会是100次。在现有对URL进行分类的方法中,对URL的匹配是:将组成待分类URL的整个字符串与分类库中的各目标URL逐一进行比较,效率不高;而且,当分类库中的目标URL数量增加时,匹配时间将大幅增加。由于互联网产业的迅速发展,用户上网记录数据的数量也呈现爆发式的增长,这样,要实现对万亿级的上网记录数据中用户访问的URL的快速分类,成为了一个难题。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种对URL进行分类的方法及装置,能够提高效率并实现快速分类。为了达到本专利技术目的,本专利技术提供了一种对URL进行分类的方法,包括:根据URL分类库中的目标URL与分类信息的对应关系,对每一个目标URL按照字符进行处理,构建URL分类库的分类树;当有URL需要分类时,待分类URL在分类树中按照自身的组成字符进行逐一字符匹配,确定待分类URL的分类信息。该方法之前还包括:建立所述URL分类库,URL分类库中的内容包括:一个或一个以上目标URL,各目标URL对应的分类信息。所述对每一个目标URL按照字符进行处理,构建URL分类库的分类树包括:依次取出所述目标URL中的字符,以取出的字符的ASCII码作为分类树中的节点数组node[]的下标;访问所述node[ASCII]的节点,直至目标URL的最后一个字符,则将所述对应的分类信息存储到节点数组node[ASCII]的目标obj域。所述确定待分类URL的分类信息包括:依次取出所述待分类URL中一个字符,以该字符的ASCII码作为所述分类树中的节点数组node[]的下标,访问所述分类树的节点数组node[ASCII]的节点,如果其对应的目标obj域已存有分类信息,则确定所述目标obj域中的分类信息为待分类URL的分类信息。如果所述目标obj域为空,且已经访问到所述待分类URL的最后一个字符,该方法还包括:确定所述分类信息为空。本专利技术还公开了一种对URL进行分类的方法,至少包括构建模块、分类模块,其中,构建模块,用于根据URL分类库中的目标URL与分类信息的对应关系,对每一个目标URL按照字符进行处理,构建URL分类库的分类树;分类模块,用于当有URL需要分类时,待分类URL在分类树中按照自身的组成字符进行逐一字符匹配,确定待分类URL的分类信息。与现有技术相比,本专利技术包括根据URL分类库中的目标URL与分类信息的对应关系,对每一个目标URL按照字符进行处理,构建URL分类库的分类树;当有URL需要分类时,待分类URL在分类树中按照自身的组成字符进行逐一字符匹配,确定待分类URL的分类信息。本专利技术方法中,在建立分类树时,以目标URL字符的ASCII码的数值作为Tree中的节点数组node[]数组的下标来构建URL树,即采用树型结构存储目标URL分类库。这样,在进行URL分类时,只需要对待分类URL做一次逐一字符的访问,即可完成分类过程,提高了分类效率并实现了快速分类,进而实现了对万亿级的上网记录数据中用户访问的URL的快速分类。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。图1为本专利技术对URL进行分类的方法的流程图;图2为本专利技术构建URL分类库的分类树的示意图;图3为本专利技术对URL进行分类的装置的组成结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1为本专利技术对URL进行分类的方法的流程图,如图1所示,包括:步骤100:根据URL分类库中的目标URL与分类信息的对应关系,对每一个目标URL按照字符进行处理,构建URL分类库的分类树。本步骤的目的在于,在分类库中的目标URL与分类信息之间,按照目标URL中的字符,建立树形的对应关系。本步骤具体实现包括:首先,建立一个URL分类库,URL分类库中的内容包括:一个或一个以上目标URL,以及各目标URL对应的分类信息。比如:目标URL为“www.baidu.com”,对应的分类信息为“百度”;目标URL为“www.sina.com”,对应的分类信息为“新浪”,等等。然后,对每一个目标URL按照字符进行处理,构建URL分类库的分类树,具体包括:依次取出目标URL的字符,以取出的字符的ASCII码作为分类树(Tree)中的节点数组node[]的下标,从根节点开始访问node[ASCII]的节点,直至目标URL的最后一个字符,则将分类信息存储到node[ASCII]的目标(obj)域中;如果未到目标URL的最后一个字符,接着取出下一个字符,对*tree指向的子树重复上述访问过程,直至目标URL的最后一个字符,如图2所示。其中,分类树包括两类数据结构即tree和node[],具体地,在tree节点中包含一个node[]数组,node[]数组中的每一个节点中有两个域,一个域是*tree指向本节点的子树的指针,子树结构和根节点相同;另一个域是obj,用于存储URL的分类信息。按照本步骤建立出的分类树,本专利技术分类表中的目标URL中的每一个字符,对应分类树中的一层即子树。以目标URL为“www.baidu.com”,对应的分类信息为“百度”;目标URL为“www.sina.com”,对应的分类信息为“新浪”;目标URL为“www.sohu.com”,对应的分类信息为“搜狐”为例,通过本步骤按照目标URL中的字符,建立树形的对应关系是:第一层子树对应URL中的第一个w,第二层子树对应URL中的第二个w,第三层子树对应URL中的第三个w,这三层子树是上述两个URL的公共的子树;第四层子树有两个分支,即对应b的第四层子树一和对应s的公共的第四层子树二;第五层子树有三个分支,即对应a的第五层子树一、对应i的第五层子树二,以及对应o的第五层子树三,以此类推,对于目标URL为“www.baidu.com”的最后一层子树对应m,且其目标obj域的值为“百度”,对于目标URL为“www.sina.com”的最后一层子树对应m,且其目标obj域的值为“新浪”,对于目标URL为“www.sohu.本文档来自技高网...
一种对URL进行分类的方法及装置

【技术保护点】
一种对统一资源定位符URL进行分类的方法,其特征在于,包括:根据URL分类库中的目标URL与分类信息的对应关系,对每一个目标URL按照字符进行处理,构建URL分类库的分类树;当有URL需要分类时,待分类URL在分类树中按照自身的组成字符进行逐一字符匹配,确定待分类URL的分类信息。

【技术特征摘要】
1.一种对统一资源定位符URL进行分类的方法,其特征在于,包括:根据URL分类库中的目标URL与分类信息的对应关系,对每一个目标URL按照字符进行处理,构建URL分类库的分类树;当有URL需要分类时,待分类URL在分类树中按照自身的组成字符进行逐一字符匹配,确定待分类URL的分类信息;所述对每一个目标URL按照字符进行处理,构建URL分类库的分类树包括:依次取出所述目标URL中的字符,以取出的字符的ASCII码作为分类树中的节点数组node[]的下标;访问所述node[ASCII]的节点,直至目标URL的最后一个字符,则将所述目标URL对应的分类信息存储到节点数组node[ASCII]的目标obj域。2.根据权利要求1所述的方法,其特征在于,该方法之前还包括:建立所述URL分类库,URL分类库中的内容包括:一个或以上目标URL,各目标URL对应的分类信息。3.根据权利要求1所述的方法,其特征在于,所述确定待分类URL的分类信息包括:依次取出所述待分类URL中一个字符,以该字符的ASCII码作为所述分类树中的节点数组node[]的下标,访问...

【专利技术属性】
技术研发人员:贾卷群
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1