一种网页地址分类方法及装置制造方法及图纸

技术编号:15690933 阅读:66 留言:0更新日期:2017-06-24 03:43
本发明专利技术实施例提供了一种网页地址分类方法及装置。该方法应用于电子设备,包括:获得待分类网页地址;确定第一地址组,该地址组包括目标网页地址,该地址为第二地址组中存在于权威数据库的网页地址,第二地址组中包括待分类网页地址对应的网页中的正向链接,权威数据库中具有类型互不相同的权威信息组,每个信息组中具有权威网页地址与权重值的对应关系;基于各信息组中分布的目标网页地址对应的权重值、其在第一地址组中出现的次数及得分计算公式,确定各信息组与待分类网页地址的匹配得分;将得分最高的信息组的类型确定为待分类网页地址的类型。可见,本方案可以对网页地址的类型进行科学地识别。

Method and device for classifying web page address

The embodiment of the invention provides a method and a device for classifying web page addresses. The method is applied to the electronic equipment: to be classified Web address; determining a first address group address group, the target page address, the address for the web page address second address groups exist in the authoritative database, second address groups including web addresses to be classified on the forward link shall be \the authoritative information group type different authority database, there is a corresponding relation between the authority web page address and weighted value of each group in the formula to calculate the weight information; the target page address corresponding to each information distribution in the group, it appears in the first address in the group number and score based on the scores of each group and to determine matching information to be classified\ the type of address; the highest scoring group to determine the type of information to be classified page address. Obviously, this scheme can identify the types of web addresses scientifically.

【技术实现步骤摘要】
一种网页地址分类方法及装置
本专利技术涉及网络通信
,特别是涉及一种网页地址分类方法及装置。
技术介绍
随着网络通信技术的迅速发展,互联网中的网页数目异常庞大。容易理解的是,按照不同的分类依据,这些网页对应的网页地址会被分成不同的类型。具体地,在一种分类方式中,这些网页地址被分为新闻类的、体育类的、购物类的等;在另一种分类方式中,这些网页地址被分为与工作相关的或者与工作无关的。对于现有技术而言,当对网页地址进行分类时,一般需要依赖于对样本网页地址的挑选和字典的生成。一般而言,当该网页地址对应的网页中的内容较少时,依靠上述分类方法根本无法得出该网页地址的明确分类。因此,如何对网页地址的分类进行科学地识别对于本领域技术人员而言是一个亟待解决的问题。
技术实现思路
本专利技术实施例的目的在于提供一种网页地址分类方法及装置,以对网页地址的分类进行科学地识别。本专利技术实施例提供了一种网页地址分类方法,应用于电子设备中,所述方法包括:获得待分类网页地址;确定第一地址组,所述第一地址组中包括目标网页地址,所述目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,所述第二地址组中包括所述待分类网页地址对应的网页中的各正向链接,所述权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系;基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分;将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型。本专利技术实施例提供了一种网页地址分类装置,应用于电子设备中,所述装置包括:获得模块,用于获得待分类网页地址;地址组确定模块,用于确定第一地址组,所述第一地址组中包括目标网页地址,所述目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,所述第二地址组中包括所述待分类网页地址对应的网页中的各正向链接,所述权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系;匹配得分确定模块,用于基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分;分类模块,用于将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型。本方案中,当电子设备获得待分类网页地址后,电子设备会对该待分类网页地址的类型进行识别。在类型识别过程中,电子设备需要先确定待分类网页地址对应的网页中的各正向链接组成的第二地址组,接下来,电子设备会确定第二地址组中的、存在于权威数据库中的各目标网页地址组成的第一地址组。之后,基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在第一地址组中出现的次数,以及预设的匹配得分计算公式,电子设备可以非常容易地确定出各权威信息组与待分类网页地址的匹配得分。最终,电子设备可以将与待分类网页地址的匹配得分最高的权威信息组的类型确定为该待分类网页地址的类型。容易看出,在本方案中,电子设备对待分类网页地址的类型的识别仅仅依赖于待分类网页地址对应的网页中的各正向链接和权威数据库,电子设备无需利用其它的信息,故即使在待分类网页地址对应的网页中的内容较少时,电子设备也能够对待分类网页地址的类型进行科学地识别。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例所提供的一种网页地址分类方法的流程图;图2为本专利技术实施例所提供的一种网页地址分类方法的又一流程图;图3为本专利技术实施例所提供的一种网页地址分类方法的再一流程图;图4为网页1、网页2和网页3的指向关系图;图5为本专利技术实施例所提供的一种网页地址分类装置的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了解决现有技术存在的问题,本专利技术实施例提供了一种网页地址分类方法及装置。下面首先对本专利技术实施例所提供的一种网页地址分类方法进行说明。需要说明的是,本专利技术实施例所提供的一种网页地址分类方法应用于电子设备。具体地,该电子设备可以为防火墙设备,当然,该电子设备的类型并不局限于此,具体可以根据实际情况来确定,在此不再一一赘述。参见图1,图中示出了本专利技术实施例所提供的一种网页地址分类方法的流程图。如图1所示,该方法可以包括如下步骤:S101,获得待分类网页地址。S102,确定第一地址组,第一地址组中包括目标网页地址,目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,第二地址组中包括待分类网页地址对应的网页中的各正向链接,权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系。需要说明的是,权威数据库存在着两种部署方式。一种部署方式中,权威数据库可以位于该电子设备上,这样,在获得待分类网页地址后,该电子设备可以直接利用自身的该权威数据库来执行S102。另一种部署方式中,权威数据库可以位于能够与该电子设备进行信息交互的另一电子设备上,这样,在获得待分类网页地址后,该电子设备可以通过通信接口对位于另一电子设备上的权威数据库进行访问,以执行S102。可以理解的是,权威网页是指与某个领域或者某个话题相关的高质量网页。举例而言,在搜索引擎领域,Google、Baidu、bing、sogou和soso首页为该领域的高质量网页,故Google、Baidu、bing、sogou和soso首页为搜索引擎领域的权威网页;在视频领域,优酷和土豆首页为该领域的高质量网页,故优酷和土豆首页为视频领域的权威网页。需要指出的是,权威网页地址即为权威网页的地址,权威信息组为包括了权威网页地址与权重值之间的对应关系的信息组,而权威数据库则为包括了多个类型互不相同的权威信息组的数据库。需要强调的是,电子设备确定权威网页地址对应的权重值的具体实现形式多样,为了布局清楚,后续进行举例介绍。容易看出,权威数据库的各权威信息组中的每个网页地址均为权威网页地址,这样,第一地址组中的每个目标网页地址也应当是权威网页地址,电子设备后续计算匹配得分时利用的也是与权威网页地址相关的信息,相应地,后续得到的匹配得分的权威性能够得到较好地保证。对于电子设备而言,在获得待分类网页地址之后,其可以利用爬虫对待分类网页地址对应的网页进行访问,以得到待分类网页地址对应的网页中的各正向链接,这些正向链接的集合构成了第二地址组。接下来,电子设备可以将第二地址组中的各正向链接与权威数据库中的所有权威网页地址进行遍历比较,以确定第二地址组中的、存在于权本文档来自技高网...
一种网页地址分类方法及装置

【技术保护点】
一种网页地址分类方法,其特征在于,应用于电子设备中,所述方法包括:获得待分类网页地址;确定第一地址组,所述第一地址组中包括目标网页地址,所述目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,所述第二地址组中包括所述待分类网页地址对应的网页中的各正向链接,所述权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系;基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分;将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型。

【技术特征摘要】
1.一种网页地址分类方法,其特征在于,应用于电子设备中,所述方法包括:获得待分类网页地址;确定第一地址组,所述第一地址组中包括目标网页地址,所述目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,所述第二地址组中包括所述待分类网页地址对应的网页中的各正向链接,所述权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系;基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分;将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型。2.根据权利要求1所述的方法,其特征在于,所述基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分,包括:对各所述权威信息组中所分布的每个目标网页地址在所述第一地址组中出现的次数进行校准,以确定相应的校准次数;基于各权威信息组中分布的每个目标网页地址对应的权重值、该目标网页地址对应的校准次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分。3.根据权利要求2所述的方法,其特征在于,对各所述权威信息组中所分布的每个目标网页地址在所述第一地址组中出现的次数进行校准,以确定相应的校准次数利用的公式为:ScientificMatchTime=MatchTime(1/M)其中,ScientificMatchTime为校准次数,MatchTime为任一目标网页地址在所述第一地址组中出现的次数,M为预设的开方次数,M大于或等于2。4.根据权利要求2所述的方法,其特征在于,计算任一权威信息组与所述待分类网页地址的匹配得分时利用的匹配得分计算公式为:其中,TypeScore为该权威信息组与所述待分类网页地址的匹配得分,n为该权威信息组中所分布的目标网页地址的个数,ScientificMatchTime(n)为该权威信息组中所分布的第n个目标网页地址对应的校准次数,Weight(n)为该权威信息组中所分布的第n个目标网页地址对应的权重值。5.根据权利要求1所述的方法,其特征在于,所述确定第一地址组之前,所述方法还包括:判断所述待分类网页地址是否存在于网页数据库的任一网页地址分组中,其中,所述网页数据库中存储有类型互不相同的多个网页地址分组;若为否,执行所述确定第一地址组的步骤。6.根据权利要求5所述的方法,其特征在于,所述将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型后,所述方法还包括:将所述待分类网页地址存储至类型为所述待分类网页地址的类型的网页地址分组中。7.根据权利要求1-6中任一项所述的方法,其特征在于,所述确定第一地址组之前,所述方法还包括:确定多个不同的类型,并创建包括有多个权威信息组的权威数据库,其中,所述权威信息组与所述类型一一对应;针对每个类型,确定对应的网页地址集合,其中,每个网页地址集合中包括第一预设数量个权威网页地址;确定每个类型对应的根集,其中,每个根集中包括该根集的类型对应的网页地址集合中的第二预设数量个权威网页地址;确定每个类型对应的扩展集合,其中,每个扩展集合中包括该扩展集合的类型对应的根集中的各权威网页地址对应的网页中的正向链接;基于每个类型对应的根集、扩展集合,以及超文本敏感标题搜索HITS算法,计算每个类型对应的根集中的各权威网页地址所对应的权重值;将计算得到的每个权威网页地址对应的权重值与该权威网页地址之间的对应关系存储至该权威网页地址的类型对应的权威信息组中。8.一种网页地址分类装置,其特征在于,应用于电子设备...

【专利技术属性】
技术研发人员:张惊申鲁广平
申请(专利权)人:新华三技术有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1