The embodiment of the invention provides a method and a device for classifying web page addresses. The method is applied to the electronic equipment: to be classified Web address; determining a first address group address group, the target page address, the address for the web page address second address groups exist in the authoritative database, second address groups including web addresses to be classified on the forward link shall be \the authoritative information group type different authority database, there is a corresponding relation between the authority web page address and weighted value of each group in the formula to calculate the weight information; the target page address corresponding to each information distribution in the group, it appears in the first address in the group number and score based on the scores of each group and to determine matching information to be classified\ the type of address; the highest scoring group to determine the type of information to be classified page address. Obviously, this scheme can identify the types of web addresses scientifically.
【技术实现步骤摘要】
一种网页地址分类方法及装置
本专利技术涉及网络通信
,特别是涉及一种网页地址分类方法及装置。
技术介绍
随着网络通信技术的迅速发展,互联网中的网页数目异常庞大。容易理解的是,按照不同的分类依据,这些网页对应的网页地址会被分成不同的类型。具体地,在一种分类方式中,这些网页地址被分为新闻类的、体育类的、购物类的等;在另一种分类方式中,这些网页地址被分为与工作相关的或者与工作无关的。对于现有技术而言,当对网页地址进行分类时,一般需要依赖于对样本网页地址的挑选和字典的生成。一般而言,当该网页地址对应的网页中的内容较少时,依靠上述分类方法根本无法得出该网页地址的明确分类。因此,如何对网页地址的分类进行科学地识别对于本领域技术人员而言是一个亟待解决的问题。
技术实现思路
本专利技术实施例的目的在于提供一种网页地址分类方法及装置,以对网页地址的分类进行科学地识别。本专利技术实施例提供了一种网页地址分类方法,应用于电子设备中,所述方法包括:获得待分类网页地址;确定第一地址组,所述第一地址组中包括目标网页地址,所述目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,所述第二地址组中包括所述待分类网页地址对应的网页中的各正向链接,所述权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系;基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分;将与所述待分类网页地址的匹配得分最高的权威信息组的类型确 ...
【技术保护点】
一种网页地址分类方法,其特征在于,应用于电子设备中,所述方法包括:获得待分类网页地址;确定第一地址组,所述第一地址组中包括目标网页地址,所述目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,所述第二地址组中包括所述待分类网页地址对应的网页中的各正向链接,所述权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系;基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分;将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型。
【技术特征摘要】
1.一种网页地址分类方法,其特征在于,应用于电子设备中,所述方法包括:获得待分类网页地址;确定第一地址组,所述第一地址组中包括目标网页地址,所述目标网页地址为第二地址组中的、存在于权威数据库中的网页地址,所述第二地址组中包括所述待分类网页地址对应的网页中的各正向链接,所述权威数据库中存储有类型互不相同的多个权威信息组,每个权威信息组中存储有权威网页地址与权重值之间的对应关系;基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分;将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型。2.根据权利要求1所述的方法,其特征在于,所述基于各权威信息组中所分布的每个目标网页地址对应的权重值、该目标网页地址在所述第一地址组中出现的次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分,包括:对各所述权威信息组中所分布的每个目标网页地址在所述第一地址组中出现的次数进行校准,以确定相应的校准次数;基于各权威信息组中分布的每个目标网页地址对应的权重值、该目标网页地址对应的校准次数,以及预设的匹配得分计算公式,确定各权威信息组与所述待分类网页地址的匹配得分。3.根据权利要求2所述的方法,其特征在于,对各所述权威信息组中所分布的每个目标网页地址在所述第一地址组中出现的次数进行校准,以确定相应的校准次数利用的公式为:ScientificMatchTime=MatchTime(1/M)其中,ScientificMatchTime为校准次数,MatchTime为任一目标网页地址在所述第一地址组中出现的次数,M为预设的开方次数,M大于或等于2。4.根据权利要求2所述的方法,其特征在于,计算任一权威信息组与所述待分类网页地址的匹配得分时利用的匹配得分计算公式为:其中,TypeScore为该权威信息组与所述待分类网页地址的匹配得分,n为该权威信息组中所分布的目标网页地址的个数,ScientificMatchTime(n)为该权威信息组中所分布的第n个目标网页地址对应的校准次数,Weight(n)为该权威信息组中所分布的第n个目标网页地址对应的权重值。5.根据权利要求1所述的方法,其特征在于,所述确定第一地址组之前,所述方法还包括:判断所述待分类网页地址是否存在于网页数据库的任一网页地址分组中,其中,所述网页数据库中存储有类型互不相同的多个网页地址分组;若为否,执行所述确定第一地址组的步骤。6.根据权利要求5所述的方法,其特征在于,所述将与所述待分类网页地址的匹配得分最高的权威信息组的类型确定为所述待分类网页地址的类型后,所述方法还包括:将所述待分类网页地址存储至类型为所述待分类网页地址的类型的网页地址分组中。7.根据权利要求1-6中任一项所述的方法,其特征在于,所述确定第一地址组之前,所述方法还包括:确定多个不同的类型,并创建包括有多个权威信息组的权威数据库,其中,所述权威信息组与所述类型一一对应;针对每个类型,确定对应的网页地址集合,其中,每个网页地址集合中包括第一预设数量个权威网页地址;确定每个类型对应的根集,其中,每个根集中包括该根集的类型对应的网页地址集合中的第二预设数量个权威网页地址;确定每个类型对应的扩展集合,其中,每个扩展集合中包括该扩展集合的类型对应的根集中的各权威网页地址对应的网页中的正向链接;基于每个类型对应的根集、扩展集合,以及超文本敏感标题搜索HITS算法,计算每个类型对应的根集中的各权威网页地址所对应的权重值;将计算得到的每个权威网页地址对应的权重值与该权威网页地址之间的对应关系存储至该权威网页地址的类型对应的权威信息组中。8.一种网页地址分类装置,其特征在于,应用于电子设备...
【专利技术属性】
技术研发人员:张惊申,鲁广平,
申请(专利权)人:新华三技术有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。