一种网页分类方法和设备技术

技术编号:8387166 阅读:146 留言:0更新日期:2013-03-07 07:49
本发明专利技术公开了一种网页分类方法和设备,该方法利用现有URL类别库中的记录,建立虚拟的层级URL,并对层级URL的类别进行预测。当需要对待分类网页进行分类时,根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。在本发明专利技术中,提高了网页分类的效率和成功率。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种网页分类方法和设备
技术介绍
随着移动互联网技术的高速发展,移动互联网用户的数量越来越多,因此,对移动互联网用户的行为分析也逐渐成为一个研究热点。现有技术中,通常根据移动互联网用户的访问日志对用户行为进行分析。具体的,移动互联网用户的访问日志存放在WAP (Wireless Application Protocol,无线应用通讯协议)网关中,该访问日志中记录了用户所访问的网页的URL (Universal ResourceLocator,统一资源定位符),通过查询URL类别库可以获知用户所访问的网页类别,进而获知对应用户的行为偏好。其中,现有网页分类方法可以包括以下步骤I、爬虫爬取网页内容;2、对网页内容进行解析,获取相应文本;3、对文本进行分析、获取关键词;4、利用算法模型,例如朴素贝叶斯或者SVM等文本分类算法模型,进行分类;其中,算法模型通常提前根据训练集训练得到。通过上述方法可以对用户所访问的网页(或网页对应的URL)进行分类,进而可以建立URL类别库。其中,现有技术中的URL类别库可以如表I所示。表I_预测类别权利要求1.一种网页分类方法,其特征在于,应用于基于统一资源定位符URL类别库实现的网页分类流程,所述URL类别库中记录有各层级URL及各URL的预测类别,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,该方法包括 根据待分类网页的URL查询URL类别库; 如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。2.如权利要求I所述的方法,其特征在于,所述根据该URL的上层URL查询URL类别库,包括 步骤A、生成该URL的上一层级URL,查询URL类别库中是否记录有该上一层级URL ; 步骤B、若查询到URL类别库中记录有相同的URL,则转至步骤C ;否则转至步骤A ; 步骤C、获取查询到的URL的预测类别。3.如权利要求I所述的方法,其特征在于,所述URL类别库的生成过程,包括 遍历所述URL类别库中的URL,并当遍历到一个URL时,从所述URL类别库中选择该URL,并根据选择出的URL生成该URL的上一层级URL ; 判断生成的上一层级URL是否已经存在于所述URL类别库中,并当所述URL类别库中不存在该上一层级URL时,确定该上一层级URL的预测类别,并将该上一层级URL及其预测类别记录在所述URL类别库中。4.如权利要求1-3之一所述的方法,其特征在于,除最低层级的URL以外,其余层级的URL的预测类别是根据该URL的下一层级URL的预测类别确定的。5.如权利要求4所述的方法,其特征在于,根据下一层级的URL的预测类别确定其上一层级的URL的预测类别,具体为 从所述URL类别库中获取其上一层级URL为该待预测类别的URL的所有URL ; 确定获取到的URL中各预测类别的URL的数量; 将其中URL数量最多的预测类别确定为该待预测类别的URL的预测类别。6.如权利要求4所述的方法,其特征在于,URL类别库中的各URL还各自对应有预测概率; 根据下一层级的URL的预测类别和预测概率确定其上一层级的URL的预测类别和预测概率,具体为 从所述URL类别库中获取其上一层级URL为该待预测类别和概率的URL的所有URL ; 对于每一预测类别的URL,计算该预测类别中的各URL的预测概率的加权平均值; 将加权平均值最高的预测类别确定为该待预测URL的预测类别,并将该预测类别的URL的预测概率的平均值确定为该待预测URL的预测概率。7.如权利要求I所述的方法,其特征在于,当所述URL类别库中增加了新的URL时,生成该URL的上层URL,并根据所述URL的上层URL查询URL类别库,若查询到匹配的URL,则更新该上层URL的预测类别;若未查询到匹配的URL,在URL类别库中记录该上层URL及对应的预测类别。8.如权利要求I所述的方法,其特征在于,确定URL的上一层级URL,具体为 根据URL中的分隔符对URL进行层级划分,并将该URL从末位向前的预设数量分隔符之前的字段作为该URL的上一层级URL。9.一种网页分类设备,其特征在于,应用于基于统一资源定位符URL类别库实现的网页分类流程,所述URL类别库中记录有各层级URL及各URL的预测类别,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,该设备包括 上层URL生成模块,用于根据待分类网页的URL,生成该URL的上层URL ; 查询模块,用于根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库; 确定模块,用于在所述查询模块查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。10.如权利要求9所述的设备,其特征在于, 所述上层URL生成模块具体用于,当所述查询模块未查询到匹配的URL时,生成该URL的上一层级URL ; 所述查询模块具体通过以下流程查询待分类网页的URL的上层URL的预测类别 步骤A、获取该URL的上一层级URL,查询URL类别库中是否记录有该上一层级URL ; 步骤B、若查询到URL类别库中记录有相同的URL,则转至步骤C ;否则转至步骤A ; 步骤C、获取查询到的URL的预测类别; 所述确定模块具体用于,将所述查询模块查询到的URL预测类别确定为所述待分类网页的类别。11.如权利要求9所述的设备,其特征在于,还包括URL类别库维护模块; 所述上层URL生成模块具体用于,遍历所述URL类别库中的URL,并当遍历到一个URL时,从所述URL类别库中选择该URL,并根据选择出的URL生成该URL的上一层级URL ;所述查询模块具体用于,根据所述上层URL生成模块生成的上一层级URL查询URL类别库; 所述URL类别维护模块用于,当所述查询模块未查询到匹配的URL时,确定该上一层级URL的预测类别,并将该上一层级URL及其预测类别记录在所述URL类别库中。12.如权利要求9-11之一所述的设备,其特征在于,所述URL类别库维护模块具体用于,根据URL的下一层级URL的预测类别确定除最低层级以外其余层级的URL的预测类别。13.如权利要求15所述的设备,其特征在于,所述URL类别库维护模块具体用于,从所述URL类别库中获取其上一层级URL为待预测类别的URL的所有URL ;确定获取到的URL中各预测类别的URL的数量;将其中URL数量最多的预测类别确定为该待预测类别的URL的预测类别。14.如权利要求12所述的设备,其特征在于,URL类别库中的各URL还各自对应有预测概率; 所述URL类别库维护模块具体用于,从所述URL类别库中获取其上一层级URL为该待预测类别和概率的URL的所有URL ;对于每一预测类别的URL,计算该预测类别中的各URL的预测概率的加权平均值;将加权平均值最高的预测类别确定为该待预测URL的预测类另O,并将该预测类别的URL的预测概率的平均值确定为该待预测URL的预测概率。15.如权利要求12本文档来自技高网...

【技术保护点】
一种网页分类方法,其特征在于,应用于基于统一资源定位符URL类别库实现的网页分类流程,所述URL类别库中记录有各层级URL及各URL的预测类别,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,该方法包括:根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐萌何洪凌胡珉罗治国孙少陵陶涛陈婷张新访李成华
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1