【技术实现步骤摘要】
本专利技术涉及互联网
,尤其涉及一种网页分类方法和设备。
技术介绍
随着移动互联网技术的高速发展,移动互联网用户的数量越来越多,因此,对移动互联网用户的行为分析也逐渐成为一个研究热点。现有技术中,通常根据移动互联网用户的访问日志对用户行为进行分析。具体的,移动互联网用户的访问日志存放在WAP (Wireless Application Protocol,无线应用通讯协议)网关中,该访问日志中记录了用户所访问的网页的URL (Universal ResourceLocator,统一资源定位符),通过查询URL类别库可以获知用户所访问的网页类别,进而获知对应用户的行为偏好。其中,现有网页分类方法可以包括以下步骤I、爬虫爬取网页内容;2、对网页内容进行解析,获取相应文本;3、对文本进行分析、获取关键词;4、利用算法模型,例如朴素贝叶斯或者SVM等文本分类算法模型,进行分类;其中,算法模型通常提前根据训练集训练得到。通过上述方法可以对用户所访问的网页(或网页对应的URL)进行分类,进而可以建立URL类别库。其中,现有技术中的URL类别库可以如表I所示。表I_预测类 ...
【技术保护点】
一种网页分类方法,其特征在于,应用于基于统一资源定位符URL类别库实现的网页分类流程,所述URL类别库中记录有各层级URL及各URL的预测类别,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,该方法包括:根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。
【技术特征摘要】
【专利技术属性】
技术研发人员:徐萌,何洪凌,胡珉,罗治国,孙少陵,陶涛,陈婷,张新访,李成华,
申请(专利权)人:中国移动通信集团公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。