一种网页分类方法和装置制造方法及图纸

技术编号:7273357 阅读:272 留言:0更新日期:2012-04-15 22:19
本发明专利技术实施例公开了一种网页分类方法和装置。该方法包括:确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置信息;根据所述内容信息和所述位置信息对所述待分类网页进行分类。该装置包括确定模块和分类模块;所述确定模块,确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置信息;所述分类模块,根据所述内容信息和所述位置信息对所述待分类网页进行分类。应用本发明专利技术实施例能够提高网页分类的性能。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种网页分类方法和装置
技术介绍
在互联网
,经常需要对网页进行分类。衡量网页分类方法的指标包括召回率和准确率。召回率,是正确分出类别的网页数量和所有网页中属于该类别的网页数量的比值,用于衡量网页分类方法是否具有通用性。准确率,是正确分出类别的网页数量除以所有分出类别的网页数量的比值,用于衡量网页分类方法是否准确。由于网页通常以文字信息为主,因此目前常用的网页分类方法是抽取网页中的文字信息,利用现有的文本分类器对网页分类。其中的文本分类器是预先训练好的分类器, 其基于文本的语意特性对文本进行分类。利用文本分类器对网页进行分类时,由于仅考虑了网页中的文字特征,而忽略了其他特征,所以准确率和召回率相对较低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种网页分类方法和装置,以便提高网页分类的性能。本专利技术实施例的技术方案具体是这样实现的一种网页分类方法,该方法包括确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置 fn息;根据所述内容信息和所述位置信息对所述待分类网页进行分类。一种网页分类装置,该装置包括确定模块和分本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:杨巍张立明
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术