【技术实现步骤摘要】
本专利技术涉及互联网
,尤其涉及一种网页分类方法和装置。
技术介绍
在互联网
,经常需要对网页进行分类。衡量网页分类方法的指标包括召回率和准确率。召回率,是正确分出类别的网页数量和所有网页中属于该类别的网页数量的比值,用于衡量网页分类方法是否具有通用性。准确率,是正确分出类别的网页数量除以所有分出类别的网页数量的比值,用于衡量网页分类方法是否准确。由于网页通常以文字信息为主,因此目前常用的网页分类方法是抽取网页中的文字信息,利用现有的文本分类器对网页分类。其中的文本分类器是预先训练好的分类器, 其基于文本的语意特性对文本进行分类。利用文本分类器对网页进行分类时,由于仅考虑了网页中的文字特征,而忽略了其他特征,所以准确率和召回率相对较低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种网页分类方法和装置,以便提高网页分类的性能。本专利技术实施例的技术方案具体是这样实现的一种网页分类方法,该方法包括确定待分类网页显示的内容信息、以及所述内容信息在所述待分类网页中的位置 fn息;根据所述内容信息和所述位置信息对所述待分类网页进行分类。一种网页分类装置,该 ...
【技术保护点】
【技术特征摘要】
【专利技术属性】
技术研发人员:杨巍,张立明,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。