一种网页分类方法及装置制造方法及图纸

技术编号:2830796 阅读:218 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种网页分类方法及装置,用以解决现有技术中采用从网页正文中提取分类特征词的方式对网页进行分类时,分类的准确率较低且计算量较大的问题。所述方法包括步骤:从网页对应的锚文本中选取分类锚文本,确定该分类锚文本中包含的分类关键词,从网页的全部内容中查找至少包含一个所述分类关键词的语句,将查找到的语句组合形成特征文本,对所述特征文本进行文本分类处理,将该特征文本的类别确定为所述网页的类别;所述系统包括分类锚文本选取模块、分类关键词确定模块、查找模块和特征文本分类模块。本发明专利技术大大提高了分类的准确率和召回率,同时减小了分类处理过程中的计算量。

【技术实现步骤摘要】

本专利技术涉及分类技术,尤其涉及一种网页分类方法及装置
技术介绍
随着Internet的普及和飞速发展,网络信息成爆炸性增长, 一方面满足了 用户对信息的需求,另一方面也产生了一些问题,如何根据网页内容把网页自 动分到不同的语义类别,以提高用户的体验,是目前搜索引擎面临解决的一个 问题。来实现,其主要实现过程为首先从网页中提取正文,然后对网页的正文进行 文本分类处理,得到的分类类别即为该网页的分类类别,下面详细描述对网页 正文进行文本分类处理的具体过程,包括步骤步骤SIO、对网页的正文进行分词处理,去掉其中的停用词,根据预先构 建的特征词表从余下的词汇中提取特征词汇;所述特征词表4安照tf-idf方法构建。步骤Sll、查询各个类别的先验概率,以及查询各特征词汇在不同类别的 文本中的权值;词汇的权值用于表征词汇在各个类别的文本中出现的概率,某一词汇在不步骤S12、按照预先设置的分类算法对网页的正文进行分类,分类的算法 有很多种,如贝叶斯分类器,SVM (支持向量机分类器)等,下面以贝叶斯分 类器为例,对分类的具体过程进行说明按照贝叶斯分类7>式P(C, I F )oo尸(C: )fj尸O I C,)分别计算网页正文的文本属于各个类别的概率,贝叶斯分类公式中尸(q ir)为文本v属于类别q的概率,尸(。)为类别q的先验概率,户(v,IG)为特征词汇/在类别q中的权值,户(CJF)最大值对应的类别即为网页正文的归属类别。然而,由于网页是半结构化信息,网页除了含有文本还包括很多的其他信 息,例如锚文本、链接关系、垃圾广告等,在上述提取网页正文的过程中,很 可能会把广告、导航信息等误提取为正文,从而影响分类的准确率和召回率, 并且根据网页正文中的特征词汇确定网页类别的计算量很大,导致时间开销很 大,不利于在线分类海量网页。
技术实现思路
本专利技术提供一种网页分类方法及装置,用以解决现有技术中采用从网页正 文中提取分类特征词的方式对网页进行分类时,分类的准确率较低且计算量较 大的问题。本专利技术方法包括 一种网页分类方法,包括步骤A、 从网页对应的锚文本中选取分类锚文本,确定该分类锚文本中包含的 分类关4定词;B、 从网页的全部内容中查找至少包含一个所述分类关键词的语句,将查 找到的语句组合形成特征文本;C、 对所述特征文本进行文本分类处理,将该特征文本的类别确定为所述 网页的类别。较佳的,所述步骤A中还包括步骤判断网页下载过程中下载网页爬虫的阶段是否记录了所述网页的锚文本 信息,若是,从网页对应的锚文本中选取分类锚文本,否则,将该网页的标题字段确定为分类锚文本。较佳的,若下载网页爬虫阶段记录了所述网页的锚文本信息,则选取其中 出现次数最多的锚文本〗故为该网页的分类锚文本。较佳的,所述确定分类锚文本中包含的分类关键词的过程为 对分类锚文本进行分词处理,去掉其中的停用词,余下的词汇即为该分类 锚文本的分类关键词。较佳的,对特征文本进行文本分类处理的过程为对特征文本进行分词处理,去掉其中的停用词,按照预先构建的特征词表 从余下的词中提取特征词汇;按照预先设定的分类算法,根据各类别文本的先验概率及特征词汇在各类 别文本中的权值确定出所述特征文本的类别。一种网页分类装置,包括分类锚文本选取模块,用于从网页对应的锚文本中选取分类锚文本; 分类关键词确定模块,用于确定分类锚文本中包含的分类关键词; 查找模块,用于从网页的全部内容中查找包含至少一个所述分类关键词的语句,将查找到的语句组合形成特征文本;特征文本分类模块,用于对所述特征文件进行分类处理,将该特征文本的类别确定为所述网页的类别。 较佳的,还包括判断模块,用于判断网页下载过程中下载网页爬虫的阶段是否记录了所述 网页的锚文本信息,若是,触发分类锚文本选取模块从网页对应的锚文本中选 取分类锚文本,否则,触发标题字段提取模块提取网页的标题字段;标题字段提取模块,用于提取网页的标题字段,将其做为该网页的分类锚 文本发送给分类关键词确定模块。本专利技术有益效果如下本专利技术技术方案通过从网页对应的锚文本中选取分类锚文本,从网页的全部内容中查找包含至少 一个分类锚文本中的分类关键词的语句,将查找到的语 句组合形成特征文本,对该特征文本进行文本分类处理,将该特征文本的类别 确定为所述网页的类别。与现有技术相比,本专利技术技术方案省却了从网页内容 中提取正文的步骤,简化了分类处理的过程,并且由于网页对应的锚文本通常 反映了网页内容的中心思想,因此利用网页对应的锚文本中包含的分类关键词 确定出的特征文本能够更加贴切的反映该网页的内容,从而大大提高了分类的 准确率和召回率,同时减小了分类处理过程中的计算量。附图说明图1为本专利技术网页分类方法的流程图; 图2为本专利技术网页分类装置的结构框图。具体实施例方式本专利技术技术方案的主要设计构思是针对现有技术中采用从网页正文中提 取分类特征词的方式对网页进行分类时,分类的准确率较低且计算量较大的问 题,而提出一种实现网页分类的技术方案,该方案通过从网页对应的锚文本中 选取分类锚文本,从网页的全部内容中查找包含至少一个分类锚文本中的分类 关键词的语句,将查找到的语句组合形成特征文本,对该特征文本进行文本分 类处理,将该特征文本的类别确定为所述网页的类别。与现有技术相比,本发 明技术方案省却了从网页内容中提取正文的步骤,简化了分类处理的过程,并 且由于网页对应的锚文本通常反映了网页内容的中心思想,因此利用网页对应 的锚文本中包含的分类关键词确定出的特征文本能够更加贴切的反映该网页 的内容,从而大大提高了分类的准确率和召回率,同时减小了分类处理过程中 的计算量。下面将结合各个附图对本专利技术技术方案的具体实施过程进行进一步详细 的阐述。请参阅图1,该图为本专利技术网页分类方法的流程图,其主要实现过程为 步骤SIO、判断待分类的网页是否存在对应的锚文本信息,若存在,执行步骤Sll,否则,执行步骤S12。搜索引擎在网页下栽过程中下载网页爬虫的阶段是否记录了该网页的锚文本信息。步骤Sll、从该网页对应的锚文本中选取出现次数最多的锚文本做为该网 页的分类锚文本,l丸行步骤S13。步骤S12、提取该网页的标题字段,将其做为该网页的分类锚文本,执行 步骤S13。步骤S13、确定分类锚文本中包含的分类关键词;本步骤中分类锚文本中包含的分类关键词的具体过程为对分类锚文本进 行分词处理,去掉其中的停用词,余下的词汇即为该分类锚文本的分类关键词。步骤S14、从网页的全部内容中查找至少包含一个所述分类关键词的语句, 将查找到的语句组合形成特征文本。步骤S15、对所述特征文本进行文本分类处理,将该特征文本的类别确定 为所述网页的类别。本步骤中,对特征文本进行文本分类处理的具体过程为1) 对特征文本进行分词处理,去掉其中的停用词,根据预先构建的特征 词表从余下的词汇中提取特征词汇;所述特征词表通过tf-idf方法在训练阶段构建。2) 查询训练阶段得到的各个类别的先验概率,以及查询训练阶段得到的 各特征词汇在不同类别的文本中的权值;其中,。类ISST,尸(。为类别C,的先验概率,zv m、词/在类别Cj中出现的次数 A'1、广P(V'la)=类别Cj中出现词的总数'尸(v,IG)为特扯词〉匚/本文档来自技高网
...

【技术保护点】
一种网页分类方法,其特征在于,包括步骤:A、从网页对应的锚文本中选取分类锚文本,确定该分类锚文本中包含的分类关键词;B、从网页的全部内容中查找至少包含一个所述分类关键词的语句,将查找到的语句组合形成特征文本;C、对所 述特征文本进行文本分类处理,将该特征文本的类别确定为所述网页的类别。

【技术特征摘要】
1、一种网页分类方法,其特征在于,包括步骤A、从网页对应的锚文本中选取分类锚文本,确定该分类锚文本中包含的分类关键词;B、从网页的全部内容中查找至少包含一个所述分类关键词的语句,将查找到的语句组合形成特征文本;C、对所述特征文本进行文本分类处理,将该特征文本的类别确定为所述网页的类别。2、 如权利要求l所述的方法,其特征在于,所述步骤A中还包括步骤 判断网页下载过程中下载网页爬虫的阶段是否记录了所述网页的锚文本信息,若是,从网页对应的锚文本中选取分类锚文本,否则,将该网页的标题 字段确定为分类锚文本。3、 如权利要求2所述的方法,其特征在于,若下载网页爬虫阶段记录了 所述网页的锚文本信息,则选取其中出现次数最多的锚文本做为该网页的分类 锚文本。4、 如权利要求1或2所述的方法,其特征在于,所述确定分类锚文本中 包含的分类关键词的过程为对分类锚文本进行分词处理,去掉其中的停用词,余下的词汇即为该分类 锚文本的分类关键词。5、 如权利要求1所述的方法,其特征在于,对特征文本进行文本分类处 ...

【专利技术属性】
技术研发人员:文勖
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1