一种判定锚文本噪声级别的方法及系统技术方案

技术编号:2823576 阅读:353 留言:0更新日期:2012-04-11 18:40
本发明专利技术具体公开了一种判定锚文本噪声级别的方法及系统,所述方法包括:对网页信息中锚文本标注属性和属性值,部分锚文本标注噪声级别;依据属性个数建立N维坐标空间,N为不小于2的整数,将所述标注噪声级别的部分锚文本映射到所述至少N维坐标空间内;在所述至少N维坐标空间中,找到不同噪声级别锚文本之间的最大分类间隔;由所述最大分类间隔组成分类模型;将所述标注属性和属性值的锚文本输入到所述分类模型,获取所述锚文本的噪声级别。本发明专利技术还提供了一种判定锚文本噪声级别的系统。采用本发明专利技术所提供的方法和系统,能够高效准确地判定网络中锚文本的噪声级别。

【技术实现步骤摘要】

本专利技术涉及锚文本噪声识别领域,特别是涉及一种判定锚文本噪声级别的 方法及系统。
技术介绍
网络搜索引擎大致分三类1 )下载子系统从互联网下载网页,抽取出正 文、标题、超链接、锚文本等信息;2)索引与检索子系统对正文、标题、锚 文本等建立索引,为用户提供检索服务;3)相关性子系统对包括超链接、锚 文本等在内的各种相关性因子进行分析计算,为;f企索结果提供排序依据。可见, 锚文本作为搜索引擎中 一个重要的因子,直接影响最终搜索结果。一般意义上,锚文本是指网页间超链接上的文字,例如,当网页A中包 含有指向网页B的超链接(URL)时,认为A、 B之间存在链接关系,超链接 上的文字,称为锚文本。如新浪的首页(www.sina.com.cn)中含有一个超 《连接〈a hre^="http:〃www.sohu.com target="_blank"〉4叟狐首页〈/a〉,则新浪首页 和搜狐首页之间存在着链接关系,新浪首页是父页面,搜狐首页是子页面,"搜 狐首页"是所述超链接上的锚文本。在实际中经常出现不能正确描述目标网页的锚文本,即为噪声锚文本。噪 声锚文本的产生一般有两种类1)非主观原因(本文档来自技高网...

【技术保护点】
一种判定锚文本噪声级别的方法,其特征在于,所述方法包括:对网页信息中锚文本标注属性和属性值,部分锚文本标注噪声级别;依据属性个数建立N维坐标空间,N为不小于2的整数,将所述标注噪声级别的部分锚文本映射到所述至少N维坐标空间;在所述至少N维坐标空间中,找到不同噪声级别锚文本之间的最大分类间隔;由所述最大分类间隔组成分类模型;将所述标注属性和属性值的锚文本输入到所述分类模型,获取所述锚文本的噪声级别。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘云峰禹荣凌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1