当前位置: 首页 > 专利查询>天津大学专利>正文

一种网页的垂直搜索方法技术

技术编号:3990987 阅读:282 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种网页的垂直搜索方法,涉及垂直搜索领域,所述方法包括:获取root集和base集;初始化所述base集的入链权重和出链权重;获取所述base集中所有页面链接的入链网页权重和出链网页权重;获取所述base集中页面的主题相似性和页面的站点权重;根据所述入链网页权重、所述出链网页权重、所述主题相似性和所述站点权重获取所述base集中所有页面的入链权重和出链权重。本发明专利技术实施例通过在垂直搜索的HITS方法的基础上添加了站点权重这一参数,使得可以获取到更符合实际需要的网页,提高了搜索网页的准确性和精度,满足了实际应用中的需要。

【技术实现步骤摘要】

本专利技术涉及垂直搜索领域,特别涉及。
技术介绍
随着经济技术的发展,网络已成为人们日常生活中必不可缺的,人们通常 在网络中搜索自己所需的网页,为了提高搜索结果的质量,现有技术中提出了基于 HITS (Hyperlink-Induced Topic Search,超链接诱导主题搜索)的检索方法,该方法通过 对网络中链接的分析,利用页面的被引用次数及其链接数目来决定不同网页的价值。这种 信息检索的方法可以获得比较好的查全率,但没有考虑页面的内容,仅仅是考虑了页面的 链接信息,因此往往会出现主题偏移。为了解决上述问题,现有技术中又提出了基于垂直搜索的HITS的检索方法。其 中,垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中 的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式 返回给用户。相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引 擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的 信息和相关服务,其特点是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息 无序化,垂本文档来自技高网...

【技术保护点】
一种网页的垂直搜索方法,其特征在于,所述方法包括以下步骤:1:获取root集和base集;2:初始化所述base集的入链权重和出链权重;3:获取所述base集中所有页面链接的入链网页权重和出链网页权重;4:获取所述base集中页面的主题相似性和页面的站点权重;5:根据所述入链网页权重、所述出链网页权重、所述主题相似性和所述站点权重获取所述base集中所有页面的入链权重和出链权重。

【技术特征摘要】

【专利技术属性】
技术研发人员:孙越恒门瑞
申请(专利权)人:天津大学
类型:发明
国别省市:12[中国|天津]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1