基于非线性统一权值对检索结果进行排序的方法及装置制造方法及图纸

技术编号:7898140 阅读:195 留言:0更新日期:2012-10-23 04:20
本发明专利技术涉及互联网信息处理领域,特别涉及一种基于非线性统一权值对检索结果进行排序的方法及装置,用于提高搜索引擎的检索结果排序的精准性。该方法为:根据用户输入的检索关键词获得对应的检索结果;分别计算每一个检索结果的非线性统一权值,所述非线性统一权值表征为,其中,w表示检索结果与检索关键词之间的相关性,u表示除相关性之外预设的各参数的加权幅度之和;根据每一个检索结果的非线性统一权值,对各检索结果进行排序。这样,便提高了搜索引擎获得的各url的排序精准性,令用户可以迅速获得符合自身需求的url,从而有效提高了搜索引擎的检索性能,提升了搜索引擎的检索效率。

【技术实现步骤摘要】

本专利技术涉及互联网信息处理领域,特别涉及一种基于非线性统一权值对检索结果进行排序的方法及装置
技术介绍
随着互联网技术的发展,搜索引擎技术的应用范围越来越广泛,传统的搜索引擎在进行检索结果排序时,通过采用使用检索结果页面(称为url)与检索关键词(称为query)之间的相关性作为排序依据,然而,单纯依靠相关性进行排序存在很多问题,例如,一些低质量高相关性的url,往往不能较好的满足用户,其实用度反而不如一些相关性中等但是质量较高的url,但是这些低质量的url却因为具有较高的相关性而在排序过程中获得一个很高的排名,显然,这种排序结果是不准确的,不利于用户获得较为满意的检索结果。 有鉴于此,搜索引擎开始引入相关性之外的参数,来对排序结果进行调整,比较典型的参数包括权威性、页面质量、页面内容丰富程度、页面引用资源(视频、下载链接等)有效性等等。如何把这些参数与相关性的度量统一在一起建立一个排序的准则,是各种搜索引擎必须面对的一个问题。传统方法一般是采用“统一权值”来解决这个问题。统一权值是在基础权值的基础上,使用各种参数对基础权值进行修正后,得出的一个度量性权值。例如,如果页面质量参数显示某一 url的页面质量较好,则采用统一权值在基础权值的基础上增加某一数值或百分比,如果页面质量参数显示某一 url的页面质量较差,则采用统一权值在基础权值的基础上减少某一数值或百分比。不同的参数可能会对统一权值做出不同的修正,最终的统一权值是这些修正的线性叠加之和,如,某一 url,它的权威性参数使统一权值增加5%,页面质量参数使统一权值增加2%,页面内容丰富度参数使统一权值增加3%,但是它引用的下载资源已经失效,其页面资源有效性参数使统一权值减少4%,则其最终的统一权值为基础权值的 106%= 100% +5% +2% +3% -4%= 6% )。然而采用线性叠加模型来调整url的统一权值存在着以下缺点首先,由于采用多个参数线性叠加的方式来修正基础权值,因而会令相关性不高但的高质量的url获得过高的加权,使其排名高于相关性很高但中等质量的url。例如,假设每种参数都有5%的加权幅度,那么,只要采用10个参数进行线性叠加,就能令相关性为0. 7的url排名高于相关性为I. 0的url,然而,前者虽然质量很高,但却不是用户想要检索结果,因此不应该在排序过程中获得如此高的排名,这会影响到其他url的正确排名。其次,大多数有决定性影响的参数都是多档位的,例如,针对权威性设置了 5个档次。目前,业界通用的一种理想排序准则为(同时满足)准则I :当两个url的相关性差距较小时,(如,小于0.05),应当由权威性决定排名先后,即应当由权威性较高的url应获得较高的排名,而不是由相关性较高的url获得较高的排名;准则2:当两个url的相关性差距较大时(如,大于0.2),则应当由相关性决定排名先后,即不管权威性相差多少,都应该由相关性较高的url获得较高的排名,而不是由权威性较高的url获得较高的排名。目前,各个档次的权威性分别设置有对应的加权幅度,如,权威性I档对应加权幅度5 %,权威性2档对应加权幅度10 %,权威性3档对应加权幅度15 %,权威性4档对应加权幅度20%,权威性5档对应加权幅度25%,通常实验发现,无论权威性对应的加权幅度如何设定,都无法满足上述理想的排序方式,例如,若设定权威性每提高一个档次,加权幅度提高彡5%,则可以保证当两个url的相关性差距较小时(如,小于0. 05),由权威性高的url的排名较高,满足准则1,但是,当两个url的相关性差距较大时,(如,大于0. 2)时,若两个url的权威性相差5档,则权威性为5档的url的排名将高于相关性比它高0. 2但权威性仅为0档的url的排名,显然,这不符合制定的准则2。而若设定权威性每提高一个档次,加权幅度提高< 5%,则排序结果与上述方式正相反,即两个url的权威性相差5档,则权威性为5档的url的排名将低于相关性比它高0. 2 但权威性仅为I档的url的排名,满足准则2,但是,当两个url的相关性差距较小时(如,小于0. 05),却仍会由相关性较高,而不是权威性高的url获得较高排名,显然,不符合制定的准则I。显然,现有的对url的排序方法,无法满足业界的执行标准,从而无法令用户准确,迅速地获得真正符合自身需要的url,在一定程度上降低了搜索引擎的检索性能,影响了搜索引擎的检索效率。
技术实现思路
本专利技术实施例提供一种基于非线性统一权值对检索结果进行排序的方法及装置,用以提高搜索引擎的检索结果排序的精准性。本专利技术实施例提供的具体技术方案如下一种基于非线性统一权值对检索结果进行排序的方法,包括根据用户输入的检索关键词获得对应的检索结果;分别计算每一个检索结果的非线性统一权值,所述非线性统一权值表征为〈W,U〉,其中,w表示检索结果与检索关键词之间的相关性,u表示除相关性之外预设的各参数的加权幅度之和;根据每一个检索结果的非线性统一权值,对各检索结果进行排序。一种基于非线性统一权值对检索结果进行排序的装置,包括检索单元,用于根据用户输入的检索关键词获得对应的检索结果;处理单元,用于分别计算每一个检索结果的非线性统一权值,所述非线性统一权值表征为〈W,U〉,其中,W表示检索结果与检索关键词之间的相关性,U表示除相关性之外预设的各参数的加权幅度之和;排序单元,用于根据每一个检索结果的非线性统一权值,对各检索结果进行排序。本专利技术实施例中,按照新定义的非线性统一权值对基于query检索到的若干url进行排序,在多参数的加权幅度叠加之后,不会令相关性低的url排名高于相关性高的url,同时,对于多档次的参数,可以采用新定义的加法算子合理设置各档次对应的加权幅度,令其同时满足准则I和准则2,这样,便提高了搜索引擎获得的各url的排序精准性,令用户可以迅速获得符合自身需求的url,从而有效提高了搜索引擎的检索性能,提升了搜索引擎的检索效率。附图说明图I为本专利技术实施例中基于非线性统一权值对检索结果进行排序流程图;图2为本专利技术实施例中检索装置功能结构示意图。 具体实施例方式为了提高搜索引擎获得的检索结果排序的精准性,本专利技术实施例中,在传输搜索引擎的排名算法中,引入了非线性统一权值的概念。非线性统一权值不再使用标量来衡量,而改为采用一个二元组〈W,U〉来表征,其中,W,用于表示检索结果(即url)相对于query的相关性,设置为一个区间内的实数,0代表完全不相关,I代表完全相关由管理人员根据经验预先调设置,搜索引擎可以从数据库中直接获得url对应的w ;U,用于表示除相关性之外的各种预设参数的加权幅度之和,是一个一维非线性空间S内的标量,取值范围为实数域(-⑴,+⑴),所谓的除相关性之外的各种预设参数包括但不限于以下几种权威性、页面质量、页面内容丰富程度、页面引用资源(视频、下载链接等)有效性。下面结合附图对本专利技术优选的实施方式进行详细说明。参阅图I所示,本实施例中,基于非线性统一权值对检索结果进行排序的详细流程如下步骤100 :根据用户输入的query获得相应的url。本实施例中,系统可以米用网页抓取技术基于用户输入的query获取相应的若干检索结果,与用户输入的q本文档来自技高网
...

【技术保护点】
一种基于非线性统一权值对检索结果进行排序的方法,其特征在于,包括:根据用户输入的检索关键词获得对应的检索结果;分别计算每一个检索结果的非线性统一权值,所述非线性统一权值表征为,其中,w表示检索结果与检索关键词之间的相关性,u表示除相关性之外预设的各参数的加权幅度之和;根据每一个检索结果的非线性统一权值,对各检索结果进行排序。

【技术特征摘要】

【专利技术属性】
技术研发人员:张子云
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1