一种基于Monroe规则的元搜索排序Top-k聚合方法技术

技术编号:28978986 阅读:36 留言:0更新日期:2021-06-23 09:25
本发明专利技术涉及一种基于Monroe规则的元搜索排序Top‑k聚合方法,属于信息处理技术领域。本发明专利技术首先采用Borda规则将独立搜索引擎对检索元素的排序关系构造为独立搜索引擎‑检索元素匹配度矩阵,然后借鉴Monroe比例代表思想将元搜索排序Top‑k聚合问题建模为寻找最大化所有独立搜索引擎总体匹配度的元素集合优化问题,最后采用贪心算法对该优化问题进行求解,将所得元素集合作为元搜索排序Top‑k聚合结果反馈给用户。本发明专利技术基于Monroe规则动态寻找最大化独立搜索引擎的总体匹配度的检索元素,综合考虑检索元素与关键词的关联性以及独立搜索引擎的比例代表性,相比于其他元搜索排序聚合方法更具公平性,更能满足用户需求。

【技术实现步骤摘要】
一种基于Monroe规则的元搜索排序Top-k聚合方法
本专利技术涉及一种基于Monroe规则的元搜索排序Top-k聚合方法,属于互联网信息处理

技术介绍
搜索引擎(SearchEngine)基于特定的策略和算法,对互联网上急剧增长的互联网资源进行检索和处理,帮助检索用户获取与查询关键字相关的网络信息,其核心是一个排序系统。由于互联网的网络信息量非常巨大且不断增加,独立搜索引擎面临覆盖率低、查准率低的问题,同时,个别独立搜索引擎由于受偏见或利益的影响可能存在不公平行为,如通过网站竞价、付费收录等方式来达到提高某些检索元素的综合排名。为满足用户更好的检索需求,元搜索引擎(MetaSearchEngine)应运而生,其集成多个独立搜索引擎的检索结果并基于相关算法对该各排序进行聚合以获得元搜索排序聚合结果,将聚合后新的排序结果展示给检索用户。元搜索是元搜索引擎的核心技术,旨在研究如何合并独立搜索引擎的搜索结果为用户提供公平有效的排序聚合结果。各独立搜索引擎根据其特定算法得到的检索结果,即对检索元素的排序,是元搜索引擎的重要基础。Vi本文档来自技高网...

【技术保护点】
1.一种基于Monroe规则的元搜索排序Top-k聚合方法,其特征在于:/nStep1:采用Borda规则将各独立搜索引擎对检索元素的排序关系构造为独立搜索引擎-检索元素匹配度矩阵;/nStep2:借鉴Monroe比例代表思想将元搜索排序Top-k聚合问题建模为寻找最大化所有独立搜索引擎总体匹配度的元素集合的优化问题;/nStep3:采用贪心算法对该优化问题进行求解,将所得检索元素集合作为元搜索排序Top-k聚合结果。/n

【技术特征摘要】
1.一种基于Monroe规则的元搜索排序Top-k聚合方法,其特征在于:
Step1:采用Borda规则将各独立搜索引擎对检索元素的排序关系构造为独立搜索引擎-检索元素匹配度矩阵;
Step2:借鉴Monroe比例代表思想将元搜索排序Top-k聚合问题建模为寻找最大化所有独立搜索引擎总体匹配度的元素集合的优化问题;
Step3:采用贪心算法对该优化问题进行求解,将所得检索元素集合作为元搜索排序Top-k聚合结果。


2.根据权利要求1所述的基于Monroe规则的元搜索排序Top-k聚合方法,其特征在于Step1具体为:
Step1.1:设独立搜索引擎集合为S={si|i=1,2,...,n},检索元素集合为E={ej|j=1,2,...,m},其中,n表示独立搜素引擎的数量,m表示检索元素数量;
Step1.2、独立搜素引擎si根据其特定排序算法对检索元素的排序定义为βi=er(1)>ier(2)>i...>ier(t),所有独立搜素引擎对应的检索结果的排序关系集合定义为R={βi|i=1,2,...,n};
其中,er(1)>ier(2)表示在独立搜索引擎si对检索元素的排序中,元素er(1)优于元素er(2),βi表示独立搜索引擎si对t个元素的某种潜在排列,即从m个元素中取出t个元素进行的无重复线性排序,r(t)表示元素的序号,参数t控制独立搜索引擎对元素排序的完整程度,且t≤m;
当t=m时,βi表示独立搜索引擎si给出对所有元素的完整偏好排序;
当t<m时,βi表示独立搜索引擎si只对最偏爱的Top-t个检索元素进行部分截断排序;
Step1.3:记独立搜索引擎si对检索元素ej的匹配度分数为Matij,即独立搜索引擎si对选择元素ej作为元搜索排序Top-k聚合结果的匹配程度,将独立搜索引擎对元素的匹配度分数表示为矩阵Mat=[Matij]n×m;
Step1.4:匹配度分数Matij通过Borda规则计算,用参数t控制独立搜索引擎对检索元素排序的完整程度,并将不包含于独立搜索引擎的截断排序Top-t中的元素均记为e',当t=m时表示独立搜索引擎si对元素有完整的排序时,独立搜索引擎si对元素的匹配度计算为:
Matij=m-posi(ej)(1)
当t<m时表示独立搜索引擎si仅对其偏爱的前t个检索元素进行部分排序,若元素ej包含在独立搜索引擎si的Top-t排序中,则获取该元素在对应排序中的位置并计算匹...

【专利技术属性】
技术研发人员:付晓东赵时海刘骊刘利军
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1