当前位置: 首页 > 专利查询>江苏大学专利>正文

一种针对信息检索结果多元化的分数规范化方法技术

技术编号:10552438 阅读:189 留言:0更新日期:2014-10-22 10:47
本发明专利技术公开了一种针对信息检索结果多元化的文档分数规范化方法,采用一种基于文档排名位置的方法对分数进行规范化。假设文档排名位置为rank,文档的规范化分数通过计算1-0.2*ln(rank+1)的值获得。该方法适用于信息检索结果多元化目标,能够使得文档的分数具有更好的可比性,可以应用于信息检索结果的数据融合、分布式信息检索等。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种针对信息检索结果多元化的文档分数规范化方法,采用一种基于文档排名位置的方法对分数进行规范化。假设文档排名位置为rank,文档的规范化分数通过计算1-0.2*ln(rank+1)的值获得。该方法适用于信息检索结果多元化目标,能够使得文档的分数具有更好的可比性,可以应用于信息检索结果的数据融合、分布式信息检索等。【专利说明】
本专利技术涉及一种针对检索结果多样化的分数规范化方法,应用于信息检索结果的 数据融合、分布式信息检索等。
技术介绍
在很多应用中,如信息检索系统结果的数据融合、分布式信息检索等,需要使用文 档的分数信息对数据进行综合处理。对于这些应用,分数规范化是不可或缺的环节。由于 这些过程需要处理很多来自不同检索系统所给出的文档,而不同检索系统提供的文档分数 一般有着不同的分布范围,这就使得不同来源的文档分数并不具有可比性。甚至,有的检索 系统不提供文档分数,仅给出一个文档序列。这些不规范的分数以及分数信息的缺失会对 后续处理有很大的影响。分数规范化保证了文档分数的可比性,是组合不同来源数据之前 的必要准备工作。 目前,已经有多种方法来进行分数规范化。一般地,可以将其分为两类:基于原始 分数的规范化方法和基于文档排名位置的规范化方法。基于原始分数的规范化方法利用检 索系统提供的文档的原始分数,采用某种策略,将原始分数分布转化为新的分数分布,使得 不同系统之间的规范化后的分数具有可比性。采用的策略主要有线性的和非线性的两种。 在线性的分数规范化方法中,比较经典的有0-1线性规范化方法,将文档的原始分数线 性地规范化到区间;Fitting方法在0-1规范方法上改进,将分数范围规范到 区间上;Sum-to-One方法要求所有规范化后分数的和为1。非线性的方法有一种 考虑了相关文档和非相关文档不同分布的混合模型中,基于CDF(Cumulative Density Function)的规范化方法等。 使用基于原始分数规范化方法的前提是系统提供真实有效的原始分数信息。对于 系统只提供文档排名的序列而不提供文档原始分数的情况,则要采用某些方法转化排名信 息以获得相应的分数信息。基于文档排名位置的分数规范化方法中比较著名的有排名倒数 方法,该方法采用lArank+k)公式对文档原始分数进行规范化,并且提出参数k取60 得到的效果最好。Logistic模型也被用于分数规范化。在文献中,Calve等人 使用文档排名位置的对数值In (rank)代替了文档排名位置rank本身。由于使用rank本 身作为自变量的Logistic曲线随着排名的增大降低得非常迅速,在排名大于10的位置以 后,规范化后的分数都十分接近于0,这就使得非前十位文档排名位置上的分数的可比较性 变差,特别是对于第11-100位的文档。根据文档排名位置规范的方法还有Cubic模型, 波达计数模型等。 这些分数规范化方法能在某些情况下使得检索结果表现良好,但是并没有考虑检 索结果多元化的情况。这些方法是否能够实现检索结果的多样性是有待考察的。考虑到实 际情况中,存在这部分检索系统并不提供文档的原始分数信息,本专利技术提出采用基于文档 排名位置的分数规范化方法,特别是采用文档排名位置的对数值In (rank),保证规范化后 的分数分布在前100位上具有区分性。 对比文件 Lee, J. H. :Analysis of multiple evidence combination. In:Proceedings of the20th Annual International ACM SIGIR Conference, Philadelphia, Pennsylvania ,USA, pp. 267-275, 1997. Wu,S.,Crestani,F.,Bi,Y. : Evaluating Score Normalization Methods in Data Fusion. In:Ng,Η. T.,Leong,Μ. -K.,Μ. -Y.,Ji,D. (eds. )AIRS2006. LNCS, vol. 4182, pp. 642-648. Springer, Heidelberg, 2006. Montague, M. , As lam, J. A. : Relevance score normalization for metasearch. In:Proceedings of ACM CIKM Conference, Berkeley, USA, pp. 427-433,2001. Manmatha, R. , T. Rath, and Fangfang Feng. :Modeling score distributions for combining the outputs of search engines.In:Proceedings of the24th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2001. Fernandez, M. , Val let, D. , and Castells,P. : Probab i 1 i s t ic score normalization for rank aggregation. Advances in Information Retrieval. Springer Berlin Heidelberg, pp. 553-556. 2006. Cormack, G. V. , Clarke, C. L. A. , and Buttcher, S. : Reciprocal rank fusion outperforms Condorect and individual rank learning methods. In:Proceedings of the32nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 758-759. Bonston, Massachusetts, 2009. Le Calve,A.,and Savoy,J. :Database merging strategy based on logistic regression. Information Processing&Management36. 3, pp. 341-359, 2000. Savoy,J. Report on CLEF_2003multilingual tracks. : Comparative Evaluation of Multilingual Information Access Systems.Springer Berlin Heidelberg,pp. 64-73,本文档来自技高网...

【技术保护点】
一种针对信息检索结果多元化的文档分数规范化方法,其特征在于:基于文档排名位置即排名,使用排名的对数作为模型核心的一种非线性分数规范化,具体计算方法如下:s=1‑0.2*ln(rank+1)其中rank表示文档排名位置,s表示文档规范化后的分数即规范化分数。

【技术特征摘要】

【专利技术属性】
技术研发人员:李洁玉黄春兰吴胜利
申请(专利权)人:江苏大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1