一种针对信息检索结果多元化的分数规范化方法技术

技术编号：10552438 阅读：189 留言：0更新日期：2014-10-22 10:47

本发明专利技术公开了一种针对信息检索结果多元化的文档分数规范化方法，采用一种基于文档排名位置的方法对分数进行规范化。假设文档排名位置为rank，文档的规范化分数通过计算1-0.2*ln(rank+1)的值获得。该方法适用于信息检索结果多元化目标，能够使得文档的分数具有更好的可比性，可以应用于信息检索结果的数据融合、分布式信息检索等。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种针对信息检索结果多元化的文档分数规范化方法，采用一种基于文档排名位置的方法对分数进行规范化。假设文档排名位置为rank，文档的规范化分数通过计算1-0.2*ln(rank+1)的值获得。该方法适用于信息检索结果多元化目标，能够使得文档的分数具有更好的可比性，可以应用于信息检索结果的数据融合、分布式信息检索等。【专利说明】
本专利技术涉及一种针对检索结果多样化的分数规范化方法，应用于信息检索结果的数据融合、分布式信息检索等。
技术介绍
在很多应用中，如信息检索系统结果的数据融合、分布式信息检索等，需要使用文档的分数信息对数据进行综合处理。对于这些应用，分数规范化是不可或缺的环节。由于这些过程需要处理很多来自不同检索系统所给出的文档，而不同检索系统提供的文档分数一般有着不同的分布范围，这就使得不同来源的文档分数并不具有可比性。甚至，有的检索系统不提供文档分数，仅给出一个文档序列。这些不规范的分数以及分数信息的缺失会对后续处理有很大的影响。分数规范化保证了文档分数的可比性，是组合不同来源数据之前的必要准备工作。目前，已经有多种方法来进行分数规范化。一般地，可以将其分为两类：基于原始分数的规范化方法和基于文档排名位置的规范化方法。基于原始分数的规范化方法利用检索系统提供的文档的原始分数，采用某种策略，将原始分数分布转化为新的分数分布，使得不同系统之间的规范化后的分数具有可比性。采用的策略主要有线性的和非线性的两种。在线性的分数规范化方法中，比较经典的有0-1线性规范化方法，将文...

【技术保护点】
一种针对信息检索结果多元化的文档分数规范化方法，其特征在于：基于文档排名位置即排名，使用排名的对数作为模型核心的一种非线性分数规范化，具体计算方法如下：s＝1‑0.2*ln(rank+1)其中rank表示文档排名位置，s表示文档规范化后的分数即规范化分数。

【技术特征摘要】

【专利技术属性】
技术研发人员：李洁玉，黄春兰，吴胜利，
申请(专利权)人：江苏大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人