【技术实现步骤摘要】
本专利技术属于信息检索领域,具体涉及数据融合技术中线性组合法的权重分配策 略。
技术介绍
在信息检索任务中,相关性一直是人们对检索结果质量进行评价的一个重要指 标。一个好的结果排名绝不会给出大量不相关的检索结果。传统的信息检索系统往往根据 文档和给定查询之间的相关性程度进行排名,这在相关文档比较少的情况下是很合理的。 然而对于有较多相关文档的情况,检索结果中就可能有较多的重复的相关文档。现在很多 信息检索系统,特别是Web检索,在计算文档与查询的相关程度过程中不仅考虑相关性特 征,还考虑其间的多样性或者是新颖性特征。 本专利技术尝试从数据融合角度找到解决检索多元化问题的方法。以往的研究[1,2] 表明了数据融合技术是有可能提高检索性能的,但是它们更多的仅仅关注了相关性,因此 针对信息检索结果多元化,一些数据融合方法应该做一些调整。 线性组合法是数据融合方法中一种比较典型的方法。该方法特别灵活,其获得较 好融合效果的关键在于权重分配,不同的权重分配方法会给融合带来不同的效果。目前,已 有的一些分配权重策略考虑了两个因素。一个是成员信息检索系统的性能(或有效性)。具 有相对良好检索性能的信息检索系统,应该给予一个较大的权重,而对于性能较差的,则应 该给它分配较小的权重。另一个因素是成员信息检索系统之间的差异性。如果一个信息检 索系统的检索结果与其他信息检索系统的结果的差异性越大,或者说和其他信息检索系统 相比越不相似,那么它应当获得较大的权重,反之则应该被分配一个较小的权重。文献[3] 了一种仅考虑性能权重分配方法,考察了 ...
【技术保护点】
一种支持信息检索结果多元化的数据融合方法,其特征在于先在一组训练数据上处理获得各个信息检索系统的权值,再采用线性组合法对所有信息检索系统的结果进行融合,具体步骤如下:步骤一,假设共有t个信息检索系统,对于同一个查询q,每个信息检索系统都从相同数据库中搜索,得到由若干文档构成的有序序列即检索结果ri(1≤i≤t);步骤二,挑选一个检索结果ri和另一个检索结果rj,在ri,rj的基础上构造超级结果r;记ri中排在第k位置上文档所覆盖的子主题集合为Si(k),rj中同样的k位置上的文档所覆盖的子主题集合为Sj(k),在相同位置k上,超级结果中的文档所覆盖的子主题集合为Si(k)∪Sj(k);对于所有的k(k=1,2,3,....,n,n是检索结果的长度),按照该方法构造,从而得到ri和rj上的超级结果r,其中1≤i≤t,1≤j≤t,且i≠j;步骤三,使用性能指标ERR‑IA@20评价所述ri,rj和r,所得到的性能值依次记为p(ri),p(rj)和p(r);根据p(ri),p(rj)和p(r)值计算ri对rj的补充程度ci(j),计算公式如下:ci(j)=p(r)-p(rj)p(r)]]>步 ...
【技术特征摘要】
1. 一种支持信息检索结果多元化的数据融合方法,其特征在于先在一组训练数据上 处理获得各个信息检索系统的权值,再采用线性组合法对所有信息检索系统的结果进行融 合,具体步骤如下: 步骤一,假设共有t个信息检索系统,对于同一个查询q,每个信息检索系统都从相同 数据库中搜索,得到由若干文档构成的有序序列即检索结果A(Ki<t); 步骤二,挑选一个检索结果A和另一个检索结果在&的基础上构造超级结果r;记&中排在第k位置上文档所覆盖的子主题集合为Si(k),&中同样的k位置上的文档 所覆盖的子主题集合为Sj(k),在相同位置k上,超级结果中的文档所覆盖的子主题集合为 Sjk)USj(k);对于所有的k(k= 1,2,3,....,n,n是检索结果的长度),按照该方法构造, 从而得到A和rj上的超级结果r,其中1彡i彡t,1彡j彡t,且i关j; 步骤三,使用性能指标ERR-IA020评价所述rj和r,所得到的性能值依次记为p(...
【专利技术属性】
技术研发人员:李洁玉,黄春兰,吴胜利,
申请(专利权)人:江苏大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。