当前位置: 首页 > 专利查询>江苏大学专利>正文

一种支持信息检索结果多元化的数据融合方法技术

技术编号:11122953 阅读:85 留言:0更新日期:2015-03-11 12:04
本发明专利技术公开了一种支持信息检索结果多元化的数据融合方法,该方法主要基于子主题覆盖的补充性权重分配策略。补充性权重的计算主要包括以下步骤:设有t个信息检索系统,对于给定查询q,每个信息检索系统都从同一数据库中检索出相应的结果r1,r2,…,rt。首先在两个结果ri和rj的基础上构造一个超级结果r;然后使用性能指标评估ri,rj,r,得到的性能值分别记为p(ri),p(rj),p(r),根据性能值计算ri相对rj的补充程度在此基础上,计算结果ri(1≤i≤t)的补充性权重ci:在获取补充性权重后,可以将其直接用于线性组合,或者作为线性组合权重的一部分。本发明专利技术能够从多元化角度出发,考虑新颖性,量化一个结果对整体的补充程度,可以用于不同种类的融合问题,如文档、图片等等。

【技术实现步骤摘要】

本专利技术属于信息检索领域,具体涉及数据融合技术中线性组合法的权重分配策 略。
技术介绍
在信息检索任务中,相关性一直是人们对检索结果质量进行评价的一个重要指 标。一个好的结果排名绝不会给出大量不相关的检索结果。传统的信息检索系统往往根据 文档和给定查询之间的相关性程度进行排名,这在相关文档比较少的情况下是很合理的。 然而对于有较多相关文档的情况,检索结果中就可能有较多的重复的相关文档。现在很多 信息检索系统,特别是Web检索,在计算文档与查询的相关程度过程中不仅考虑相关性特 征,还考虑其间的多样性或者是新颖性特征。 本专利技术尝试从数据融合角度找到解决检索多元化问题的方法。以往的研究[1,2] 表明了数据融合技术是有可能提高检索性能的,但是它们更多的仅仅关注了相关性,因此 针对信息检索结果多元化,一些数据融合方法应该做一些调整。 线性组合法是数据融合方法中一种比较典型的方法。该方法特别灵活,其获得较 好融合效果的关键在于权重分配,不同的权重分配方法会给融合带来不同的效果。目前,已 有的一些分配权重策略考虑了两个因素。一个是成员信息检索系统的性能(或有效性)。具 有相对良好检索性能的信息检索系统,应该给予一个较大的权重,而对于性能较差的,则应 该给它分配较小的权重。另一个因素是成员信息检索系统之间的差异性。如果一个信息检 索系统的检索结果与其他信息检索系统的结果的差异性越大,或者说和其他信息检索系统 相比越不相似,那么它应当获得较大的权重,反之则应该被分配一个较小的权重。文献[3] 了一种仅考虑性能权重分配方法,考察了使用不同性能函数作为权重的融合效果。采用信 息检索系统在某一衡量指标下(如MAP)的评价值p,可选的权重计算方案有p°_5, p,p2, P3等等。文献[4,5]介绍了仅考虑相似性的方法,通过计算两个信息检索系统结果中相同文 档的覆盖率来衡量两个结果间的相似程度。文献[6]则是将这两种特征结合。 但是,上述的两个因素都是从相关性的角度上考虑的。文献[7]中结合了相关性 和多样性,同样考虑了信息检索系统的有效性权重和差异性权重。对于有效性权重,选择了 针对多样性的评价指标(如ERR-IA020)来确定有效性权重;对于相似性(或差异性)权 重,则提出了两种不同的计算方法。一种是计算集合覆盖率的方法。考虑t个成员结果中 排在前n个位置的文档,假设结果ri中的某个文档扎在其他t-1个结果中出现的次数为 Cij,定义结果&和其他结果的差异性值如下:本文档来自技高网...

【技术保护点】
一种支持信息检索结果多元化的数据融合方法,其特征在于先在一组训练数据上处理获得各个信息检索系统的权值,再采用线性组合法对所有信息检索系统的结果进行融合,具体步骤如下:步骤一,假设共有t个信息检索系统,对于同一个查询q,每个信息检索系统都从相同数据库中搜索,得到由若干文档构成的有序序列即检索结果ri(1≤i≤t);步骤二,挑选一个检索结果ri和另一个检索结果rj,在ri,rj的基础上构造超级结果r;记ri中排在第k位置上文档所覆盖的子主题集合为Si(k),rj中同样的k位置上的文档所覆盖的子主题集合为Sj(k),在相同位置k上,超级结果中的文档所覆盖的子主题集合为Si(k)∪Sj(k);对于所有的k(k=1,2,3,....,n,n是检索结果的长度),按照该方法构造,从而得到ri和rj上的超级结果r,其中1≤i≤t,1≤j≤t,且i≠j;步骤三,使用性能指标ERR‑IA@20评价所述ri,rj和r,所得到的性能值依次记为p(ri),p(rj)和p(r);根据p(ri),p(rj)和p(r)值计算ri对rj的补充程度ci(j),计算公式如下:ci(j)=p(r)-p(rj)p(r)]]>步骤四,重复步骤二和步骤三,计算检索结果ri相对其它t‑1个结果(r1,r2,...,rt,但不包括ri)的补充程度ci作为检索结果ri的补充性权重,ci的计算方法如下:ci=1t-1Σj=1Λj≠itci(j)]]>对于每个不同的ri,都按照上述公式计算,可获得在查询q下的一组检索结果的补充性权重ci;1≤i≤t;步骤五,上述四个步骤可对多个不同的查询重复进行,从而获得信息检索系统在多个查询上的多组补充性权重,即对于一个查询信息检索系统有一个补充性权重,对多个查询,则该信息检索系统可有多个补充性权重;此时,各个信息检索系统的补充性权重则取各个信息检索系统在多个查询上的补充性权重的平均值;步骤六,将信息检索系统的补充性权重作为最终权重wi,线性组合文档d在t个检索结果中的分值,得到文档的全局分值g(d),公式如下:g(d)=Σi=1twi*si(d)]]>si(d)为文档d在检索结果ri中的分值。...

【技术特征摘要】
1. 一种支持信息检索结果多元化的数据融合方法,其特征在于先在一组训练数据上 处理获得各个信息检索系统的权值,再采用线性组合法对所有信息检索系统的结果进行融 合,具体步骤如下: 步骤一,假设共有t个信息检索系统,对于同一个查询q,每个信息检索系统都从相同 数据库中搜索,得到由若干文档构成的有序序列即检索结果A(Ki<t); 步骤二,挑选一个检索结果A和另一个检索结果在&的基础上构造超级结果r;记&中排在第k位置上文档所覆盖的子主题集合为Si(k),&中同样的k位置上的文档 所覆盖的子主题集合为Sj(k),在相同位置k上,超级结果中的文档所覆盖的子主题集合为 Sjk)USj(k);对于所有的k(k= 1,2,3,....,n,n是检索结果的长度),按照该方法构造, 从而得到A和rj上的超级结果r,其中1彡i彡t,1彡j彡t,且i关j; 步骤三,使用性能指标ERR-IA020评价所述rj和r,所得到的性能值依次记为p(...

【专利技术属性】
技术研发人员:李洁玉黄春兰吴胜利
申请(专利权)人:江苏大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1