【技术实现步骤摘要】
一种伪相关反馈中的文档主题相关性模型
[0001]本专利技术涉及文本检索,信息检索或数据挖掘领域,具体涉及一种伪相关反馈中的文档主题相关性模型。
技术介绍
[0002]伪相关反馈(pseudo relevance),也称为盲相关反馈(blind relevance feedback),是一种自动局部分析的方法。它将相关反馈的人工操作部分自动化,从而可以获得检索性能的提升。该方法首先进行正常的检索过程,返回最相关的文档构成初始集,然后假设排名靠前的k篇文档是相关的,最后在此假设上像以往一样进行相关反馈。
[0003]通过查询扩展(Query Expansion,QE)的伪相关反馈(Pseudo Relevance Feedback,PRF)通常被认为是在信息检索(Information Retrieval,IR)中实现良好性能的一个非常有效的方法。尽管PRF模型通常表现非常好,但在某些情况下也会失效。在经典的PRF模型中,比如Rocchio模型或相关性模型RM3,所有排名靠前的k个反馈文档都被假定为与查询同样相关。其中 ...
【技术保护点】
【技术特征摘要】
1.一种伪相关反馈中的文档主题相关性模型,其特征在于,通过在PRF模型中引入基于主题的反馈文档之间的相关性来估计反馈文档的可靠性。2.根据权利要求1所述的一种伪相关反馈中的文档主题相关性模型,其特征在于,所述PRF模型为相关性模型,通过在PRF模型中引入基于主题的反馈文档之间的相关性构建基于主题的相关性模型,该模型为:P
T
(w|R)
∝
∑
D∈F
P(w|D)
·
P
T
(D|F);P(w|D)是文档语言模型,P
T
(D|F)是基于主题的文档相关性,D是反馈文档集F中的一个文档,w是候选词项,R代表相关性。3.根据权利要求2所述的一种伪相关反馈中的文档主题相关性模型,其特征在于,基于主题的相关性模型中其中P
T
(z|D)为在第一遍检索中的前k个反馈文档集F在主题空间中的主题分布,TS(D)代表主题相似度,D
i
和D
j
分别为第i个文档和第j个文档,z是主题。4.根据权利要求2所述的一种伪相关反馈中的文档主题相关性模型,其特征在于,基于主题的相关性模型中其中P
T
(z|D)为在第一遍检索中的前k个反馈文档集F在主题空间中的主题分布。5.根据权利要求1所述的一种伪相关反馈中的文档主题相关性模型,其特征在于,所述PRF模型为Rocchio模型;通过在PRF模型中引入基于主题的反馈文档之间的相关性构建基于主题的Rocchio模型,该模型具体描述如下:(1)所有的文档都使用一个特定的IR模型对给定的查询进行排...
【专利技术属性】
技术研发人员:陈朝峰,孙久,王媛媛,周锋,徐森,王如刚,
申请(专利权)人:盐城工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。