一种显式特征与隐式特征相结合的搜索结果多样化方法与系统技术方案

技术编号:32188944 阅读:28 留言:0更新日期:2022-02-08 15:53
本发明专利技术通过信息检索领域的方法,实现了一种显式特征与隐式特征相结合的搜索结果多样化方法与系统。首先通过Transformer中的Encoder结构将候选文档集合之间和子话题或查询之间进行交互,在获取文档和子话题的正式表示之后,通过已选文档,所有候选文档和子话题来建模结合权重,并通过交互获得显式评分和隐式评分,最终通过更新的权重将显式评分和隐式评分组合成为最终的多样化评分段。本发明专利技术提供的方法设计了一个在不同查询的不同步骤下,动态调整权重的显隐式特征结合模型,来提升搜索结果多样化的效果。并通过list pairwise的LambdaRank方式的损失函数来训练模型,对模型进行实验结果证实了模型的有效性和可解释性。进行实验结果证实了模型的有效性和可解释性。进行实验结果证实了模型的有效性和可解释性。

【技术实现步骤摘要】
一种显式特征与隐式特征相结合的搜索结果多样化方法与系统


[0001]本专利技术涉及信息检索
,尤其涉及一种显式特征与隐式特征相结合的搜索结果多样化方法与系统。

技术介绍

[0002]搜索结果多样化是解决用户提出模糊查询的有效方法,它的主要目标是使得搜索引擎返回的排序列表尽量覆盖用户查询的所有子话题。目前研究人员已经提出了一系列搜索结果多样化算法。这些算法的主要流程是:当用户提出一个查询词后,根据多样化评分函数,不断选取目前已选文档序列下的最佳多样化文档并加入已选文档序列,不断重复这个过程指导文档序列足够长。模型大致可以分为两种:隐式模型和显式模型。隐式模型着重考虑了文档的新颖程度,以文档之间的相似性作为隐式特征。在隐式模型的多样化评分函数中,都考虑打分文档与已选文档之间的隐式特征。例如,Zhu等人提出了基于网页之间标题,正文,锚文本等特征衡量文档之间不相似性的方法,并将learning to rank方法引入到搜索结果多样化方法中。Xia等人优化了中的方法,将优化目标从最大似然变为拉大正例样本和负例样本的差距。之后Xia等人又讲张量神经网本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种显式特征与隐式特征相结合的搜索结果多样化方法,输入是查询q和它对应的子话题I,候选文档集合D,重排之后得到的文档序列R作为搜索引擎对于查询q返回的多样化结果,生成R的过程是迭代的为每次根据已选文档D
s
,按照评价函数选出一个评分最高的文档d
t
加入已选文档D
s
,重复这个过程直到D
s
足够长,最终将已选文档D
s
作为结果返回,其特征在于:其评分函数的公式化描述如下:f(d
t
|q,I,D,D
s
)=α(Q,D,D
s
)*S
ex
(d
t
|I,D
s
)+(1

α)*S
im
(d
t
|I,D
s
)公式中,α为权重更新模型,S
ex
为显式评分模型,S
im
为隐式评分模型,其表示的含义为:对于查询q,其子话题为I={i1,i2,...,i
k
},对应的候选文档集合为D,在当前t

th步骤已选文档集合D
s
,评分文档为d
t
,子话题和文档对应的初始表示分别为I
init
和D
init
,将查询视作一个特殊的子话题,使其和子话题进行链接获取联合表示Q
init
=[q
init
;I
init
],首先通过Transformer中的Encoder结构将候选文档集合之间和子话题或查询之间进行交互,以获取进一步的表示Q=Encoder(Q
init
,Q
init
,Q
init
)和D=Encoder(D
init
,D
init
,D
init
),其中,q=Q[1],I=Q[1:],D
s
=D[:t

1]在之后的模型架构中,如无歧义,我们将Q成为子话题表示矩阵;在获取文档和子话题的正式表示之后,通过已选文档D
s
,所有候选文档D和子话题Q来建模结合权重,并通过D
s
,d
t
,I的交互获得显式评分,通过D
s
,D\D
s
,d
t
,q之间的交互获得隐式评分,最终通过更新的权重将显式评分和隐式评分组合成为最终的多样化评分;得到多样化分之后,通过LambdaRank进行pairwise的训练,设(d
i
,d
j
)为文本对,Δ为两者的评价指标差值,在理想排序中,d
i
应当好于d
j
,则p
ij
=1,反之p
ij
=0记f(d
i
|q,I,D,D
s
)为f(d
i
),...

【专利技术属性】
技术研发人员:窦志成刘炯楠
申请(专利权)人:中国人民大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1