一种融合个性化搜索与搜索结果多样化的检索方法技术

技术编号:32232173 阅读:31 留言:0更新日期:2022-02-09 17:36
本发明专利技术通过网络安全领域的方法,实现了一种融合个性化搜索与搜索结果多样化的检索方法与系统。从符合用户个性化需求和文档新颖性两个角度为文档计算个性化得分和多样化得分。通过计算当前查询和用户历史之间的相似度来分配个性化得分和多样化得分的权重,从而获得该文档的最终得分。本发明专利技术提供的方法通过综合考虑文档在个性化方面和多样化方面不同的得分,来提升模糊查询下搜索结果的用户满意度。利用transformer机制,设计了层次化的信息抽取机制,从用户检索历史和候选文档集中分别求出个性化得分和多样化得分。并通过两种不同的类似LambdaRank方式的损失函数来训练模型。类似LambdaRank方式的损失函数来训练模型。类似LambdaRank方式的损失函数来训练模型。

【技术实现步骤摘要】
一种融合个性化搜索与搜索结果多样化的检索方法


[0001]本专利技术涉及人工智能
,尤其涉及一种融合个性化搜索与搜索结果多样化的检索方法。

技术介绍

[0002]在搜索引擎中,用户提出的查询通常是短而且模糊的,可能包含有多个话题内容。个性化搜索和搜索结果多样化是两类解决用户模糊查询的主要方法。个性化搜索主要通过分析用户查询历史的方式来建模用户的个性化兴趣,从而确定用户当前查询的意图。例如,当用户检索“苹果”时,如果该用户在检索历史中曾经搜索过例如“微软”,“谷歌”等,我们就可以基本确定用户的意图为苹果公司,从而没有必要展示和水果苹果有关的文档。目前建模用户历史行为的方法大致可以分为两类,第一类通过检索历史显式的建模出用户兴趣,并将候选文档与用户兴趣和当前查询分别计算相似度进行综合作为打分;Ge等人通过层次化RNN和注意力机制来建模用户兴趣,Lu等人引入生成对抗网络来训练模型,Ma等人将HRNN中的普通RNN替换为了时间有关的RNN。第二类模型则统一地考虑当前查询和历史记录,生成一个修正的查询表达来与文档匹配。Zhou等人引入transformer结构来进行查询与历史的交互,Yao等人通过用户历史记录来做个性化词嵌入来重新建模查询的表达。而多样化方法并不考虑用户的历史,通过返回覆盖当前查询所有子话题的文档序列使得不同的用户都能够从同一个文档序列中找到满足需求的文档。由于标注子话题需要较大的工作量,因此在大规模搜索引擎中,隐式方法相对更方便部署。Zhu等人提出了基于网页之间标题,正文,锚文本等特征衡量文档之间不相似性的方法,并将learning to rank方法引入到搜索结果多样化方法中。Xia等人优化了中的方法,将优化目标从最大似然变为拉大正例样本和负例样本的差距。之后Xia等人又讲张量神经网络引入到特征提取中,将[]中的人工设计特征转变为神经网络提取特征。Qin等人将transformer引入到搜索结果多样化中,通过transformer结构来进行候选文档的交互,从而评判文档的新颖程度。
[0003]现有的模型往往只使用搜索结果多样化和个性化搜索技术中的一种,然而这两种方法有各自的优点和不足。搜索结果多样化可以返回覆盖所有子话题的结果,主要考虑了每个文档的新颖性,但无法综合考虑当前用户的历史兴趣。个性化搜索通过建模用户查询历史来确定当前查询的意图,但容易导致返回结果中的文档过于相似,用户在点击第一个文档之后,无法在剩下的文档中获取新的信息。综合考虑,用户在决定是否点击并浏览一个文档时,是综合考虑个性化兴趣与文档新颖性的,而上述两者均只考虑了其中的一个方面,因此并不能取得最好的效果。我们需要考虑将搜索结果多样化和个性化搜索结合起来,从而返回既符合用户个性化兴趣又能够保证文档多样化的检索结果。

技术实现思路

[0004]为此,本专利技术首先提出一种融合个性化搜索与搜索结果多样化的检索方法,从符合用户个性化需求和文档新颖性两个角度为文档计算个性化得分和多样化得分,该得分可
以用于精排搜索引擎返回给用户的文档,能够使得返回的文档更符合用户需求。
[0005]具体而言,假设对于查询q,对应的候选文档集合为D,对应的用户为U,用户U的历史记录H可以分为两部分,短期历史和长期历史短期历史表示与当前查询在同一个session下的搜索历史,其中代表第i个短期历史查询,表示第i个短期历史查询对应的候选文档,长期历史代表当前session之前所有session下的搜索历史,其中代表第i个长期历史查询,表示第i个长期历史查询对应的候选文档,定义所有的候选文档的大小一致,均为m,对文档打分综合考虑多样化得分和个性化得分,并通过当前查询和用户历史的匹配程度作为权重整合出最终的文档评分,整个评分公式可以用下面的公式进行公式化描述:
[0006]f(d|q,U,D)=λ(q,U)*S
per
(d|q,U)+(1

λ(q,U))*S
div
(d|D)
[0007]公式中,S
per
为个性化评分模型,S
div
为多样化评分模型,λ(q,U)为考虑查询与历史之间匹配程度的权重计算,
[0008]对于文档和查询的表示,首先使用传统的word2vec方法,得到用户历史中所有词的表达,对于当前查询和评分文档,分别采用将所有词求和的方式以及通过transformer结构进行交互之后再进行求和的方式,得到原始表达q
init
,d
init
和交互表达q
int
,d
int

[0009][0010][0011]公式中表示查询和文档中每个词的表达,Trm代表transformer,
[0012]设计基于transformer的结构来获取对应查询和候选文档的综合表示,令这个查询为q,文档为d,将查询中的所有词和候选文档中的所有词凭借为一个长句,并将这个长句通过transformer结构来进行交互,该过程可以用公式表达如下:
[0013][0014]其中T
q
和代表查询和文档的所有词组成的词序列,之后将查询和每个文档对应的词表达相加,得到向量级别的文档和查询表达q
w
,d
w
:
[0015][0016]使用一个考虑点击和位置信息的transformer,来交互上面所得到的文档表达d
w
,进一步优化文档和查询的表达,公式如下:
[0017]D
v
=Trm
doc
(D
w
+D
pos
+D
clk
)
[0018]公式中,是由term级别Transformer得到的文档表达矩阵,D
pos
,D
clk
分别代表位置信息的表达和点击信息的表达,为可学习的参数,D
v
是最终得到的文档表达;
[0019]模型的训练采用两种方式进行。
[0020]所述个性化评分模型通过将查询和文档的表达相加,获得代表查询的历史向量,其中短期历史的第i个查询为:
[0021][0022]长期历史的第i个查询为:
[0023][0024]其中分别代表文档和查询表达,从而获得历史上每个查询所对应的历史向量,以及短期历史和长期历史所对应的历史向量序列对应的历史向量,以及短期历史和长期历史所对应的历史向量序列
[0025]为了用户历史意图向量,采用一个层次化transformer结构:在短期历史向量序列后面添加一个[CLS]标签,并通过一个考虑位置信息的transformer,并截取最后一个向量,即[CLS]对应位置上的向量作为用户的短期历史意图向量u
s
:u
s
=Trm
short
([H
s
,[CLS]]+[H
s
,[CLS]]pos本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合个性化搜索与搜索结果多样化的检索方法,其特征在于:从符合用户个性化需求和文档新颖性两个角度为文档计算个性化得分和多样化得分,应用该得分精排搜索引擎返回给用户的文档,返回更符合用户需求的文档;具体而言,假设对于查询q,对应的候选文档集合为D,对应的用户为U,用户U的历史记录H可以分为两部分,短期历史和长期历史短期历史表示与当前查询在同一个session下的搜索历史,其中代表第i个短期历史查询,表示第i个短期历史查询对应的候选文档,长期历史代表当前session之前所有session下的搜索历史,其中代表第i个长期历史查询,表示第i个长期历史查询对应的候选文档,定义所有的候选文档D的大小一致,均为m,对文档打分综合考虑多样化得分和个性化得分,并通过当前查询和用户历史的匹配程度作为权重整合出最终的文档评分,整个评分公式可以用下面的公式进行公式化描述:f(d|q,U,D)=λ(q,U)*S
per
(d|q,U)+(1

λ(q,U))*S
div
(d|D)公式中,S
per
为个性化评分模型,S
div
为多样化评分模型,λ(q,U)为考虑查询与历史之间匹配程度的权重计算,对于文档和查询的表示,首先使用传统的word2vec方法,得到用户历史中所有词的表达,对于当前查询和评分文档,分别采用将所有词求和的方式以及通过transformer结构进行交互之后再进行求和的方式,得到原始表达q
init
,d
init
和交互表达q
int
,d
int
::公式中表示查询和文档中每个词的表达,Trm代表transformer,设计基于transformer的结构来获取对应查询和候选文档的综合表示,令这个查询为q,文档为d,将查询中的所有词和候选文档中的所有词凭借为一个长句,并将这个长句通过transformer结构来进行交互,该过程可以用公式表达如下:其中T
q
和代表查询和文档的所有词组成的词序列,之后将查询和每个文档对应的词表达相加,得到向量级别的文档和查询表达q
w
,d
w
:使用一个考虑点击和位置信息的transformer,来交互上面所得到的文档表达d
w
,进一步优化文档和查询的表达,公式如下:D
v
=Trm
doc
(D
w
+D
pos
+D
clk
)
公式中,是由term级别Transformer得到的文档表达矩阵,D
pos
,D
clk
分别代表位置信息的表达和点击信息的表达,为可学习的参数,D
v
是最终得到的文档表达;模型的训练采用两种方式进行。2.如权利要求1所述的一种融合个性化搜索与搜索结果多样化的检索方法,其特征在于:所述个性化评分模型通过将查询和文档的表达相加,获得代表查询的历史向量,其中短期历史的第i个查询为:长期历史的第i个查询为:其中分别代表文档和查询表达,从而获得历史上每个查询所对应的历史向量,以及短期历史和长期历史所对应的历史向量序列的历史向量,以及短期历史和长期历史所对应的历史向量序列为了用户历史意图向量,采用一个层次化transformer结构:在短期历史向量序列后面添加一个[CLS]标签,并通过一个考虑位置信息的transformer,并截取最后一个向量,即[CLS]对应位置上的向量作为用户的短期历史意图向量u
s
:u
s
=Trm
short
([H
s
,[CLS]]+[H
s
,[CLS]]
pos
)[|s|+1];在长期历史向量序列后添加短期历史意图向量us,并通过一个考虑位置信息的transformer,采用同样的方式得到用户的短期历史意图向量u
l
:u
l
=Trm
long
([H
l
,u
s
]+[H
l
,u
s
]
pos
)[|l|+1];之后通过几个gate机制对已获得的历史意图向量和查询向量进行综合,公式如下:gate(x,y)=z*x+(1

z)*y;z=σ(MLP([x;y]))u
f
=gate(u<...

【专利技术属性】
技术研发人员:窦志成刘炯楠
申请(专利权)人:中国人民大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1