一种基于深度学习的融合个性化和多样化的搜索方法技术

技术编号:32340550 阅读:19 留言:0更新日期:2022-02-16 18:48
本发明专利技术通过智能搜索领域的方法,实现了一种基于深度学习的融合个性化和多样化的搜索方法。方法主要通过计算一般多样性和个性化多样性的权重、多样性的动态建模、聚合各个得分结果三个步骤,基于深度学习的融合个性化和多样化的搜索模型(DFSPD模型)作为方法的核心,将多样性分为个性化的多样性和一般的多样性来同时考虑个性化和多样化对结果的影响,以根据不同情况提供更令用户满意的结果。本申请方案灵活性非常高,用户描述画像生成器,单词嵌入矩阵和个性化加权过程都可替换,在准确度上有很大的提升。有很大的提升。有很大的提升。

【技术实现步骤摘要】
一种基于深度学习的融合个性化和多样化的搜索方法


[0001]本专利技术涉及网络搜索
,尤其涉及一种基于深度学习的融合个性化和多样化的搜索方法。

技术介绍

[0002]搜索语句的歧义是影响搜索引擎结果满意度的一个重要因素,主流的去歧义方法有两种,一是个性化搜索,二是搜索结果多样化。个性化搜索通常构建能够从用户搜索历史中学习有关用户兴趣喜好信息的模型,来明确当前情况下用户的具体意图,从而提供符合用户兴趣的文档。从早期的基于人工特征的个性化学习,如点击特征,词频特征等,到如今基于各种深度学习模型,如RNN、GAN、Transformer等来学习更复杂抽象的相关性特征,个性化搜索一直致力于挖掘用户更准确、细粒度的兴趣特征,然而忽略了结果的多样性以及用户兴趣的内在多样性,这会导致结果的冗余、用户兴趣不完全捕捉等问题,同时当用户没有历史数据时不能表现很好的性能,也就是常说的“冷启动”问题。搜索结果多样化则是期望在保证内容相关性的前提下,模型能够返回足够多样的文档集合,来尽可能多的满足不同用户的不同意图,以达到去歧义的目的。早期的多样化模型通常设计固定的基于内容相似度或子话题覆盖度来计算多样性的公式,从而贪心的选择局部最优文档来构成返回结果。机器学习的发展使得多样化模型能够学习基于语义上的特征,从而更合理地计算多样性。多样化的局限性在于不能精确提取用户的具体意图,从而无法产生最优的文档排序结果,也使得搜索结果中包含大量当前用户并不感兴趣的文档。融合个性化和多样化的算法能够结合二者的长处,实现优劣互补,从而为用户提供更满意的搜索结果。目前该领域的研究较为匮乏,多数模型是通过在传统的多样化算法上引入个性化因子来实现个性化的多样化,近期也有通过结构化的SVM模型来实现个性化和多样化的静态融合工作。
[0003]现有的个性化和多样化的融合工作主要存在以下几个问题:
[0004](1)不同的情况下,个性化和多样化的侧重点也应不同,如当新用户使用搜索引擎,或者用户搜索了和历史差距很大的问题,导致模型无法从搜索历史中学习有用信息时,应该更侧重于多样化来提高用户满意的概率,反之,应该侧重个性化,现有的多数方法只是简单引入了用户信息这一个性化因子来改进多样化模型,或是静态的考虑个性化和多样化的融合,并没有动态考虑二者的权重问题。
[0005](2)用户的兴趣具有内在多样性,因此注重个性化的同时也要注重用户意图的多样性,防止用户意图捕捉不完全。
[0006](3)基于深度学习的模型能够学习高阶语义上的特征信息,而现有的融合模型大多基于手工特征或者传统机器学习的方法,在准确度上有很大的提升空间。

技术实现思路

[0007]为此,本专利技术首先提出一种基于深度学习的融合个性化和多样化的搜索方法,输入用户的历史查询数据、当前查询和候选文档集,通过三个步骤实现:步骤一:并基于HRNN
模型根据用户的长期历史H
l
,短期历史H
s
学习其初始的长期和短期的描述画像L0和S0,其中H
l
={{q1,D1},

,{q
n
,D
n
}},n代表之前会话中包含的总的查询数量H
s
={{q
n+1
,D
n+1
},

,{q
n+m
,D
n+m
}},m是当前会话中已经搜索过的查询数量,q
n
代表用户提出的第n个查询,D
n
为查询q
n
时ad

hoc搜索引擎返回的初始的候选文档集,进而利用查询向量和用户描述画像的匹配度,并以div(d|q
v
)表示文档d的一般多样性,div(d|S),div(d|L)表示文档的个性化多样性,使用r
S
,r
L
作为个性化多样性的权重来动态控制个性化多样性对得分结果的影响程度;步骤二:构建RRNN模型,对于剩余候选文档集里的文档基于当前的综合得分score(d)利用贪心算法选择每一步的局部最优文档d*,之后根据所述文档的虚拟子话题表征来学习该文档对用户长短期描述画像和查询的子话题表征的影响,使用重置门结构来对这种影响建模,更新为其中分别表示遗忘掉t个已选文档覆盖的子话题后,查询语句、用户短期画像和长期画像的向量表征,用于下一步文档选择的得分计算。
[0008]表示查询和用户画像向量表征的初始性。最终实现建模文档多样性的动态建模;步骤三,聚合各个得分结果,基于该得分即为重排序候选文档的依据,从而实现融合个性化和多样化的搜索结果重排序算法。文档总得分函数如下:
[0009]score(d)=P(d|q,D,S,u)=P(d|q
v
,S,L)=
[0010]φ(div(d|q
v
),r
S
div(d|S),r
L
div(d|L),rel(d,q))
[0011]其中div(d|q
v
)表示文档d的一般多样性,div(d|S),div(d|L)表示文档的个性化多样性,使用r
S
,r
L
作为个性化多样性的权重来动态控制个性化多样性对得分的影响程度,rel(d,q)表示基于额外的手工特征计算得到的查询和文档的相关性得分,φ是一个聚合函数,使用多层感知机实现。
[0012]所述一般多样性权重和个性化多样性的权重的具体计算方式为:使用word2vec技术来学习单词嵌入,然后基于单词的TF

IDF权重加权求和得到的向量表示利用HRNN结构来学习用户初始的长短期描述画像H'0,S'0;
[0013]所述HRNN结构首先利用第一层RNN以用户所有的查询记录为输入,每一个会话结束为时期节点构建每个会话内的用户的兴趣表征:
[0014][0015]下标m和n表示第m个会话里的第n次查询记录,上标1表示第一层RNN结构,q
m,n
,d
m,n
表示相应的输入查询和平均相关文档,则用户的短期描述画像可以表示为:其中M表示第M个当前会话,n
M
表示用户在该会话中已经进行的搜索;
[0016]长期描述画像根据不包含当前会话记录的整体历史记录构建,首先以用户历史的各个会话表征为输入,应用第二层RNN结构来学习用户各个时期的兴趣表征:
[0017][0018]其中m表示第m个当前会话,n
m
表示用户在该会话中已经进行的搜索,之后利用当前查询和用户各个时期兴趣表征的相似度α
m
作为各个时期兴趣的权重,将加权求和的结果作为用户长期兴趣描述:
[0019][0020][0021][0022]引入卷积神经网络conv从查询的原始表征中学习其虚拟子话题表示序列:
[0023][0024]其中q
i
表示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的融合个性化和多样化的搜索方法,其特征在于:输入用户的历史查询数据、当前查询和候选文档集,通过三个步骤实现:步骤一:并基于HRNN模型根据用户的长期历史H
l
,短期历史H
s
学习其初始的长期和短期的描述画像L0和S0,其中H
l
={{q1,D1},

,{q
n
,D
n
}},n代表之前会话中包含的总的查询数量H
s
={{q
n+1
,D
n+1
},

,{q
n+m
,D
n+m
}},m是当前会话中已经搜索过的查询数量,q
n
代表用户提出的第n个查询,D
n
为查询q
n
时ad

hoc搜索引擎返回的初始的候选文档集,进而利用查询向量和用户描述画像的匹配度,并以div(d|q
v
)表示文档d的一般多样性,div(d|S),div(d|L)表示文档的个性化多样性,使用r
S
,r
L
作为个性化多样性的权重来动态控制个性化多样性对得分的影响程度;步骤二:构建RRNN模型,对剩余候选文档集中的候选文档根据当前综合得分score(d)利用贪心算法选择每一步的局部最优文档d
*
,之后根据所述文档的虚拟子话题表征来学习该文档对用户长短期描述画像和查询的子话题表征的影响,使用重置门结构来对这种影响建模,更新S
t
‑1,L
t
‑1为S
t
,L
t
,其中,S
t
,L
t
分别表示遗忘掉t个已选文档覆盖的子话题后,查询语句、用户短期画像和长期画像的向量表征,用于下一步文档选择的得分计算,L0,S0表示查询和用户画像向量表征的初始性。最终实现建模文档多样性的动态建模;步骤三,聚合各个得分结果,该得分即为重排序候选文档的依据,从而输出重排序后的搜索结果。2.如权利要求1所述的一种基于深度学习的融合个性化和多样化的搜索方法,其特征在于:所述一般多样性权重和个性化多样性的权重的具体计算方式为:使用word2vec技术来学习单词嵌入,然后基于单词的TF

IDF权重加权求和得到的向量表示d

,利用HRNN结构来学习用户初始的长短期描述画像H'0,S'0;所述HRNN结构首先利用第一层RNN以用户所有的查询记录为输入,每一个会话结束为时期节点构建每个会话内的用户的兴趣表征:下标m和n表示第m个会话里的第n次查询记录,上标1表示第一层RNN结构,q
m,n
,d
m,n
表示相应的输入查询和平均相关文档,则用户的短期描述画像可以表示为:其中M表示第M个当前会话,n
M
表示用户在该会话中已经进行的搜索;长期描述画像根据不包含当前会话记录的整体历史记录构建,首先以用户历史的各个会话表征为输入,应用第二层RNN结构来学习用户各个时期的兴趣表征:其中m表示第m个当前会话,n
m
表示用户在该会话中已经进行的搜索,之后利用当前查询和用户各个时期兴趣表征的相似度α
m
作为各个时期兴趣的权重,将加权求和的结果作为用户长期兴趣描述:果作为用户长期兴趣描述:
引入卷积神经网络conv从查询的原始表征中学习其虚拟子话题表示序列:其中q
i
表示查询的第i个子话题表征,c表示查询包含的子话题数量进而得到文档和用户长短期描述画像的子话题表示:d,L0,S0:d=[d1,d2…
d
c
]=conv(d')L0=[L...

【专利技术属性】
技术研发人员:窦志成王淑婷
申请(专利权)人:中国人民大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1