基于多视角融合的结果多样化搜索方法及系统技术方案

技术编号:39817382 阅读:7 留言:0更新日期:2023-12-22 19:36
本发明专利技术提供基于多视角融合的结果多样化搜索方法及系统

【技术实现步骤摘要】
基于多视角融合的结果多样化搜索方法及系统


[0001]本专利技术涉及结果多样化搜索方法,特别是涉及基于多视角融合的结果多样化搜索方法


技术介绍

[0002]互联网的蓬勃发展有力推动了信息资讯的迅猛增长,人工的数据检索方式已不能满足人们日常需求,为了缓解信息过载并加快信息获取,信息检索技术应运而生并且发展迅猛

搜索是信息检索中最重要的研究方向之一,搜索的目的是根据用户发起的搜索语句,从资源集合中检索出符合用户需求的网页文档

结果多样化搜索技术通过挖掘文档列表的内容多样性关系,使搜索结果首页呈现内容主题覆盖度更广和观点更加多元化的特点,能够更好的满足用户的搜索需求

[0003]与传统搜索技术不同,结果多样化搜索技术不仅考虑文档与搜索语句之间的相关性特征,还考虑文档之间的多样性关系

与相关性建模不同,多样性特征建模时认为文档之间并不独立,是相互影响的,既要考虑文档与搜索子话题的内容主题关系,又要考虑文档间的内容多样性关系,所以建模程度更加困难

在多样化搜索领域,启发式方法依赖人工选择的特征,对多样性特征表示不足,且无法自动学习参数,效果不佳;监督学习式方法依赖人工标注的训练数据,能自动优化参数,能更深层次多方面的对文档多样性关系挖掘

其中,局部视角下贪心建模思路方法忽略了候选文档间的内容依赖性,未考虑文档的全局关联关系,仅能得到局部最优解,无法得到全局最优文档结果列表;全局视角下的建模方法虽然考虑了所有文档间的内容关联关系,但失去了局部视角下文档选择的时序特征,即某一文档被选择对后续文档的边际信息收益的影响,因此搜索性能受限


技术实现思路

[0004]专利技术目的:为解决现有技术的不足,本专利技术提供一种基于多视角特征融合的结果多样化搜索方法及系统

[0005]技术方案:为实现上述专利技术目的,本专利技术采用以下技术方案:
[0006]本专利技术的一种基于多视角融合的结果多样化搜索方法,包括如下步骤:
[0007](1)
信息表示
[0008]通过对信息的上下文分析和理解,计算得到网页文档

搜索语句及其子话题的初始表征;
[0009]步骤
(1)
包括如下具体步骤:
[0010](1

1)
输入网页文档集合
P

[p1,p2,p3,...,p
N
],其中
p
i
表示第
i
个文档,
N
表示文档总数;
[0011](1

2)
通过
Doc2Vec
模型的
PV

DBOW
训练机制,以得到包含词语义和词序信息的文档向量,
PV

DBOW
训练方法中第
i
个文档表示
p
i

[w
i,1
,w
i,2
,w
i,3
,...,w
i,m
],其中
w
i,j
表示第
i
个文档的第
j
个单词,
m
表示文档单词总数;最后,给定文本窗口大小,随机采样文本窗口中
的一个词,通过预测这个词的概率,不断迭代训练文档矩阵表示,得到文档信息表示,训练过程中的目标是最大化预测词的概率,计算过程如下:
[0012][0013]其中,
f(p)
表示最大化文档
p
中随机采样词语的预测概率计算,
ω
(v,z)
表示采样的第
v
个文本窗口中第
z
个随机采样预测词语,
W
为文本窗口集合,
v

W
中随机采样的文本窗口,
V
表示窗口
v
中词语集合,
z

V
中随机采样的词语,
P(
ω
(v,z)
|d)
表示给定文档
p
生成预测词语
ω
(v,z)
归一化后的概率;其计算过程如下:
[0014][0015]其中,
y
k
表示归一化前预测第
k
个词语的概率,

k
exp(y
k
)
表示对所有预测词语的归一化前概率进行求和,最后通过梯度下降法对文档向量进行更新得到最终文档集合表示,文档集合的信息表示计算公式如下:
[0016]D

Doc2Vec(P)
[0017]其中,
D
表示最终文档集合表示,
Doc2Vec(
·
)
表示
Doc2Vec
模型,
P
表示网页文档集合;
[0018](1

3)
通过对数据集中信息的表示学习,网页文档集合
P

[p1,p2,p3,...,p
N
]不断迭代更新学习得到最终的文档集合信息表示
D

[d1,d2,d3,

,d
N
],在搜索语句及其子话题的信息表示时,首先使用相关性搜索方法召回文档,然后将前列文档拼接成一个新的文档,将这个新文档的信息表示结果作为对应搜索语句或者子话题的信息表示向量,为了与文档表示在同一语义空间,同样使用
Doc2Vec
模型对搜索语句及子话题进行表示,得到搜索语句的信息表示
q
及子话题的信息表示
S

[s1,s2,s3,

s
k
];
[0019](2)
全局多样性表征计算
[0020]结合步骤
(1)
得到的网页文档

搜索语句及其子话题的初始信息表示,使用自注意力机制分别从文本视角和子话题视角计算文档的和子话题的新颖度表征,并使用交叉注意力机制,计算文档和子话题相互融合的跨注意力表征,然后使用注意力机制将网页文档的跨注意力表征作为查询向量,子话题跨注意力表征作为键向量和值向量计算网页文档对子话题覆盖程度表征,最后结合网页文档的新颖度表征和网页文档对子话题的覆盖程度表征作为全局多样性表征;
[0021]步骤
(2)
包括如下具体步骤:
[0022](2

1)
新颖度编码阶段,将文档集合上一层表示
D
l
‑1=
[d1,d2,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于多视角融合的结果多样化搜索方法,其特征在于,该方法包括以下步骤:
(1)
信息表示通过对信息的上下文分析和理解,计算得到网页文档

搜索语句及其子话题的初始表征;步骤
(1)
包括如下具体步骤:
(1

1)
输入网页文档集合
P

[p1,p2,p3,...,p
N
]
,其中
p
i
表示第
i
个文档,
N
表示文档总数;
(1

2)
通过
Doc2Vec
模型的
PV

DBOW
训练机制,以得到包含词语义和词序信息的文档向量,
PV

DBOW
训练方法中第
i
个文档表示
p
i

[w
i,1
,w
i,2
,w
i,3
,...,w
i,m
]
,其中
w
i,j
表示第
i
个文档的第
j
个单词,
m
表示文档单词总数;最后,给定文本窗口大小,随机采样文本窗口中的一个词,通过预测这个词的概率,不断迭代训练文档矩阵表示,得到文档信息表示;训练过程中的目标是最大化预测词的概率,计算过程如下:其中,
f(p)
表示最大化文档
p
中随机采样词语的预测概率计算,
ω
(v,z)
表示采样的第
v
个文本窗口中第
z
个随机采样预测词语,
W
为文本窗口集合,
v

W
中随机采样的文本窗口,
V
表示窗口
v
中词语集合,
z

V
中随机采样的词语,
P(
ω
(v,z)
|d)
表示给定文档
p
生成预测词语
ω
(v,z)
归一化后的概率,其计算过程如下:其中,
y
k
表示归一化前预测第
k
个词语的概率,

k
exp(y
k
)
表示对所有预测词语的归一化前概率进行求和,最后通过梯度下降法对文档向量进行更新得到最终文档集合表示,文档集合的信息表示计算公式如下:
D

Doc2Vec(P)
其中,
D
表示最终文档集合表示,
Doc2Vec(
·
)
表示
Doc2Vec
模型,
P
表示网页文档集合;
(1

3)
通过对数据集中信息的表示学习,网页文档集合
P

[p1,p2,p3,...,p
N
]
不断迭代更新学习得到最终的文档集合信息表示
D

[d1,d2,d3,

,d
N
]
,在搜索语句及其子话题的信息表示时,首先使用相关性搜索方法召回文档,然后将前列文档拼接成一个新的文档,将这个新文档的信息表示结果作为对应搜索语句或者子话题的信息表示向量,为了与文档表示在同一语义空间,同样使用
Doc2Vec
模型对搜索语句及子话题进行表示,得到搜索语句的信息表示
q
及子话题的信息表示
S

[s1,s2,s3,

s
k
]

(2)
全局多样性表征计算结合步骤
(1)
得到的网页文档

搜索语句及其子话题的初始信息表示,使用自注意力机制分别从文本视角和子话题视角计算文档的和子话题的新颖度表征,并使用交叉注意力机制,计算文档和子话题相互融合的跨注意力表征,然后使用注意力机制将网页文档的跨注意力表征作为查询向量,子话题跨注意力表征作为键向量和值向量计算网页文档对子话题覆盖程度表征,最后结合网页文档的新颖度表征和网页文档对子话题的覆盖程度表征作为全局多样性表征;
步骤
(2)
包括如下具体步骤:
(2

1)
新颖度编码阶段,将文档集合上一层表示
D
l
‑1=
[d1,d2,d3,

,d
N
]
作为自注意力机制的初始输入,使用多头自注意力机制更新文档之间的表征得到本层的文档表示
D
l
,经过
L
层多头自注意力计算最终得到文档自注意力编码矩阵其中表示第
i
个文档经过新颖度编码器的向量表示,多层多头自注意力编码器对新颖度表征分为三个部分,首先,计算注意力系数
a
l,t
,计算过程如下:
a
l,t

Attn(D
l
‑1,D
l
‑1,D
l
‑1)
其中,
a
l,t
表示第
l
层的第
t
组注意力系数,其中的查询
Q、

K
和值
V
均为前一层多头自注意力机制输出的文档矩阵表示
D
l
‑1,
D
l
‑1表示第
l
‑1的隐藏层输出,经过
h
组自注意力机制系数的拼接,得到多头自注意力系数
MHSA
l

[a
l,1

a
l,2

a
l,3



a
l,h
]
;其次,通过前馈神经网络

残差连接以及层归一化操作计算得到第
l
层的多头自注意力表示
D
l

MultiSelfAttn
l
(D
l
‑1)
,计算过程如下:
X

LayerNorm(D
l
‑1+MHSA
l
)D
l

LayerNorm(X+FeedForward(X))
其中,
X
表示输入,
MHSA
l
表示多头自注意力系数,
FeedForward(X)
表示前馈神经网络,
LayerNorm(
·
)
表示层归一化操作;最后,通过多层多头自注意力编码器学习得到包含有新颖度信息的文档矩阵表示其中表示第
i
个文档经过新颖度编码器后的最终向量表示;其计算过程如下:
D
enc

MultiSelfAttn
L
(MultiSelfAttn
L
‑1(

MultiSelfAttn1(D)))#
其中,
MultiSelfAttn
L
表示第
L
层多头注意力;子话题新颖度表示的计算方式与上述方法一致,唯一不同的是初始输入改为子话题集合信息表示
S

[s1,s2,s3,

,s
k
]
,最终得到多层多头自注意力编码后的子话题新颖度表征
(2

2)
子话题覆盖程度解码阶段,将步骤
(2

1)
得到的文档新颖度表征和子话题新颖度表征作为输入,对子话题新颖度表征和文档新颖度表征进行交叉注意计算文档与子话题间的关联程度,得到文档交叉注意力特征表示与子话题交叉注意力特征表示其计算过程如下:
D
co

CrossAttention(D
enc

D
enc
)S
co

CrossAttention(S
enc

D
enc
)
其中,
CrossAttention(
·
)
表示交叉注意力,
D
enc
表示文档新颖度表征,
S
enc
表示子话题新颖度表征;以第一层计算为例,交叉注意力的具体计算如下:
a
t

Attention(D
co

S
co

S
co
)t∈[1

h]
其中,
a
t
表示第
t
组注意力头的注意力系数,将
h
个注意力系数拼接得到多头注意力系数
MHA
l

[a1;
a2;
a3;
...

a
h
]
,与
(2

1)
中编码器类似,解码器通过计算多头注意力系数

层归一化操作

残差连接和前馈网络得到文档的多头注意力表示,激活函数为
ReLU
;随后,通过
L
层多头注意力机制解码器得到文档对子话题多角度多层次的注意力表示,其形式化表示如下:
D
dec

MultiAttn
L
(MultiAttn
L
‑1(

MultiAttn1(D
co
)))D
dec
为解码器输出的最终表示,代表文档对子话题覆盖程度表征;
(2

3)
通过将步骤
(2

1)
得到的文档新颖度表征,步骤
(2

2)
得到文档对子话题覆盖程度表征进行拼接得到文档的全局多样性表征;
(3)
局部多样性表征计算结合步骤
(1)
中得到的网页文档的初始表征,根据已选网页文档中的文档选择顺序,使用长短期记忆网络计算得到文档的时序信息表征,构建文档图将时序信息表征作为文档图的节点...

【专利技术属性】
技术研发人员:张盛翔刘波吴晓庆朱瑞曹玖新刘艳
申请(专利权)人:南京德容智慧信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1