一种构建检索模型的方法、电子设备和存储介质技术

技术编号:37259069 阅读:14 留言:0更新日期:2023-04-20 23:34
本发明专利技术提供了一种构建检索模型的方法、电子设备和存储介质,包括:获取目标文本的目标文本词向量,获取目标文本对应的候选代表词集合和候选随机词集合,将目标文本词集合与候选代表词集合和候选随机词集合分别进行拼接,输入到量子概率注意力值模型,获取对应的注意力值,将注意力值分别输入多层感知机,获取候选代表词为代表词的概率和候选随机词为代表词的概率,基于候选代表词为代表词的概率和候选随机词为代表词的概率,最小化两者的损失函数,获取目标检索模型;从而取得更好的检索效果。果。果。

【技术实现步骤摘要】
一种构建检索模型的方法、电子设备和存储介质


[0001]本专利技术涉及自然语言处理领域,特别是涉及一种构建检索模型的方法、电子设备及存储介质。

技术介绍

[0002]随着互联网的日益普及,媒体行业的不断发展,各类线上媒体平台的数量与日俱增,电子新闻的数量也呈指数增长,因此,需要通过搜索引擎将用户根据意图输入的查询在海量的新闻数据中搜索与查询相关的信息。基于Transformer网络结构的预训练语言表示模型,在许多自然语言处理(NLP)任务上取得了显著的改进,但其在信息检索领域仍然具有很大的潜力进行提升。很少有人努力设计训练任务来实现ad

hoc检索(查询短,文本长的检索任务),当将这些预训练模型应用于ad

hoc检索时,在典型的基准数据集上可以观察到边际效益。同时预训练模型都仅仅是在原词向量基础上加入了位置编码,即绝对位置信息。绝对位置向量假设单个词语的位置是独立的,并且不考虑相邻词语位置之间的关系,对连续元素之间的距离进行建模也是非常重要的。Transformer结构使用的注意力机制在捕捉词组合(如短语或句子)的涌现意义时也会有局限性,例如“象牙塔”这个短语很难被建模为“象牙”和“塔”的语义组合。这都限制了其提高检索精度的能力。

技术实现思路

[0003]针对上述技术问题,本专利技术采用的技术方案为:一种构建检索模型的方法,所述方法包括如下步骤:S100,获取目标文本的目标文本词向量W,其中,目标文本词在目标文本词向量中的先后顺序和在目标文本中出现的先后顺序一致。
[0004]S200,获取目标文本对应的候选代表词集合S1和候选随机词集合S2,其中,所述候选代表词是预设词表中和目标文本相关的文本词,所述候选随机词是预设词表中随机选取的文本词。
[0005]S300,基于目标文本词向量W、候选代表词集合S1和候选随机词集合S2进行拼接,构建P1=[CLS]+S1+[SEP]+W+[SEP]和P2=[CLS]+S2+[SEP]+W+[SEP],其中,所述CLS和SEP是标识符,所述CLS用于标识P1的语义,所述SEP用于分割S1和W。
[0006]S400,将P1和P2分别映射到n维希尔伯特空间,获取P1对应的第一复值词向量D和P2对应的第二复值词向量E。
[0007]S500,将第一复值词向量D和第二复值词向量E分别输入到量子概率模型,获取D对应的第一注意力值H1和E对应的第二注意力值H2。
[0008]S600,将第一注意力值H1和第二注意力值H2输入多层感知机获取S1是W的代表词的概率P(S1|W)和S2是W的代表词的概率P(S2|W)。
[0009]S700,通过最小化损失函数L=max(0,1

P(S1|W)+P(S2|W)),反向传播更新所述量子概率模型的参数以获取目标检索模型。
[0010]一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少
一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行,以实现上述方法。
[0011]一种电子设备,其特征在于,包括处理器和上述所述的非瞬时性计算机可读存储介质。
[0012]本专利技术至少具有以下有益效果:本专利技术通过获取目标文本的目标文本词向量和目标文本对应的候选代表词集合和候选随机词集合,将目标文本词集合与候选代表词集合和候选随机词集合分别进行拼接,分别获取对应的第一复值词向量和第二复值词向量,将第一复值词向量和第二复值词向量分别输入到量子概率注意力值模型,获取第一注意力值和第二注意力值,将第一注意力值和第二注意力值输入多层感知机,分别获取候选代表词集合是目标文本代表词的概率和随机词是目标文本代表词的概率,通过最小化损失函数,获取目标检索模型,本专利技术通过最小化损失函数,获取目标检索模型,使得候选代表词的集合是目标文本的代表词的概率更高,更好提高ad

hot检索任务的性能,并能取得更好的检索效果,得到的预训练检索模型能在零资源和低资源的信息检索条件下,实现较好的性能。
附图说明
[0013]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1为本专利技术实施例提供的一种构建检索模型的方法的流程图。
具体实施方式
[0015]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0016]本专利技术实施例提供一种构建检索模型的方法,如图1所示,所述方法包括如下步骤:
[0017]S100,获取目标文本的目标文本词向量W,其中,目标文本词在目标文本词向量中的先后顺序和其在目标文本中出现的先后顺序一致。
[0018]具体地,获取目标文本的目标文本词向量至少包括对目标文本进行去符号、分词、词典映射,且本领域技术人员可知,现有技术中对文件进行预处理以获取的目标文本词的操作都可以包含在本申请中。
[0019]S200,获取目标文本对应的候选代表词集合S1和候选随机词集合S2,其中,所述候选代表词是预设词表中和目标文本相关的文本词,所述候选随机词是预设词表中随机选取的文本词。
[0020]在本申请中,候选代表词集合S1包括的候选代表词个数大于等于W中包括的目标文本词个数,具体的,S1中可以包括所述预设词表中所有和目标文本相关的词语,也可以是所有和目标文本相关的词语的部分,例如,通过设置选择比例来获取S1包括的全部候选代表词。候选随机词集合S2通过采用从所述预设词表中随机抽取的方式获取,具体的,在本申
请中,所述候选代表词的数量和候选随机词的数量相等。
[0021]具体地,所述预设词表可根据实际需要预先设置。
[0022]S300,基于目标文本词向量W、候选代表词集合S1和候选随机词集合S2进行拼接,构建P1=[CLS]+S1+[SEP]+W+[SEP]和P2=[CLS]+S2+[SEP]+W+[SEP],其中,所述[CLS]和[SEP]是标识符,所述[CLS]是起始符,所述[SEP]是中间隔离符。
[0023]S400,将P1和P2分别映射到n维希尔伯特空间,获取P1对应的第一复值词向量D和P2对应的第二复值词向量E。
[0024]具体地,将P1映射到n维希尔伯特空间,获取P1对应的第一复值词向量D具体包括:
[0025]S410,获取P1对应的第一文本词TP1=(TP
11
,TP
12


,TP
1j


,TP本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种构建检索模型的方法,其特征在于,所述方法包括如下步骤:S100,获取目标文本的目标文本词向量W,其中,目标文本词在目标文本词向量中的先后顺序和其在目标文本中出现的先后顺序一致;S200,获取目标文本对应的候选代表词集合S1和候选随机词集合S2,其中,所述候选代表词是预设词表中和目标文本相关的文本词,所述候选随机词是预设词表中随机选取的文本词;S300,基于目标文本词向量W、候选代表词集合S1和候选随机词集合S2进行拼接,构建P1=[CLS]+S1+[SEP]+W+[SEP]和P2=[CLS]+S2+[SEP]+W+[SEP],其中,所述[CLS]和[SEP]是标识符,所述[CLS]是起始符,所述[SEP]是中间隔离符;S400,将P1和P2分别映射到n维希尔伯特空间,获取P1对应的第一复值词向量D和P2对应的第二复值词向量E;S500,将第一复值词向量D和第二复值词向量E分别输入到量子概率模型,获取D对应的第一注意力值H1和E对应的第二注意力值H2;S600,将第一注意力值H1和第二注意力值H2输入多层感知机,以获取S1是W的代表词的概率P(S1|W)和S2是W的代表词的概率P(S2|W);S700,通过最小化损失函数L=max(0,1

P(S1|W)+P(S2|W)),反向传播更新所述量子概率模型的参数以获取目标检索模型。2.根据权利要求1所述的方法,其特征在于,S400将P1映射到n维希尔伯特空间,获取P1对应的第一复值词向量D具体包括:S410,获取P1对应的第一文本词TP1=(TP
11
,TP
12


,TP
1j


,TP
1m
),TP
1j
是TP1中第j个第一文本词,j的取值范围是1到m,m是P1中第一文本词的数量;S420,将TP
1j
映射到n维希尔伯特空间,获取TP
1j
在第j个位置O
j
的第一复数词向量从而获取第一复值词向量D={D1,D2,

,D
j


,D
m
},其中,振幅向量r
j
=[r
j1
,r
j2

……
,r
jn
]表示P
1j
的n个的隐含语义,周期向量ω
j
=[ω
j1
,ω
j2

……
,ω
jn
]表示P
1j
对位置的敏感程度,相位向量θ
j
=[θ
j1

j2

……
,θ
jn
]表示P
1j
的初始相位。3.根据权利要求2所述的方法,其特征在于,S500将第一复数词向量D输入到量子概率模型,获取D对应的第一注意力值H1包括:S510,基于第一复值词向量D={D1,D2,

,D
j


,D
m
},创建k个量子复合系统向量Ψ={Ψ1,Ψ2,...,Ψ
t
,...,Ψ
k
},其中,r
t
、θ
t
为可训练权重参数,t得到取值范围是1到k,Ψ
t
表示u
t
、D1、D2、...、D
m
的张量积;S520,基于Ψ获取第一密度矩阵集ρ={ρ1,ρ2,

,ρ
t


,ρ
k
},其中,第t个第一密度矩阵ρ
t
=Ψ
t
·

t
)
H
,(Ψ
t
)
H
是Ψ
t
的共轭转置矩阵;S530,获取第一复值词向量D在第一密度矩阵ρ上的第一重要系数CW=[CW1,CW2,

,CWt,

,CWk],第t个第一重要系数CW
t
=[CW
t1
,CW
t2


,CW
tj


,CW
tm
],其中,CW
tj
表示第一复值词向量D
j
在第一密度矩阵ρ
t
上的重要系数,通过公式CW
tj
=soft max(σ(ρ
t
,D
j
))得到,其中,tr(
·
)为矩阵取迹运算,所述softmax函数是
归一化指数函数;S540,基于第一重要系数CW,获取第一复值词向量D的注意力值A(ρ,D)=[A(ρ1,D),A(ρ2,D),....,A(ρ
t
,D),...,A(ρ
k
,D)],其中,A(ρ
t
,D)=[CW
t1
·
D1,CW
t2

【专利技术属性】
技术研发人员:罗引蒋永余王俊艳王璋盛曹家王磊
申请(专利权)人:北京中科闻歌科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1