基于自适应权重的语义检索模型融合方法及系统技术方案

技术编号:39498809 阅读:16 留言:0更新日期:2023-11-24 11:28
本发明专利技术提出一种基于自适应权重的语义检索模型融合方法,包括:以检索信息进行稀疏检索,获取稀疏检索结果及对应的稀疏排序分值;以该检索信息进行稠密检索,获取稠密检索结果及对应的稠密排序分值;构建权重预测模型,基于该检索信息

【技术实现步骤摘要】
基于自适应权重的语义检索模型融合方法及系统


[0001]本专利技术涉及信息检索领域,特别是涉及一种将基于语义的稠密检索和基于词项匹配的稀疏检索进行融合的方法和系统


技术介绍

[0002]随着互联网的发展,每天网络上产生大量内容

大量的网站产生,截止
2022
年6月,我国网站数量为
398
万个

很多网站,如知乎

小红书等,其用户每天在平台上创作大量的内容
。2021

12

31
日,知乎累计内容量达
4.9
亿条,其中问答达
4.2
亿

[0003]搜索引擎偏向多样化,包括传统的网页搜索引擎

商品的电商搜索

生活服务搜索

用户创作内容的搜索等

多种搜索场景带来更多挑战,对刻画用户查询和文档的语义相关性有更高要求

基于词匹配的检索技术有局限性,无法处理同义词

多义词

建模句子整体语义等问题

因此,基于语义的检索技术成为信息检索领域中的重要问题

[0004]随着预训练语言模型的引入,当前在
MS MARCO、NaturalQuestions
等数据集上,基于稠密向量检索的深度语义检索方法以及完全超越了传统的
BM25
算法

例如在
NaturalQuestions
上,基于稠密向量的语义检索模型仅需
1000
条训练数据就可以超越
BM25
算法

[0005]但是有研究者发现,目前的基于语义的检索模型,不善于捕捉文本中实体的语义,导致在包含实体的查询上效果不好

例如针对查询“Who plays Thoros ofMyr in Game ofThrones
?”,
BM25
算法成功检索到了匹配到“Thoros ofMyr”这个实体,并且找到了包含正确答案的文本

而稠密向量检索模型检索到的是另一个不相关的演员的百科页面

[0006]目前的检索的系统主要是依照检索

排序的方式来实现

第一阶段的检索主要目的是从大量的语料中,选取小部分
(
通常是数千个
)
候选文档

然后基于检索到的候选集使用更复杂的模型进行进一步排序

第一阶段的检索是后续排序的基础,如果检索阶段没有召回所需的文档,后续的排序也就失去了意义

[0007]根据对文本的表示方式,分为稀疏检索和稠密检索

[0008]稀疏检索主要是通过词表大小的稀疏向量来表示文本,建立索引时,主要基于倒排索引

不同的稀疏检索算法的主要差异是如何确定每个词项的权重

传统的稀疏检索算法主要基于一些统计信息,例如词频

逆文档频率等统计信息来确定词的权重
,
例如
BM25
算法

[0009]稠密检索主要是用稠密向量来表示文本,可以表示文本的语义,通常通过向量的近邻搜索来实现检索

[0010]稠密向量检索的典型架构是分别使用两个编码器来将编码查询和文档

文档可以事先编码完成并建立近似最近邻
(Approximate NearestNeighbor

ANN)
索引

对于新到来的查询,先用查询编码器编码得到查询编码向量

然后通过最大内部乘积搜索
(Maximum inner

product search

MIPS)
,找到相关的文档

稠密检索的核心主要是在如何将查询和文档编码成能很好地表示语义,并且使得不同的文本之间有区分性的向量

现有的稠密检
索模型主要是用两个
BERT
分别编码问题和段落,得到各自的向量表示

[0011]稀疏检索模型以词为表示单位,由于匹配分数是基于精确匹配信号计算的,因此具有很强的判别力

另一方面,稠密检索模型学习查询和文档的连续嵌入以对其语义信息进行编码,并评估语义相关性

因此,很自然就想到将稀疏检索模型和稠密检索模型进行混合,来使得检索时既能考虑到文本之间的语义相关性,又能对关键实体的语义进行捕获

混合检索指的是,使用不同的检索模型得文档和查询之间的相关性分数,然后按照预定义的融合规则,得到一个融合过的相关性分数进行排序

[0012]现有方法通过固定权重的分数融合来实现
BM25
模型和基于
BERT
的稠密检索模型的融合

目前主流的权重确定方式是在开发集上测试,选取一个针对当前数据集的融合权重

这种整个数据集上固定权重的融合方式较上界还有较大差距

这意味着,如果针对每一个查询的内容动态设定模型的融合权重,能进一步提升检索的效果

为了着重提升模型在基于词匹配的算法比擅长的查询上的表现

在训练语义检索模型,通过残差学习使得语义检索模型提高在
BM25
模型不擅长的样本上的表现

最后再将语义检索模型的打分和
BM25
模型的打分做加权求和

[0013]目前的常见的稀疏检索和稠密检索模型分数融合的权重依旧是通过在验证集上调参得到,没有针对每个查询单独判定

因为每个查询具有不同的特点,所有查询共用一个融合权重是不合理的

[0014]现有的检索方法主要可以分为稀疏检索和稠密检索两类,稀疏检索擅长词匹配

泛化能力强,稠密检索主要建模查询和文档之间的语义相似度

但稠密检索不善于捕捉关键实体的语义,为了解决这个问题,现在的研究者尝试通过静态权重将稀疏模型和稠密模型进行固定权重的分数融合以及在训练时通过拟合残差的方式确保模型之间有互补性

但是这些方法都问题:无法考虑到不同的查询本身的特点来选择不同模型分数所占的权重

不同的查询,适合的检索模型也不一样

对于表达比较固定的一些查询,例如药品名,“复方氨酚烷胺片”,没有其他表达,使用基于词项匹配的稀疏检索就可以达到很好的效果

对于表达多变的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于自适应权重的语义检索模型融合方法,其特征在于,包括:以检索信息进行稀疏检索,获取稀疏检索结果及对应的稀疏排序分值;以该检索信息进行稠密检索,获取稠密检索结果及对应的稠密排序分值;构建权重预测模型,基于该检索信息

该稀疏检索结果和该稠密检索结果通过该权重预测模型获取融合权重;以该融合权重

该稀疏排序分值和该稠密排序分值,生成融合排序分值;根据该融合排序分值,将该稀疏检索结果和该稠密检索结果进行排序,生成最终检索结果
。2.
如权利要求1所述的语义检索模型融合方法,其特征在于,获取该融合权重的步骤包括:分别获取该检索信息的向量表示
emb
query

该稀疏检索结果的向量表示和该稠密检索结果的向量表示将
emb
query

与拼接后作为该权重预测模型的输入,并输出该融合权重
。3.
如权利要求1所述的语义检索模型融合方法,其特征在于,还包括:获取历史检索信息及其对应的历史检索结果;对该历史检索信息使用稀疏检索,获取历史稀疏检索结果及对应的历史稀疏排序分值;对该历史检索信息使用稠密检索,获取历史稠密检索结果及对应的历史稠密排序分值;基于该历史检索信息

该历史稀疏检索结果

该历史稀疏排序分值

该历史稠密检索结果

该历史稠密排序分值及该历史检索结果,以获取排序指标具有最大值时所对应融合权重作为该权重预测模型训练的学习目标,对该权重预测模型进行训练;该排序指标包括
MRR、nDCG

MAP。4.
如权利要求1所述的语义检索模型融合方法,其特征在于,该权重预测模型为多层感知机
。5.
如权利要求1所述的语义检索模型融合方法,其特征在于,生成该融合排序分值的步骤包括:将该稀疏排序分值和该稠密排序分值使用
Min

Max
归一化或者
Z

Score
归一化进行归一化处理后,再生成该融合排序分值
。6.
一种基于自适应权重的语义检索模型融合系统,其特征在...

【专利技术属性】
技术研发人员:薛源海夏浩耘贺广福陈翠婷俞晓明沈华伟程学旗
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1