【技术实现步骤摘要】
基于自适应权重的语义检索模型融合方法及系统
[0001]本专利技术涉及信息检索领域,特别是涉及一种将基于语义的稠密检索和基于词项匹配的稀疏检索进行融合的方法和系统
。
技术介绍
[0002]随着互联网的发展,每天网络上产生大量内容
。
大量的网站产生,截止
2022
年6月,我国网站数量为
398
万个
。
很多网站,如知乎
、
小红书等,其用户每天在平台上创作大量的内容
。2021
年
12
月
31
日,知乎累计内容量达
4.9
亿条,其中问答达
4.2
亿
。
[0003]搜索引擎偏向多样化,包括传统的网页搜索引擎
、
商品的电商搜索
、
生活服务搜索
、
用户创作内容的搜索等
。
多种搜索场景带来更多挑战,对刻画用户查询和文档的语义相关性有更高要求
。
基于词匹配的检索技术有局限性,无法处理同义词
、
多义词
、
建模句子整体语义等问题
。
因此,基于语义的检索技术成为信息检索领域中的重要问题
。
[0004]随着预训练语言模型的引入,当前在
MS MARCO、NaturalQuestions
等数据集上,基于稠密向量检索的深度语义检索方法以及完全超越了传统的
B ...
【技术保护点】
【技术特征摘要】
1.
一种基于自适应权重的语义检索模型融合方法,其特征在于,包括:以检索信息进行稀疏检索,获取稀疏检索结果及对应的稀疏排序分值;以该检索信息进行稠密检索,获取稠密检索结果及对应的稠密排序分值;构建权重预测模型,基于该检索信息
、
该稀疏检索结果和该稠密检索结果通过该权重预测模型获取融合权重;以该融合权重
、
该稀疏排序分值和该稠密排序分值,生成融合排序分值;根据该融合排序分值,将该稀疏检索结果和该稠密检索结果进行排序,生成最终检索结果
。2.
如权利要求1所述的语义检索模型融合方法,其特征在于,获取该融合权重的步骤包括:分别获取该检索信息的向量表示
emb
query
、
该稀疏检索结果的向量表示和该稠密检索结果的向量表示将
emb
query
、
与拼接后作为该权重预测模型的输入,并输出该融合权重
。3.
如权利要求1所述的语义检索模型融合方法,其特征在于,还包括:获取历史检索信息及其对应的历史检索结果;对该历史检索信息使用稀疏检索,获取历史稀疏检索结果及对应的历史稀疏排序分值;对该历史检索信息使用稠密检索,获取历史稠密检索结果及对应的历史稠密排序分值;基于该历史检索信息
、
该历史稀疏检索结果
、
该历史稀疏排序分值
、
该历史稠密检索结果
、
该历史稠密排序分值及该历史检索结果,以获取排序指标具有最大值时所对应融合权重作为该权重预测模型训练的学习目标,对该权重预测模型进行训练;该排序指标包括
MRR、nDCG
或
MAP。4.
如权利要求1所述的语义检索模型融合方法,其特征在于,该权重预测模型为多层感知机
。5.
如权利要求1所述的语义检索模型融合方法,其特征在于,生成该融合排序分值的步骤包括:将该稀疏排序分值和该稠密排序分值使用
Min
‑
Max
归一化或者
Z
‑
Score
归一化进行归一化处理后,再生成该融合排序分值
。6.
一种基于自适应权重的语义检索模型融合系统,其特征在...
【专利技术属性】
技术研发人员:薛源海,夏浩耘,贺广福,陈翠婷,俞晓明,沈华伟,程学旗,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。