【技术实现步骤摘要】
一种基于稠密伪查询向量表示的文档检索方法
本专利技术属于自然语言处理
,特别设计了一种基于稠密伪查询向量表示的文档检索方法。
技术介绍
文档检索是信息检索领域中的基本任务。给定一个查询,文档检索模型在已有的文档库中检索出和查询最为匹配的文档。早期的信息检索模型所使用的文本表示形式一般是基于词袋的稀疏表示形式(例如,BM25)。然而,这种表示非常依赖文档和查询之间的精确匹配,很大程度上影响了检索的准确性。随着神经网络和深度学习的发展,使用神经网络将文本编码为稠密向量表示的方法得到了广泛的应用(LeeXiong,ChenyanXiong,YeLi,Kwok-FungTang,JialinLiu,PaulBennett,JunaidAhmed,andArnoldOverwijk.2020.Approximatenearestneighbornegativecontrastivelearningfordensetextretrieval)。这类方法通过卷积神经网络等结构将文本映射为连续的稠密的向量表示,文档和查询之间的匹配分数 ...
【技术保护点】
1.一种基于稠密伪查询向量表示的文档检索方法,包括以下步骤:/n(1)利用预训练语言模型作为编码器,对文档进行编码,得到文档中每个字符位置的编码向量;/n(2)将随机若干个文档中每个字符位置的编码向量作为初始伪查询向量,并且迭代更新伪查询向量,使其模拟文档检索过程中潜在出现的对应该文档中不同语义信息的多个查询向量,得到每个文档的多个伪查询向量;/n(3)利用预训练语言模型作为编码器,对给定的查询文本进行编码,得到包含语义信息的查询向量;/n(4)利用所述每个文档的多个伪查询向量和所述包含语义信息的查询向量,计算每个文档的多个伪查询向量的相似度分数,使用所述包含语义信息的查询 ...
【技术特征摘要】
1.一种基于稠密伪查询向量表示的文档检索方法,包括以下步骤:
(1)利用预训练语言模型作为编码器,对文档进行编码,得到文档中每个字符位置的编码向量;
(2)将随机若干个文档中每个字符位置的编码向量作为初始伪查询向量,并且迭代更新伪查询向量,使其模拟文档检索过程中潜在出现的对应该文档中不同语义信息的多个查询向量,得到每个文档的多个伪查询向量;
(3)利用预训练语言模型作为编码器,对给定的查询文本进行编码,得到包含语义信息的查询向量;
(4)利用所述每个文档的多个伪查询向量和所述包含语义信息的查询向量,计算每个文档的多个伪查询向量的相似度分数,使用所述包含语义信息的查询向量和同一个文档的多个向量的相似度分数的最大值作为每个文档的相似度得分,筛选出相似度得分最大的前若干个文档作为候选文档;
(5)利用上述相似度分数来聚合每个文档的多个伪查询向量,生成最终的文档向量表示;
(6)利用所述最终的文档表示向量和所述包含语义信息的查询向量计算相似度,以该相似度作为最终的查询匹配分数,对所述候选文档进行排序,实现最终的文档检索。
2.如权利要求1所述的方法,其特征在于,步骤(1)中,将文档截断或使用占位符补足成共含有多个字符的文本,输入到编码器中进行编码,保留编码器的最后一层所得到的每个字符位置输出的编码向量。
3.如权利要求1所述的方法,其特征在于,步骤(2)中,计算伪查询向量和文档每个字符位置输出的编码向量的距离,利用相距伪查询向量一定距离内的多个字符编码向量,更新多个伪查询向量,使其对应文档中不同的语义信息,迭代进行多次。
4.如权利要求1或3所述的方法,其特征在于,步骤(2)中,迭代更新伪查询向量,直至伪查询向量的变化值小于一设定阈值,然后保留每个文档的多个伪查询向量。
5.如权利要求1所述的方法,其特征在于,通过k-means算法迭...
【专利技术属性】
技术研发人员:唐弘胤,金蓓弘,
申请(专利权)人:中国科学院软件研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。