一种文档检索方法及相关设备技术

技术编号:44336522 阅读:13 留言:0更新日期:2025-02-18 20:46
本说明书提供了一种文档检索方法及相关设备。该方法包括:获取用户输入的查询文本,所述查询文本中包含作为查询条件的时间信息;将所述查询文本输入至文本检索器,由所述文本检索器从文档库包含的多个文档中检索出与所述查询文本相匹配的至少一个候选文档;其中,所述文本检索器为基于预先构建的训练样本,对初始的文本检索器进行训练后得到的文本检索器;所述训练样本包含问题样本以及与所述问题样本的答案对应的文档,所述问题样本中包含时间信息;基于所述至少一个候选文档,推理出与所述查询文本对应的查询结果。

【技术实现步骤摘要】

本说明书一个或多个实施例涉及文档检索,尤其涉及一种文档检索方法及相关设备


技术介绍

1、检索增强生成(retrieval augmented generation,rag),是一种结合了信息检索和文本生成的技术,旨在利用外部知识库来提高大规模语言模型(large languagemodels,llm)的生成质量。rag通常包括两个过程:首先,通过文本检索器从大型文档集合中检索出与当前用户输入的查询文本相关的若干文档,然后,利用检索到的若干文档辅助llm模型进行推理,以生成准确的查询结果。

2、然而,现有的文档检索器对查询条件中的时间约束不敏感,往往会忽略查询文本中包含的时间信息,导致检索到的若干文档常常与用户期望的查询目标不符合。例如用户想要查询“1943年的诺贝尔物理学奖得主是谁?”,现有的文本检索器通常专注于“诺贝尔物理学奖得主”这一语义信息,难以捕捉其中“1943年”这一时间约束,导致检索出很多与“1943年无关的文档,进而严重影响了后续基于检索出的文档进行辅助推理的准确性,无法满足用户的实际使用需求。

/>

技术本文档来自技高网...

【技术保护点】

1.一种文档检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个候选文档,推理出与所述查询文本对应的查询结果,包括:

3.根据权利要求1所述的方法,其特征在于,所述从文档库包含的多个文档中检索出与所述查询文本相匹配的至少一个候选文档,包括:

4.根据权利要求3所述的方法,其特征在于,所述从文档库包含的多个文档中,检索出与所述查询文本之间语义相似度最大的至少一个候选文档,包括:

5.根据权利要求4所述的方法,其特征在于,所述对文档库包含的多个文档分别进行嵌入编码,包括:>

6.根据权利...

【技术特征摘要】

1.一种文档检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个候选文档,推理出与所述查询文本对应的查询结果,包括:

3.根据权利要求1所述的方法,其特征在于,所述从文档库包含的多个文档中检索出与所述查询文本相匹配的至少一个候选文档,包括:

4.根据权利要求3所述的方法,其特征在于,所述从文档库包含的多个文档中,检索出与所述查询文本之间语义相似度最大的至少一个候选文档,包括:

5.根据权利要求4所述的方法,其特征在于,所述对文档库包含的多个文档分别进行嵌入编码,包括:

6.根据权利要求4所述的方法,其特征在于,所述文本检索器包括文档编码器和查询编码器;

7.根据权利要求6所述的方法,其特征在于,所述查询编码器包括时间类查询编码器和非时间类查询编码器;所述将所述查询文本输入至所述文本检索器中的查询编码器,由所述查询编码器对所述查询文本进行嵌入编码,包括:

8.根据权利要求7所述的方法,其特征在于,所述确定所述查询文本中是否包含作为查询条件的时间信息,包括:

9.根据权利要求7所述的方法,其特征在于,所述初始的文本检索器包括基于通用数据集进行预训练得到的文本检索器;对初始的文本检索器进行训练包括:对预训练完成的文本检索器进一步执行微...

【专利技术属性】
技术研发人员:吴非凡刘凌远何文韬刘子奇张志强王昊奋王萌
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1