一种基于文档嵌入的查询匹配方法及装置制造方法及图纸

技术编号:44005434 阅读:16 留言:0更新日期:2025-01-10 20:22
本申请提供一种基于文档嵌入的查询匹配方法,应用于查询匹配系统,该系统包括多个目标文档,方法包括:在离线阶段:对每个目标文档,将其进行切分得到多个文本块;确定目标文档的预测查询问题和文档标题;生成各文本块、预测查询问题和文档标题各自对应的向量;根据上述向量生成各文本块对应的目标向量;在查询阶段:接收用户查询,计算对应的查询向量;对每个目标文档,分别计算查询向量与该目标文档对应的多个目标向量的相似度,并根据其中的最大相似度确定用户查询的查询结果。由此,通过为目标文档生成预测查询问题以及标题,可以扩展目标文档的语义表达类型,以实现更有效的相似度计算,从而提高查询匹配效果。

【技术实现步骤摘要】

本申请涉及信息检索,尤其涉及一种基于文档嵌入的查询匹配方法及装置


技术介绍

1、在传统的信息检索中,文档通常被分割成多个小块,然后将这些小块存储在搜索和分析引擎(比如elasticsearch)中以进行向量化和检索。然而,由于嵌入模型窗口的限制,按固定长度或标点进行分段会导致语义相关的文本被分开。此外,基于相似度的传统检索方法有时无法准确反映语义相关性。因此,亟需提出更有效的查询匹配方法以提高检索性能。


技术实现思路

1、为了解决上述问题,本申请提出一种基于文档嵌入的查询匹配方法、装置、计算机可读存储介质及计算设备,能高效和高性能地实现语义的查询匹配。

2、第一方面,本申请提供一种基于文档嵌入的查询匹配方法,应用于查询匹配系统,查询匹配系统包括多个目标文档,该方法包括:

3、在离线阶段:

4、对每个目标文档,基于预设切分规则对目标文档进行切分,得到多个文本块;

5、确定目标文档的多个预测查询问题,以及文档标题;

6、基于文档嵌入方式,生成各文本块的本文档来自技高网...

【技术保护点】

1.一种基于文档嵌入的查询匹配方法,其特征在于,应用于查询匹配系统,所述查询匹配系统包括多个目标文档,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定所述目标文档的多个预测查询问题,以及文档标题,包括:

3.根据权利要求1所述的方法,其特征在于,所述文本块向量、预测查询向量、标题向量各自具有不同的权重,

4.根据权利要求3所述的方法,其特征在于,所述文档相似度的计算公式包括:

5.根据权利要求1所述的方法,其特征在于,所述预设切分规则包括基于所述目标文档的长度和语义内容动态确定的块大小对所述目标文档进行块切分。

...

【技术特征摘要】

1.一种基于文档嵌入的查询匹配方法,其特征在于,应用于查询匹配系统,所述查询匹配系统包括多个目标文档,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定所述目标文档的多个预测查询问题,以及文档标题,包括:

3.根据权利要求1所述的方法,其特征在于,所述文本块向量、预测查询向量、标题向量各自具有不同的权重,

4.根据权利要求3所述的方法,其特征在于,所述文档相似度的计算公式包括:

5.根据权利要求1所述的方法,其特征在于,所述预设切分规则包括基于所述目标文档的长度和语义内容动态确定的块大小对所述目标文档进行块切分。

6.根据权利要求1所述的方法,其特征在于,所述基于文档嵌入方式,生成各文本...

【专利技术属性】
技术研发人员:石颍乐夏敏易丛文管健
申请(专利权)人:深圳智现未来工业软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1