【技术实现步骤摘要】
本申请涉及信息检索,尤其涉及一种基于文档嵌入的查询匹配方法及装置。
技术介绍
1、在传统的信息检索中,文档通常被分割成多个小块,然后将这些小块存储在搜索和分析引擎(比如elasticsearch)中以进行向量化和检索。然而,由于嵌入模型窗口的限制,按固定长度或标点进行分段会导致语义相关的文本被分开。此外,基于相似度的传统检索方法有时无法准确反映语义相关性。因此,亟需提出更有效的查询匹配方法以提高检索性能。
技术实现思路
1、为了解决上述问题,本申请提出一种基于文档嵌入的查询匹配方法、装置、计算机可读存储介质及计算设备,能高效和高性能地实现语义的查询匹配。
2、第一方面,本申请提供一种基于文档嵌入的查询匹配方法,应用于查询匹配系统,查询匹配系统包括多个目标文档,该方法包括:
3、在离线阶段:
4、对每个目标文档,基于预设切分规则对目标文档进行切分,得到多个文本块;
5、确定目标文档的多个预测查询问题,以及文档标题;
6、基于文档嵌入
...【技术保护点】
1.一种基于文档嵌入的查询匹配方法,其特征在于,应用于查询匹配系统,所述查询匹配系统包括多个目标文档,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标文档的多个预测查询问题,以及文档标题,包括:
3.根据权利要求1所述的方法,其特征在于,所述文本块向量、预测查询向量、标题向量各自具有不同的权重,
4.根据权利要求3所述的方法,其特征在于,所述文档相似度的计算公式包括:
5.根据权利要求1所述的方法,其特征在于,所述预设切分规则包括基于所述目标文档的长度和语义内容动态确定的块大小对所述目标文档进行
...
【技术特征摘要】
1.一种基于文档嵌入的查询匹配方法,其特征在于,应用于查询匹配系统,所述查询匹配系统包括多个目标文档,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标文档的多个预测查询问题,以及文档标题,包括:
3.根据权利要求1所述的方法,其特征在于,所述文本块向量、预测查询向量、标题向量各自具有不同的权重,
4.根据权利要求3所述的方法,其特征在于,所述文档相似度的计算公式包括:
5.根据权利要求1所述的方法,其特征在于,所述预设切分规则包括基于所述目标文档的长度和语义内容动态确定的块大小对所述目标文档进行块切分。
6.根据权利要求1所述的方法,其特征在于,所述基于文档嵌入方式,生成各文本...
【专利技术属性】
技术研发人员:石颍乐,夏敏,易丛文,管健,
申请(专利权)人:深圳智现未来工业软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。