System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据查询方法、装置、存储介质及程序产品制造方法及图纸_技高网

数据查询方法、装置、存储介质及程序产品制造方法及图纸

技术编号:40966001 阅读:2 留言:0更新日期:2024-04-18 20:46
本申请涉及一种数据查询方法、装置、存储介质及程序产品,所述方法包括:接收查询请求,查询请求包括至少一种模态的查询数据,其中每种模态的查询数据包括至少一种内容形式;从多个编码器中选择与查询请求相匹配的至少一个编码器;使用选择出的编码器对查询请求包括的查询数据进行融合处理,得到第一融合向量;确定与第一融合向量的相似度满足预设条件的至少一个第二融合向量;根据对应于第二融合向量的目标样本生成第一展示数据,第一展示数据用于展示包括查询结果的界面,查询结果包括目标样本的样本数据。根据本申请实施例的数据查询方法,能够降低数据处理成本,提高数据检索精度。

【技术实现步骤摘要】

本申请涉及数据检索领域,尤其涉及一种数据查询方法、装置、存储介质及程序产品


技术介绍

1、多模态检索是近年来新兴的一种检索技术,涵盖了语音、视频、文本等多种模态,支持用户输入多种模态信息的检索请求,同时也支持返回包含多种模态信息的检索结果,真正做到了不同模态之间语义的对齐,是下一代互联网领域的关键技术之一。多模态检索的效果直接影响到用户获取目标信息的效率和体验,借助于多种模态的信息在语义空间上的一致性和互补性,用户可以充分表述其复杂的检索意图,进而实现精确的检索。在当前消费者注意范围、时间锐减的数字时代,有效地通过多模态检索来捕捉用户切实需求,提升用户消费体验,越来越成为各大电商平台的发展共识。

2、然而,传统的多模态检索方法尚存在数据处理成本高、检索精度低等缺点,面对越来越复杂的多模态检索场景,其在实际使用中越发捉襟见肘。


技术实现思路

1、有鉴于此,提出了一种数据查询方法、装置、存储介质及程序产品,根据本申请实施例的数据查询方法,能够降低数据处理成本,提高数据检索精度。

2、第一方面,本申请的实施例提供了一种数据查询方法,所述方法包括:接收查询请求,所述查询请求包括至少一种模态的查询数据,其中每种模态的查询数据包括至少一种内容形式;从多个编码器中选择与所述查询请求相匹配的至少一个编码器;使用选择出的编码器对所述查询请求包括的查询数据进行融合处理,得到第一融合向量;确定与所述第一融合向量的相似度满足预设条件的至少一个第二融合向量;根据对应于所述第二融合向量的目标样本生成第一展示数据,所述第一展示数据用于展示包括查询结果的界面,所述查询结果包括所述目标样本的样本数据。

3、根据本申请实施例的数据查询方法,通过接收查询请求,从多个编码器中选择与查询请求相匹配的至少一个编码器,使用选择出的编码器对查询请求包括的查询数据进行融合处理,可以得到第一融合向量;通过确定与第一融合向量的相似度满足预设条件的至少一个第二融合向量,根据对应于第二融合向量的目标样本生成第一展示数据,使得第一展示数据能够用于展示包括查询结果的界面,查询结果包括目标样本的样本数据。由于查询请求包括至少一种模态的查询数据,每种模态的查询数据包括至少一种内容形式,且第一融合向量是多模态、多内容形式的查询数据融合而成,因此一个第一融合向量即可代表多模态、多内容形式的查询数据,确定查询结果只需确定第一融合向量与各目标样本对应的第二融合向量的相似度即可,可以降低数据处理成本,提升检索速度;由于选择出的编码器与查询请求相匹配,因此第一融合向量与查询请求中的查询数据的语义的相似程度也更高,则确定的第二融合向量也更准确,使得查询结果中的样本数据与查询请求中的查询数据更为相似,能够提升数据检索精度;并且避免了所有编码器参与数据处理,进一步减少了数据处理成本。因此,根据本申请实施例的数据查询方法,能够降低数据处理成本,提高数据检索精度。

4、根据第一方面,在所述数据查询方法的第一种可能的实现方式中,所述从多个编码器中选择与所述查询请求相匹配的至少一个编码器,包括:针对所述查询请求中查询数据的每一内容形式,从所述多个编码器中选择与该内容形式对应的编码器。

5、通过这种方式,可以完成与查询请求相匹配的编码器的选择。在此情况下,选择出的编码器与查询请求更为适应,从而能够提升检索的精度。

6、根据第一方面或第一方面的第一种可能的实现方式,在所述数据查询方法的第二种可能的实现方式中,所述使用选择出的编码器对所述查询请求包括的查询数据进行融合处理,得到第一融合向量,包括:针对所述查询请求中,每种模态下每一内容形式的查询数据,对该查询数据添加指示内容形式的标识;将添加标识后的查询数据输入与该查询数据的内容形式对应的编码器,生成与该查询数据对应的第一分词序列;针对每种模态,拼接每一内容形式的查询数据对应的第一分词序列以及待学习的第二分词序列,得到该模态对应的第三分词序列;将所述第三分词序列输入第一转换模型进行融合处理,生成该模态对应的第四分词序列;在所述查询请求仅包括一种模态的查询数据时,将所述第四分词序列作为所述第一融合向量。

7、通过这种方式,可以基于编码器和第一转换模型实现查询数据的模态内融合。通过设置待学习的分词序列,使得第一转换模型能够充分捕捉模态内多源异构数据的差异性,可以保证模态内信息融合的精度。

8、根据第一方面的第二种可能的实现方式,在所述数据查询方法的第三种可能的实现方式中,在所述查询请求包括两种或两种以上模态的查询数据时,所述使用选择出的编码器对所述查询请求包括的查询数据进行融合处理,得到第一融合向量,还包括:针对每一模态对应的第四分词序列,对该第四分词序列添加指示模态类别的类别分词,得到该模态对应的第五分词序列;拼接每一模态对应的第五分词序列,得到第六分词序列;在所述第六分词序列起始位置添加全局分词,得到第七分词序列,所述全局分词是第二转换模型进行融合处理的融合对象;将所述第七分词序列输入所述第二转换模型进行融合处理,所述第二转换模型输出所述第一融合向量。

9、通过这种方式,可以基于第二转换模型实现模态间融合,进一步提升数据查询方法的检索能力以及灵活性。模态间融合实现了深度交互,能够提升数据查询方法的鲁棒性。

10、根据第一方面的第二种或第三种可能的实现方式,在所述数据查询方法的第四种可能的实现方式中,所述查询请求中,任意一种模态下任意一种内容形式对应两个或两个以上的查询数据时,生成与该两个或两个以上的查询数据对应的第一分词序列所使用的编码器采用相同的编码器参数。

11、通过这种方式,可以提升数据处理的效率。并且,采用共享编码器参数,可以简化参数的配置方式,使得数据查询方法的实现更为简洁。

12、根据第一方面的第三种或第四种可能的实现方式,在所述数据查询方法的第五种可能的实现方式中,所述从多个编码器中选择与所述查询请求相匹配的至少一个编码器之前,所述方法还包括:获取至少一个训练样本,每个训练样本包括多种模态的样本数据,每种模态的样本数据包括多种内容形式;针对任意训练样本,对该训练样本中的任意两个或两个以上的样本数据进行组合,得到组合的样本数据;将所述组合的样本数据作为训练数据,用于训练所述编码器、所述第一转换模型和所述第二转换模型。

13、通过这种方式,可以完成编码器、第一转换模型、第二转换模型的训练。使得使用编码器可以把每一内容形式的查询数据(或样本数据)转换为一个分词序列,使用第一转换模型可以把每一模态下多个内容形式的分词序列转换为一个分词序列,使用第二转换模型可以把多个模态的分词序列转换为一个分词序列。从而针对包括多种内容形式的单模态的查询数据(或样本数据),可以完成模态内的数据融合;针对包括多种模态的查询数据(或样本数据),可以完成模态间融合,从而为查询请求的查询数据的融合处理以及基础样本的样本数据的融合处理提供基础。

14、根据第一方面的第五种可能的实现方式,在所述数据查询方法的第六本文档来自技高网...

【技术保护点】

1.一种数据查询方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述从多个编码器中选择与所述查询请求相匹配的至少一个编码器,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述使用选择出的编码器对所述查询请求包括的查询数据进行融合处理,得到第一融合向量,包括:

4.根据权利要求3所述的方法,其特征在于,在所述查询请求包括两种或两种以上模态的查询数据时,所述使用选择出的编码器对所述查询请求包括的查询数据进行融合处理,得到第一融合向量,还包括:

5.根据权利要求3或4所述的方法,其特征在于,所述查询请求中,任意一种模态下任意一种内容形式对应两个或两个以上的查询数据时,生成与该两个或两个以上的查询数据对应的第一分词序列所使用的编码器采用相同的编码器参数。

6.根据权利要求4或5所述的方法,其特征在于,所述从多个编码器中选择与所述查询请求相匹配的至少一个编码器之前,所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,所述确定与所述第一融合向量的相似度满足预设条件的至少一个第二融合向量,包括:

8.根据权利要求7所述的方法,其特征在于,所述方法还包括:

9.根据权利要求1-8中任一项所述的方法,其特征在于,所述根据对应于所述第二融合向量的目标样本生成第一展示数据,包括:

10.一种数据查询装置,其特征在于,所述装置包括:

11.一种数据查询装置,其特征在于,包括:

12.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1-9中任意一项所述的方法。

13.一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,其特征在于,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行权利要求1-9中任意一项所述的方法。

...

【技术特征摘要】

1.一种数据查询方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述从多个编码器中选择与所述查询请求相匹配的至少一个编码器,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述使用选择出的编码器对所述查询请求包括的查询数据进行融合处理,得到第一融合向量,包括:

4.根据权利要求3所述的方法,其特征在于,在所述查询请求包括两种或两种以上模态的查询数据时,所述使用选择出的编码器对所述查询请求包括的查询数据进行融合处理,得到第一融合向量,还包括:

5.根据权利要求3或4所述的方法,其特征在于,所述查询请求中,任意一种模态下任意一种内容形式对应两个或两个以上的查询数据时,生成与该两个或两个以上的查询数据对应的第一分词序列所使用的编码器采用相同的编码器参数。

6.根据权利要求4或5所述的方法,其特征在于,所述从多个编码器中选择与所述查询请求相匹配的至少一个编码器之前,...

【专利技术属性】
技术研发人员:杨光石瑞枫童新蒋昊
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1