数据检索方法、电子设备及计算机可读存储介质技术

技术编号:43817703 阅读:24 留言:0更新日期:2024-12-27 13:30
本申请公开了一种数据检索方法、电子设备及计算机可读存储介质,涉及计算机技术、自然语言处理技术、信息检索技术领域。该方法包括:获取待检索的目标对象数据;采用目标检索模型对目标对象数据进行数据检索,输出检索结果;其中,目标检索模型采用多模态样本对初始检索模型进行对比学习训练后生成,并且在对比学习训练过程中,多模态样本的相似度计算结果基于初始检索模型对应的批量大小分步计算得到,相似度计算结果用于表征多模态样本中不同模态样本在语义上的匹配程度。本申请解决了相关技术中对比学习方法的批量大小受限、计算资源需求高以及计算开销大的技术问题。

【技术实现步骤摘要】

本申请涉及计算机技术、自然语言处理技术、信息检索,具体而言,涉及一种数据检索方法、电子设备及计算机可读存储介质


技术介绍

1、对比学习(contrastive learning)是一种机器学习方法,旨在通过比较两个或多个数据样本之间的相似性和差异性来学习特征表示。近年来,随着深度学习技术的不断发展,对比学习在图文匹配、图像自表征、句子表征和向量检索等领域展现出了强大的应用潜力。

2、现有的对比学习方法通常使用对比损失来优化样本之间的相似度,而对比学习的批量大小(batch size)将直接影响模型训练的效果,增大批量大小可以提供更多的负样本,增强模型的辨识能力,使训练过程更为稳定。但是,随着批量大小的增大,对比损失的计算开销也会随之增加,特别是对比学习中常用的softmax函数的计算开销会随着批量大小的增大而急剧上升,导致大规模数据集上对比学习方法的应用受到了限制。

3、针对上述对比学习方法的批量大小受限、计算资源需求高以及计算开销大的问题,目前尚未提出有效的解决方案。


技术实现思路

...

【技术保护点】

1.一种数据检索方法,其特征在于,包括:

2.根据权利要求1所述的数据检索方法,其特征在于,所述初始检索模型包括:文本编码器和图像编码器,所述不同模态样本包括文本样本和图像样本,所述数据检索方法还包括:

3.根据权利要求2所述的数据检索方法,其特征在于,基于所述处理器内核性能对所述第一编码结果与所述第二编码结果进行分步相似度计算,生成所述目标检索模型包括:

4.根据权利要求3所述的数据检索方法,其特征在于,基于所述处理器内核性能对所述第一编码结果与所述第二编码结果进行分步相似度计算,得到所述对比损失包括:

5.根据权利要求4所述的数据检索方...

【技术特征摘要】

1.一种数据检索方法,其特征在于,包括:

2.根据权利要求1所述的数据检索方法,其特征在于,所述初始检索模型包括:文本编码器和图像编码器,所述不同模态样本包括文本样本和图像样本,所述数据检索方法还包括:

3.根据权利要求2所述的数据检索方法,其特征在于,基于所述处理器内核性能对所述第一编码结果与所述第二编码结果进行分步相似度计算,生成所述目标检索模型包括:

4.根据权利要求3所述的数据检索方法,其特征在于,基于所述处理器内核性能对所述第一编码结果与所述第二编码结果进行分步相似度计算,得到所述对比损失包括:

5.根据权利要求4所述的数据检索方法,其特征在于,基于所述处理器内核性能确定所述目标分块尺寸包括:

6.根据权利要求5所述的数据检索方法,其特征在于,依据所述目标分块尺寸对所述第一编码结果与所述第二编码结果进行分步相似度计算,得到所述对比损失包括:

7.根据权利要求6所述的数据检索方法,其特征在于,利用所述单个处理器对所述多个第一分块矩阵进行分步相似度计算,得到所述对比损失包括:

8.根据权利要求7所述的数据检索方法,其特征在于,利用所述单个处理器依次对所述多批次分块矩阵进行分步相似度计算,得到所述对比损失包括:

9.根据权利要求8所述的数据检索方...

【专利技术属性】
技术研发人员:张航成泽森李昕邴立东
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1