多模态检索模型训练以及多模态检索方法、电子设备及存储介质技术

技术编号：39933153 阅读：4 留言：0更新日期：2024-01-08 21:58

本发明专利技术涉及计算机技术领域，具体涉及一种多模态检索模型训练以及多模态检索方法、电子设备及存储介质。包括：获取训练数据中多个训练商品分别对应的训练图像和训练文本；分别将多个训练商品对应的训练图像和训练文本输入至预设多模态检索网络，输出训练图像对应的训练图像特征和训练文本对应的训练文本特征；根据训练图像特征和训练文本特征之间的关系，对预设多模态检索网络进行参数更新，得到参数更新后的目标预设多模态检索模型。上述方法，将训练图像特征和训练文本特征进行融合，提取更加有区分度的图文检索特征，使得目标预设多模态检索模型的既适用于图像检索，又适用于文本检索，弥补了单一模态信息不全的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，具体涉及一种多模态检索模型训练以及多模态检索方法、电子设备及存储介质。

技术介绍

1、互联网技术的发展使得在线电商平台迅速扩展，由于其便捷性，电商平台得到越来越多人的青睐。电商领域商品种类的丰富度和用户的购物需求极大增加，因而根据图片或文本信息检索商品成为了人工智能领域的热门探究方向。

2、在人工智能领域，构建合适的深度学习模型建立视觉与自然语言之间的相应关系是一个长期的目标。视觉-语言预训练模型通过离线训练策略，对大规模图像-文本数据集进行预训练，然后对特定下游任务进行微调，有着良好的实际应用前景与广阔的探索空间。

3、然而，现有技术中通常是将图像训练和文本训练进行分开，仅使用单一模态的信息进行商品检索，从而导致了训练得到的模型功能单一，且信息不全。

技术实现思路

1、有鉴于此，本专利技术实施例提供了一种多模态检索模型训练以及多模态检索方法、电子设备及存储介质，旨在解决现有技术中通常是将图像训练和文本训练进行分开，仅使用单一模态的信息进行商品检索，从而导致了训练得到的模型功能单一，且信息不全的问题。

2、根据第一方面，本专利技术实施例提供了一种多模态检索模型训练方法，其特征在于，包括：

3、获取训练数据中多个训练商品分别对应的训练图像和训练文本；其中，同一训练商品对应的训练图像和训练文本对应的商品标识信息相同；

4、分别将多个训练商品对应的训练图像和训练文本输入至预设多模态检索网络，输出训练图像对应

5、根据训练图像特征和训练文本特征之间的关系，对预设多模态检索网络进行参数更新，得到参数更新后的目标预设多模态检索模型。

6、本专利技术实施例提供的多模态检索模型训练方法，获取训练数据中多个训练商品分别对应的训练图像和训练文本，分别将多个训练商品对应的训练图像和训练文本输入至预设多模态检索网络，输出训练图像对应的训练图像特征和训练文本对应的训练文本特征，保证了输出的训练图像对应的训练图像特征和训练文本对应的训练文本特征的准确性。然后，根据训练图像特征和训练文本特征之间的关系，对预设多模态检索网络进行参数更新，得到参数更新后的目标预设多模态检索模型，保证了得到的参数更新后的目标预设多模态检索模型的准确性。上述方法，分别将多个训练商品对应的训练图像和训练文本输入至预设多模态检索网络，输出训练图像对应的训练图像特征和训练文本对应的训练文本特征，从而实现了同时对训练图像和训练文本进行训练，能够有效利用两个模态之间的信息相互补充，将训练图像特征和训练文本特征进行融合，提取更加有区分度的图文检索特征，使得最终训练得到的目标预设多模态检索模型的既适用于图像检索，又适用于文本检索，弥补了单一模态信息不全的问题。

7、结合第一方面，在第一方面第一实施方式中，分别将多个训练商品对应的训练图像和训练文本输入至预设多模态检索网络，输出训练图像对应的训练图像特征和训练文本对应的训练文本特征，包括：

8、分别将多个训练商品对应的训练图像和训练文本输入至预设多模态检索网络中的嵌入表示层，输出训练图像对应的图像嵌入表示和训练文本对应的文本嵌入表示；

9、分别将图像嵌入表示和文本嵌入表示输入至预设多模态检索网络中的特征提取网络，输出训练图像对应的训练图像特征和训练文本对应的训练文本特征。

10、本专利技术实施例提供的多模态检索模型训练方法，分别将多个训练商品对应的训练图像和训练文本输入至预设多模态检索网络中的嵌入表示层，输出训练图像对应的图像嵌入表示和训练文本对应的文本嵌入表示，保证了输出的图像嵌入表示和文本嵌入表示的准确性。然后，分别将图像嵌入表示和文本嵌入表示输入至预设多模态检索网络中的特征提取网络，输出训练图像对应的训练图像特征和训练文本对应的训练文本特征，保证了输出的训练图像对应的训练图像特征和训练文本对应的训练文本特征的准确性。

11、结合第一方面第一实施方式，在第一方面第二实施方式中，分别将多个训练商品对应的训练图像和训练文本输入至预设多模态检索网络中的嵌入表示层，输出训练图像对应的图像嵌入表示和训练文本对应的文本嵌入表示，包括：

12、针对训练图像，将训练图像分为预设数量的子图像块；

13、将各个子图像块以序列形式输入至嵌入表示层，嵌入表示层中的线性投影层对各子图像块进行特征提取，生成训练图像对应的图像特征编码；

14、嵌入表示层中的位置编码层根据各个子图像块在训练图像中的位置，对图像特征编码进行位置编码，得到图像特征编码对应的图像位置编码；

15、嵌入表示层中的分块编码层根据各个子图像块在训练图像中的分块结果，对图像特征编码进行分块编码，得到图像特征编码对应的图像分块编码；

16、对训练图像对应的图像特征编码、图像位置编码以图像分块编码进行拼接，生成训练图像对应的图像嵌入表示；

17、针对训练文本，将训练文本以序列形式输入至嵌入表示层，嵌入表示层中的线性全连接层对训练文本进行特征提取，生成训练文本对应的文本特征编码；

18、嵌入表示层中的位置编码层根据训练文本中各个文本字符在训练文本中的位置，对文本特征编码进行位置编码，得到训练文本对应的文本位置编码；

19、嵌入表示层中的分块编码层根据训练文本中各个文本字符的分段结果，对文本特征编码进行分段编码，得到训练文本对应的文本分段块编码；

20、对训练文本对应的文本特征编码、文本位置编码以及文本分段编码进行拼接，生成训练文本对应的文本嵌入表示。

21、本专利技术实施例提供的多模态检索模型训练方法，输出训练图像对应的图像特征编码、图像位置编码和图像分块编码，然后将训练图像对应的图像特征编码、图像位置编码以图像分块编码进行拼接，生成训练图像对应的图像嵌入表示，保证了生成的图像嵌入表示的准确性。且输出训练文本对应的文本特征编码、文本位置编码以及文本分段编码，然后对训练文本对应的文本特征编码、文本位置编码以及文本分段编码进行拼接，生成训练文本对应的文本嵌入表示，保证了输出的文本嵌入表示的准确性，进而可以保证输出的训练图像特征和训练文本特征的准确性。

22、结合第一方面，在第一方面第三实施方式中，根据训练图像特征和训练文本特征之间的关系，对预设多模态检索网络进行参数更新，得到参数更新后的目标预设多模态检索模型，包括；

23、计算训练图像特征相对于训练文本特征的第一相似度以及训练文本特征相当于训练图像特征的第二相似度；

24、基于第一相似度和第二相似度之间的关系，计算预设损失函数；

25、根据预设损失函数，对预设多模态检索网络进行参数更新，得到参数更新后的目标预设多模态检索模型。

26、本专利技术实施例提供的多模态检索模型训练方法，计算训练图像特征相对于训练文本特征的第一相似度以及训练文本特征相当于训练图像特征的第二相似度，保证了计算得到的第本文档来自技高网...

【技术保护点】

1.一种多模态检索模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述分别将多个所述训练商品对应的所述训练图像和所述训练文本输入至预设多模态检索网络，输出所述训练图像对应的训练图像特征和所述训练文本对应的训练文本特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述分别将多个所述训练商品对应的所述训练图像和所述训练文本输入至所述预设多模态检索网络中的嵌入表示层，输出所述训练图像对应的图像嵌入表示和所述训练文本对应的文本嵌入表示，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述训练图像特征和所述训练文本特征之间的关系，对所述预设多模态检索网络进行参数更新，得到参数更新后的目标预设多模态检索模型，包括；

5.根据权利要求4所述的方法，其特征在于，所述根据所述预设损失函数，对所述预设多模态检索网络进行参数更新，得到参数更新后的目标预设多模态检索模型，包括；

6.根据权利要求5所述的方法，其特征在于，所述将所述训练图像特征输入至所述预设多模态检索网络中的提示网络，输出所述训练图像特

7.根据权利要求5所述的方法，其特征在于，所述根据所述第一任务无关型候选参数、所述第一任务相关型候选参数、所述第二任务无关型候选参数和所述第二任务相关型候选参数之间的关系以及所述预设损失函数，对所述预设多模态检索网络进行参数更新，得到参数更新后的目标预设多模态检索模型，包括：

8.一种多模态检索方法，其特征在于，所述方法包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-7中任一项所述的多模态检索模型训练方法以及权利要求8所述的多模态检索方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行权利要求1-7中任一项所述的多模态检索模型训练方法以及权利要求8所述的多模态检索方法。

...

【技术特征摘要】

1.一种多模态检索模型训练方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述训...

【专利技术属性】
技术研发人员：梁小丹，董晓，陈崇雨，
申请(专利权)人：暗物智能科技广州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人