模型训练方法和图像推荐方法、装置、设备及存储介质制造方法及图纸

技术编号：41278966 阅读：7 留言：0更新日期：2024-05-11 09:30

本申请提供一种模型训练方法和装置、图像推荐方法和装置、电子设备、计算机可读存储介质以及计算机程序产品。该模型训练方法可以包括：获得第一图像和多个第一文本，其中，第一图像与第二文本相关联，第二文本为多个第一文本之一，第一图像呈现第三文本，第三文本为多个第一文本之一且不同于第二文本；将多个第一文本输入第一模型的第一编码部分，以得到多个第一向量；将第一图像输入第一模型的第二编码部分，以得到第二向量；根据多个第一向量与第二向量之间的第一相似度，确定第一损失值；在第一损失值满足第一条件的情况下，更新第一模型的模型参数。根据本申请的方案，能够提高图片召回的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及机器学习领域，尤其涉及一种模型训练方法和装置、图像推荐方法和装置、电子设备、计算机可读存储介质以及计算机程序产品。

技术介绍

1、在一些应用场景中，需要基于文本实现图片召回。例如，用户可以在本地应用或线上应用中输入文本，则本地应用或线上应用可以基于文本向用户推荐相匹配的图片。

2、目前，可以采用机器学习模型来实现基于文本的图片召回。例如，对比语言-图像预训练(contrastive language-image pretraining，clip)模型可以用于联合学习图像和文本的表示，从而实现基于文本召回相对应的图片。

3、然而，采用clip模型实现基于文本的图片召回的过程中，有些图片中可能包含与该图片无关的文本，这使得召回很容易受到“印刷攻击”，从而导致召回效果并不理想。

4、那么，如何提高基于文本的图片召回的鲁棒性是一个亟需解决的问题。

技术实现思路

1、本申请提供了一种模型训练方法和装置、图像推荐方法和装置、电子设备、计算机可读存储介质以及计算机程序产品，提高基于文本的图片召回的鲁棒性。

2、在第一方面，本申请提供一种模型训练方法。该模型训练方法包括：获得第一图像和多个第一文本，其中，第一图像与第二文本相关联，第二文本为多个第一文本之一，第一图像呈现第三文本，第三文本为多个第一文本之一且不同于第二文本；将多个第一文本输入第一模型的第一编码部分，以得到多个第一向量；将第一图像输入第一模型的第二编码部分，以得到第二向量；根据

3、在一些可能的实施方式中，获得第一图像和多个第一文本的操作可以包括：获取多个样本对，其中，多个样本对包括多个第二图像和多个第一文本，多个第二图像和多个第一文本一一对应；从多个样本对中确定第二图像，其中，第二图像与第二文本关联，第二图像与第一图像具有相同的内容且第二图像不呈现第三文本；在第二图像中加入第三文本，以得到第一图像。

4、在一些可能的实施方式中，在第二图像中加入第三文本，以得到第一图像的操作可以包括：根据第三文本的文本长度、最大行数以及每行最大字数，确定第三文本在第一图像中的字号。

5、在一些可能的实施方式中，在第二图像中加入第三文本，以得到第一图像的操作可以包括：对第三文本进行分词处理；根据分词处理的结果，确定第三文本在第一图像中的分行。

6、在一些可能的实施方式中，在第二图像中加入第三文本，以得到第一图像，包括：以随机方式，确定第三文本在第一图像中的字体、和/或颜色、和/或位置。

7、在一些可能的实施方式中，根据多个第一向量与第二向量之间的第一相似度，确定第一损失值的操作可以包括：根据第一图像与多个第一文本的关系，确定第一概率分布，其中，第一概率分布用于表征相似度的目标概率分布；根据第一相似度，确定第二概率分布，其中，第二概率分布用于表征相似度的预测概率分布；根据第一概率分布和第二概率分布，通过相对熵损失函数计算第一损失值。

8、在一些可能的实施方式中，上述模型训练方法还可以包括：将多个第二图像输入第一模型的第二编码部分，以得到多个第三向量；根据多个第一向量与多个第三向量之间的第二相似度，确定第二损失值；在第二损失值满足第二条件和第一损失值满足第一条件的情况下，更新第一模型的模型参数。

9、在一些可能的实施方式中，根据多个第一向量与第三向量之间的第二相似度，确定第二损失值的操作可以包括：根据第二相似度，通过交叉熵损失函数计算第二损失值。

10、在第二方面，本申请提供一种图像推荐方法。该图像推荐方法包括：获取第四文本；将第四文本输入第一模型的第一编码部分，以得到第四向量，其中，第一模型是通过如第一方面及其可能得实施方式中任一项所述的模型训练方法训练得到的；计算第四向量与多个第三图像的多个第五向量之间的第三相似度；根据第三相似度，确定第四图像，其中，第四图像是多个第三图像中具有最大的第三相似度的图像。

11、在一些可能的实施方式中，上述图像推荐方法还可以包括：获取多个第三图像；将多个第三图像输入第一模型的第二编码部分，以得到多个第五向量。

12、在第三方面，本申请提供一种模型训练装置。该模型训练装置包括获得模块、第一特征提取模块、第二特征提取模块、第一损失确定模块、参数更新模块。获得模块被配置为获得第一图像和多个第一文本。第一图像与第二文本相关联。第二文本为多个第一文本之一。第一图像呈现第三文本。第三文本为多个第一文本之一且不同于第二文本。第一特征提取模块被配置为将多个第一文本输入第一模型的第一编码部分，以得到多个第一向量。第二特征提取模块被配置为将第一图像输入第一模型的第二编码部分，以得到第二向量。第一损失确定模块被配置为根据多个第一向量分别与第二向量之间的第一相似度，确定第一损失值。参数更新模块被配置为在第一损失值满足第一条件的情况下，更新第一模型的模型参数。

13、在一些可能的实施方式中，获得模块可以被配置为：获取多个样本对，其中，多个样本对包括多个第二图像和多个第一文本，多个第二图像和多个第一文本一一对应；从多个样本对中确定第二图像，其中，第二图像与第二文本关联，第二图像与第一图像具有相同的内容且第二图像不呈现第三文本；在第二图像中加入第三文本，以得到第一图像。

14、在一些可能的实施方式中，获得模块可以被配置为：根据第三文本的文本长度、最大行数以及每行最大字数，确定第三文本在第一图像中的字号。

15、在一些可能的实施方式中，获得模块可以被配置为：对第三文本进行分词处理；根据分词处理的结果，确定第三文本在第一图像中的分行。

16、在一些可能的实施方式中，获得模块可以被配置为：以随机方式，确定第三文本在第一图像中的字体、和/或颜色、和/或位置。

17、在一些可能的实施方式中，第一损失确定模块可以被配置为：根据第一图像与多个第一文本的关系，确定第一概率分布，其中，第一概率分布用于表征相似度的目标概率分布；根据第一相似度，确定第二概率分布，其中，第二概率分布用于表征相似度的预测概率分布；根据第一概率分布和第二概率分布，通过相对熵损失函数计算第一损失值。

18、在一些可能的实施方式中，上述模型训练装置还可以包括第四特征提取模块、第二损失确定模块。第四特征提取模块被配置为将多个第二图像输入第一模型的第二编码部分，以得到多个第三向量。第二损失确定模块可以被配置为根据多个第一向量与多个第三向量之间的第二相似度，确定第二损失值。参数更新模块还可以被配置为在第二损失值满足第二条件和第一损失值满足第一条件的情况下，更新第一模型的模型参数。

19、在第四方面，本申请提供一种图像推荐装置。该图像推荐装置包括第一获取模块、第三特征提取模块、相似度确定模块、图像确定模块。第一获取模块被配置为获取第四文本。第三特征提取模块被配置为本文档来自技高网...

【技术保护点】

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获得第一图像和多个第一文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述在所述第二图像中加入所述第三文本，以得到所述第一图像，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述在所述第二图像中加入所述第三文本，以得到所述第一图像，包括：

5.根据权利要求2至4中任一项所述的方法，其特征在于，所述在所述第二图像中加入所述第三文本，以得到所述第一图像，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述多个第一向量与所述第二向量之间的第一相似度，确定第一损失值，包括：

7.根据权利要求2所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述多个第一向量与所述多个第三向量之间的第二相似度，确定第二损失值，包括：

9.一种图像推荐方法，其特征在于，所述方法包括：

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

11.一种模型训练装置，其特征在于，所述装置包括：

12.一种图像推荐装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，所述电子设备包括：

14.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时，实现如权利要求1至8中任一项所述的模型训练方法、或如权利要求9或10所述的图像推荐方法。

15.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现如权利要求1至8中任一项所述的模型训练方法、或如权利要求9或10所述的图像推荐方法。

...

【技术特征摘要】