图片描述信息生成模型的确定方法及装置、介质、设备制造方法及图纸

技术编号：37467072 阅读：28 留言：0更新日期：2023-05-06 09:42

本公开涉及图像处理技术领域，具体涉及一种图片描述信息生成模型的确定方法及装置、计算机可读存储介质及电子设备。所述方法包括：获取第一参考模型和待训练模型，待训练模型包括单模态图像编码器、单模态文本编码器、多模态文本编码器和多模态文本解码器；基于单模态图像编码器、单模态文本编码器、多模态文本编码器和多模态文本解码器确定出第一损失函数；根据第一损失函数和第一参考模型对待训练模型进行训练，以得到目标待训练模型；基于目标待训练模型中的单模态图像编码器和多模态文本解码器，确定出图片描述信息生成模型；其中，待训练模型的模型参数少于第一参考模型的模型参数。本公开得到的图片描述信息生成模型参数量少且准确性高。数量少且准确性高。数量少且准确性高。

全部详细技术资料下载

【技术实现步骤摘要】
图片描述信息生成模型的确定方法及装置、介质、设备

[0001]本公开涉及图像处理
，具体而言，涉及一种图片描述信息生成模型的确定方法、图片描述信息生成模型的确定装置、计算机可读存储介质及电子设备。

技术介绍

[0002]图片描述信息生成指的是为给定的图片生成对应的符合图片内容的描述文本。相关技术中，可以通过神经网络模型生成图片描述信息。
[0003]然而，相关技术得到的图片描述信息生成模型的参数量过多，难以应用在智能手机等移动设备上，而参数量少的图片描述信息生成模型生成的图片描述信息的准确性又降低。
[0004]需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开的目的在于提供一种图片描述信息生成模型的确定方法、图片描述信息生成模型的确定装置、计算机可读介质和电子设备，进而至少在一定程度上减少图片描述信息生成模型的参数量且保证生成的图片描述信息的准确性。
[0006...

【技术保护点】

【技术特征摘要】
1.一种图片描述信息生成模型的确定方法，其特征在于，包括：获取第一参考模型和待训练模型，所述待训练模型包括单模态图像编码器、单模态文本编码器、多模态文本编码器和多模态文本解码器；基于所述单模态图像编码器、所述单模态文本编码器、所述多模态文本编码器和所述多模态文本解码器确定出第一损失函数；根据所述第一损失函数和所述第一参考模型对所述待训练模型进行训练，以得到目标待训练模型；基于所述目标待训练模型中的单模态图像编码器和多模态文本解码器，确定出图片描述信息生成模型，所述图片描述信息生成模型用于生成图片对应的文本描述信息；其中，所述待训练模型的模型参数少于所述第一参考模型的模型参数；所述多模态文本编码器和所述多模态文本解码器的输入数据包括所述单模态图像编码器的输出数据。2.根据权利要求1所述的图片描述信息生成模型的确定方法，其特征在于，所述根据所述第一损失函数和所述第一参考模型对所述待训练模型进行训练，以得到目标待训练模型，包括：根据所述第一参考模型的预测结果中标签值与非标签值之间的概率分布和所述待训练模型的预测结果中标签值与非标签值之间的概率分布，确定出第一交叉熵损失函数；根据所述第一参考模型的预测结果中非标签值之间的概率分布和所述待训练模型的预测结果中非标签值之间的概率分布，确定出第一相对熵损失函数；基于所述第一交叉熵损失函数和所述第一相对熵损失函数，确定出第一目标损失函数；基于所述第一损失函数和所述第一目标损失函数，确定出所述待训练模型的训练损失函数，以根据所述待训练模型的训练损失函数对所述待训练模型进行训练，得到目标待训练模型。3.根据权利要求1所述的一种图片描述信息生成模型的确定方法，所述基于所述目标待训练模型中的单模态图像编码器和多模态文本解码器，确定出图片描述信息生成模型，包括：基于所述目标待训练模型中的单模态图像编码器和多模态文本解码器，确定出待调优模型；获取第二参考模型，根据所述第二参考模型对所述待调优模型进行训练，以得到图片描述信息生成模型；其中，所述待调优模型的模型参数少于所述第二参考模型的模型参数。4.根据权利要求3所述的图片描述信息生成模型的确定方法，其特征在于，所述获取第二参考模型，根据所述第二参考模型对所述待调优模型进行训练，以得到图片描述信息生成模型，包括：获取第二参考模型，根据所述第二参考模型的预测结果中标签值与非标签值之间的概率分布和所述待训练模型的预测结果中标签值与非标签值之间的概率分布，确定出第二交叉熵损失函数；根据所述第二参考模型的预测结果非标签值之间的概率分布和所述待训练模型的预测结果中非标签值之间的概率分布，确定出第二相对熵损失函数；
基于所述第二交叉熵损失函数和所述第二相对熵损失函数，确定出第二目标损失函数；根据所述待调优模型中的多模态文本解码器的输出和输入图像对应的文本描述标签之间的损失，确定出第二损失函数；基于所述第二损失函数和所述第二目标损失函数，确定出所述待调优模型的训练损失函数，以根据所述待调优模型的训练损失函数对...

【专利技术属性】
技术研发人员：刘亚飞，鲁浩楠，王凌，钟雨沛，
申请(专利权)人：OPPO广东移动通信有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人