模型训练方法、装置及设备制造方法及图纸

技术编号:36263625 阅读:49 留言:0更新日期:2023-01-07 10:02
本申请实施例提供一种模型训练方法、装置及设备,该方法可以包括:获取样本数据,样本数据中包括样本图像的样本图像特征、样本文本的样本文本特征和标注对象,标注对象为样本图像中与样本文本相似度最高的对象;确定初始模型,初始模型中包括N个融合层和映射层,融合层包括图像编码器、图像注意力层、文本编码器和文本注意力层,图像注意力层和文本注意力层分别用于融合图像编码器和文本编码器输出的特征,N为正整数;通过N个融合层和映射层对样本图像特征和样本文本特征进行处理,以在样本图像中确定预测对象,预测对象与样本文本相似度最高;根据预测对象和标注对象,更新初始模型的模型参数。提高了模型确定目标对象的准确性。性。性。

【技术实现步骤摘要】
模型训练方法、装置及设备


[0001]本申请涉及计算机视觉
,尤其涉及一种模型训练方法、装置及设备。

技术介绍

[0002]在一些场景中,可以通过模型对输入的文本短语进行处理,以在多个图像中识别出文本短语指定的目标对象。
[0003]在相关技术中,可以通过样本图像和样本文本对模型进行训练,以得到模型。然而,在上述训练过程中,通常是通过模型分别对样本图像和样本文本进行处理,导致模型确定目标对象的准确性低。

技术实现思路

[0004]本申请的多个方面提供一种模型训练方法、装置及设备,用以提高模型确定目标对象的准确性。
[0005]第一方面,本申请实施例提供一种模型训练方法,包括:
[0006]获取样本数据,所述样本数据中包括样本图像的样本图像特征、样本文本的样本文本特征和标注对象,所述标注对象为所述样本图像中与所述样本文本相似度最高的对象;
[0007]确定初始模型,所述初始模型中包括N个融合层和映射层,所述融合层包括图像编码器、图像注意力层、文本编码器和文本注意力层,所述图像注意力层和所述文本注意力层分别用于融合所述图像编码器和所述文本编码器输出的特征,所述N为正整数;
[0008]通过所述N个融合层和所述映射层对所述样本图像特征和所述样本文本特征进行处理,以在所述样本图像中确定预测对象,所述预测对象与所述样本文本相似度最高;
[0009]根据所述预测对象和所述标注对象,更新所述初始模型的模型参数。
[0010]在一种可能的实施方式中,通过所述N个融合层和所述映射层对所述样本图像特征和所述样本文本特征进行处理,以在所述样本图像中确定预测对象,包括:
[0011]通过所述N个融合层对所述样本图像特征和所述样本文本特征进行处理,得到融合图像特征和融合文本特征;
[0012]通过所述映射层对所述融合图像特征和所述融合文本特征进行处理,以确定所述预测对象。
[0013]在一种可能的实施方式中,所述N为大于1的整数;通过至少一个融合层对所述样本图像特征和所述样本文本特征进行处理,得到融合图像特征和融合文本特征,包括:
[0014]通过第1个融合层对所述样本图像特征和所述样本文本特征进行处理,得到第1个中间图像特征和第1个中间文本特征;
[0015]通过第i个融合层对所述第i

1个中间图像特征和第i

1个中间文本特征进行处理,得到第i个中间图像特征和第i个中间文本特征;其中,所述i依次取2、3、
……
、N,并将第N个中间图像特征确定为所述融合图像特征,以及将所述第N个中间文本特征确定为所述融
合文本特征。
[0016]在一种可能的实施方式中,通过第1个融合层对所述样本图像特征和所述样本文本特征进行处理,得到第1个中间图像特征和第1个中间文本特征,包括:
[0017]通过所述第1个融合层中的图像编码器对所述样本图像特征进行处理,得到第一编码图像特征;
[0018]通过所述第1个融合层中的文本编码器对所述样本文本特征进行处理,得到第一编码文本特征;
[0019]通过所述第1个融合层中图像注意力层对所述第一编码图像特征和所述第一编码文本特征进行融合处理,得到所述第1个中间图像特征;
[0020]通过所述第1个融合层中文本注意力层对所述第一编码图像特征和所述第一编码文本特征进行融合处理,得到所述第1个中间文本特征。
[0021]在一种可能的实施方式中,通过第1个融合层对所述样本图像特征和所述样本文本特征进行处理,得到第1个中间图像特征和第1个中间文本特征之前,还包括:
[0022]在所述样本图像特征中去除部分图像特征;和/或,
[0023]在所述样本文本特征中去除部分文本特征。
[0024]在一种可能的实施方式中,通过第i个融合层对所述第i

1个中间图像特征和第i

1个中间文本特征进行处理,得到第i个中间图像特征和第i个中间文本特征,包括:
[0025]通过所述第i个融合层中的图像编码器对所述第i

1个中间图像特征进行处理,得到第i编码图像特征;
[0026]通过所述第i个融合层中的文本编码器对所述第i

1个中间文本特征进行处理,得到第i编码文本特征;
[0027]通过所述第i个融合层中的图像注意力层对所述第i编码图像特征和所述第i编码文本特征进行融合处理,得到所述第i个中间图像特征;
[0028]通过所述第i个融合层中的文本注意力层对所述第i编码图像特征和所述第i编码文本特征进行融合处理,得到所述第i个中间文本特征。
[0029]在一种可能的实施方式中,获取样本数据,包括:
[0030]获取所述样本图像和所述样本文本;
[0031]通过第一模型对所述样本图像进行处理,得到所述样本图像特征;
[0032]通过第二模型对所述样本文本进行处理,得到所述样本文本特征
[0033]根据所述样本文本对所述样本图像中的对象进行标注处理,以确定所述标注对象。
[0034]在一种可能的实施方式中,通过第一模型对所述样本图像进行处理,得到所述样本图像特征,包括:
[0035]通过所述第一模型在所述样本图像中进行对象识别,确定样本图像中的多个对象、以及各对象的对象类别;
[0036]根据所述样本图像中的多个对象、以及各对象的对象类别,生成所述样本图像特征。
[0037]在一种可能的实施方式中,根据所述预测对象和所述标注对象,更新所述初始模型的模型参数,包括:
[0038]根据所述预测对象和所述标注对象,确定损失函数;
[0039]根据所述损失函数,更新所述初始模型的模型参数。
[0040]第二方面,本申请实施例提供一种模型训练方法,包括:
[0041]获取样本数据,所述样本数据中包括样本图像的样本图像特征、样本文本的样本文本特征和标注对象,所述标注对象与所述样本文本的相似度在预设范围内;
[0042]确定初始模型,所述初始模型中包括N个融合层和映射层,所述融合层包括图像编码器、图像注意力层、文本编码器和文本注意力层,所述图像注意力层和所述文本注意力层分别用于融合所述图像编码器和所述文本编码器输出的特征,所述N为正整数;
[0043]通过所述N个融合层和所述映射层对所述样本图像特征和所述样本文本特征进行处理,以在所述样本图像中确定预测对象,所述预测对象与所述样本文本的相似度在所述预设范围内;
[0044]根据所述预测对象和所述标注对象,更新所述初始模型的模型参数。
[0045]在一种可能的实施方式中,通过所述N个融合层和所述映射层对所述样本图像特征和所述样本文本特征进行处理,以在所述样本图像中确定预测对象,包括:
[0046]通过所述N个融合层对所述样本图像特征和所述样本文本特征进行处理,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取样本数据,所述样本数据中包括样本图像的样本图像特征、样本文本的样本文本特征和标注对象,所述标注对象为所述样本图像中与所述样本文本相似度最高的对象;确定初始模型,所述初始模型中包括N个融合层和映射层,所述融合层包括图像编码器、图像注意力层、文本编码器和文本注意力层,所述图像注意力层和所述文本注意力层分别用于融合所述图像编码器和所述文本编码器输出的特征,所述N为正整数;通过所述N个融合层和所述映射层对所述样本图像特征和所述样本文本特征进行处理,以在所述样本图像中确定预测对象,所述预测对象与所述样本文本相似度最高;根据所述预测对象和所述标注对象,更新所述初始模型的模型参数。2.一种模型训练方法,其特征在于,包括:获取样本数据,所述样本数据中包括样本图像的样本图像特征、样本文本的样本文本特征和标注对象,所述标注对象与所述样本文本的相似度在预设范围内;确定初始模型,所述初始模型中包括N个融合层和映射层,所述融合层包括图像编码器、图像注意力层、文本编码器和文本注意力层,所述图像注意力层和所述文本注意力层分别用于融合所述图像编码器和所述文本编码器输出的特征,所述N为正整数;通过所述N个融合层和所述映射层对所述样本图像特征和所述样本文本特征进行处理,以在所述样本图像中确定预测对象,所述预测对象与所述样本文本的相似度在所述预设范围内;根据所述预测对象和所述标注对象,更新所述初始模型的模型参数。3.根据权利要求1或2所述的方法,其特征在于,通过所述N个融合层和所述映射层对所述样本图像特征和所述样本文本特征进行处理,以在所述样本图像中确定预测对象,包括:通过所述N个融合层对所述样本图像特征和所述样本文本特征进行处理,得到融合图像特征和融合文本特征;通过所述映射层对所述融合图像特征和所述融合文本特征进行处理,以确定所述预测对象。4.根据权利要求3所述的方法,其特征在于,所述N为大于1的整数;通过至少一个融合层对所述样本图像特征和所述样本文本特征进行处理,得到融合图像特征和融合文本特征,包括:通过第1个融合层对所述样本图像特征和所述样本文本特征进行处理,得到第1个中间图像特征和第1个中间文本特征;通过第i个融合层对所述第i

1个中间图像特征和第i

1个中间文本特征进行处理,得到第i个中间图像特征和第i个中间文本特征;其中,所述i依次取2、3、
……
、N,并将第N个中间图像特征确定为所述融合图像特征,以及将所述第N个中间文本特征确定为所述融合文本特征。5.根据权利要求4所述的方法,其特征在于,通过第1个融合层对所述样本图像特征和所述样本文本特征进行处理,得到第1个中间图像特征和第1个中间文本特征,包括:通过所述第1个融合层中的图像编码器对所述样本图像特征进行处理,得到第一编码图像特征;通过所述第1个融合层中的文本编码器对所述样本文本特征进行处理,得到第一编码
文本特征;通过所述第1个融合层中图像注意力层对所述第一编码图像特征和所述第一编码文本特征进行融合处理,得到所述第1个中间图像特征;通过所述第1个融合层中文本注意力层对所述第一编码图像特征和所述第一编码文本特征进行融合处理,得到所述第1个中间文本特征。6.根据权利要求4或5所述的方法,...

【专利技术属性】
技术研发人员:杨耀晟杜承阳伍吉兵季正刚
申请(专利权)人:阿里云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1