机器学习模型训练方法和装置、视觉关系检测方法和装置制造方法及图纸

技术编号:34897737 阅读:18 留言:0更新日期:2022-09-10 13:57
本公开提供一种机器学习模型训练方法和装置、视觉关系检测方法和装置,涉及人工智能领域。机器学习模型训练方法包括:利用第一机器学习模型对样本图像进行处理,以获得目标关系三元组中目标主体和目标客体的语义特征和空间特征、谓词概率分布结果、包括目标主体和目标客体的目标区域的视觉特征;根据谓词概率分布结果确定第一损失函数;利用第二机器学习模型预测目标主体的第一语义向量,预测目标主体的第一空间向量,预测目标客体的第一语义向量,预测目标客体的第一空间向量;根据预测结果确定第二损失函数;根据第一损失函数和第二损失函数确定第一目标损失函数;利用第一目标损失函数对第一机器学习模型和第二机器学习模型进行训练。模型进行训练。模型进行训练。

【技术实现步骤摘要】
机器学习模型训练方法和装置、视觉关系检测方法和装置


[0001]本公开涉及人工智能领域,特别涉及一种机器学习模型训练方法和装置、视觉关系检测方法和装置。

技术介绍

[0002]在现有技术中,通过借助主体和客体的语义特征和空间特征、以及包括主体和客体的目标区域的视觉特征,检测出主体和客体之间的视觉关系。即,将视觉关系预测问题转化为多模态特征融合分类问题。

技术实现思路

[0003]专利技术人注意到,现有的视觉关系检测方案并未利用从图像结构化语义理解中派生出来的内部监督信号,从而无法获得性能稳定的视觉关系检测结果。
[0004]据此,本公开提供一种机器学习模型训练方案,能够获得性能稳定的视觉关系检测结果。
[0005]根据本公开实施例的第一方面,提供一种机器学习模型训练方法,包括:利用第一机器学习模型对样本图像进行处理,以获得目标关系三元组中目标主体的语义特征和空间特征、目标客体的语义特征和空间特征、谓词概率分布结果、包括所述目标主体和所述目标客体的目标区域的视觉特征;根据所述谓词概率分布结果和谓词标注结果确定第一损失函数;利用第二机器学习模型根据所述目标主体的空间特征预测所述目标主体的第一语义向量,根据所述目标主体的语义特征预测所述目标主体的第一空间向量,根据所述目标客体的空间特征预测所述目标客体的第一语义向量,根据所述目标客体的语义特征预测所述目标客体的第一空间向量;根据预测结果确定第二损失函数;根据所述第一损失函数和所述第二损失函数确定第一目标损失函数;利用所述第一目标损失函数对所述第一机器学习模型和所述第二机器学习模型进行训练。
[0006]在一些实施例中,所述根据预测结果确定第二损失函数包括:根据所述目标主体的第一空间向量和所述目标主体的空间标注结果、所述目标客体的第一空间向量和所述目标客体的空间标注结果确定第一子损失函数;根据所述目标主体的第一语义向量和所述目标主体的语义标注结果、所述目标客体的第一语义向量和所述目标客体的语义标注结果确定第二子损失函数;根据所述第一子损失函数和所述第二子损失函数确定所述第二损失函数。
[0007]在一些实施例中,所述第一子损失函数与所述目标主体的第一空间向量和所述目标主体的空间标注结果的偏差与所述目标客体的第一空间向量和所述目标客体的空间标注结果的偏差之和正相关;所述第二子损失函数与所述目标主体的第一语义向量和所述目标主体的语义标注结果的交叉熵与所述目标客体的第一语义向量和所述目标客体的语义标注结果的交叉熵之和负相关。
[0008]在一些实施例中,所述第二损失函数为所述第一子损失函数和所述第二子损失函
数的加权和。
[0009]在一些实施例中,所述根据所述目标主体的空间特征预测所述目标主体的第一语义向量包括:将所述目标主体的空间特征和所述视觉特征进行融合,以得到第一融合特征;将所述第一融合特征进行压缩处理,以得到第一压缩特征;利用多层感知机对所述第一压缩特征进行处理,以得到所述目标主体的第一语义向量。
[0010]在一些实施例中,所述根据所述目标主体的语义特征预测所述目标主体的第一空间向量包括:利用所述目标主体的语义特征和所述视觉特征进行重构处理,以得到所述目标主体的第一空间向量。
[0011]在一些实施例中,所述根据所述目标客体的空间特征预测所述目标客体的第一语义向量包括:将所述目标客体的空间特征和所述视觉特征进行融合,以得到第二融合特征;将所述第二融合特征进行压缩处理,以得到第二压缩特征;利用多层感知机对所述第二压缩特征进行处理,以得到所述目标客体的第一语义向量。
[0012]在一些实施例中,所述根据所述目标客体的语义特征获得所述目标客体的第一空间向量包括:利用所述目标客体的语义特征和所述视觉特征进行重构处理,以得到所述目标客体的第一空间向量。
[0013]在一些实施例中,所述第一损失函数与所述谓词概率分布结果和所述谓词标注结果的交叉熵负相关。
[0014]在一些实施例中,所述第一目标损失函数为所述第一损失函数和所述第二损失函数的加权和。
[0015]在一些实施例中,根据所述谓词概率分布结果确定所述目标关系三元组的谓词特征。
[0016]在一些实施例中,上述方法还包括:利用所述第二机器学习模型将所述目标客体的语义特征和空间特征、所述视觉特征进行多模态融合以得到第一对象特征;利用所述第二机器学习模型根据所述谓词特征和所述第一对象特征进行对象间重构,以得到所述目标主体的第二语义向量和第二空间向量;利用所述第二机器学习模型将所述目标主体的语义特征和空间特征、所述视觉特征进行多模态融合以得到第二对象特征;利用所述第二机器学习模型根据所述谓词特征和所述第二对象特征进行对象间重构,以得到所述目标客体的第二语义向量和第二空间向量;根据对象间重构结果确定第三损失函数;根据所述第一损失函数、所述第二损失函数和所述第三损失函数确定第二目标损失函数;利用所述第二目标损失函数对所述第一机器学习模型和所述第二机器学习模型进行训练。
[0017]在一些实施例中,所述根据对象间重构结果确定第三损失函数包括:根据所述目标主体的第二空间向量和所述目标主体的空间标注结果、所述目标客体的第二空间向量和所述目标客体的空间标注结果确定第三子损失函数;根据所述目标主体的第二语义向量和所述目标主体的语义标注结果、所述目标客体的第二语义向量和所述目标客体的语义标注结果确定第四子损失函数;根据所述第三子损失函数和所述第四子损失函数确定所述第三损失函数。
[0018]在一些实施例中,所述第三子损失函数与所述目标主体的第二空间向量和所述目标主体的空间标注结果的偏差与所述目标客体的第二空间向量和所述目标客体的空间标注结果的偏差之和正相关;所述第四子损失函数与所述目标主体的第二语义向量和所述目
标主体的语义标注结果的交叉熵与所述目标客体的第二语义向量和所述目标客体的语义标注结果的交叉熵之和负相关。
[0019]在一些实施例中,所述第三损失函数为所述第三子损失函数和所述第四子损失函数的加权和。
[0020]在一些实施例中,所述第二目标损失函数为所述第一损失函数、所述第二损失函数和所述第三损失函数的加权和。
[0021]在一些实施例中,利用所述第一机器学习模型从所述样本图像中提取出除所述目标关系三元组之外的其它关系三元组的语义特征、空间特征、谓词特征和视觉特征;利用所述第二机器学习模型根据所述其它关系三元组的语义特征、空间特征、谓词特征和视觉特征、所述目标主体的空间特征和所述目标客体的空间特征进行关系间重构,以得到所述目标主体的第三语义向量、所述目标客体的第三语义向量、以及谓词概率预测分布结果;根据关系间重构结果确定第四损失函数;根据所述第一损失函数、所述第二损失函数、所述第三损失函数和所述第四损失函数确定第三目标损失函数;利用所述第三目标损失函数对所述第一机器学习模型和所述第二机器学习模型进行训练。
[0022]在一些实施例中,所述根据关系间重构结果确定第四损失函数包括:根据所述目标主本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器学习模型训练方法,包括:利用第一机器学习模型对样本图像进行处理,以获得目标关系三元组中目标主体的语义特征和空间特征、目标客体的语义特征和空间特征、谓词概率分布结果、包括所述目标主体和所述目标客体的目标区域的视觉特征;根据所述谓词概率分布结果和谓词标注结果确定第一损失函数;利用第二机器学习模型根据所述目标主体的空间特征预测所述目标主体的第一语义向量,根据所述目标主体的语义特征预测所述目标主体的第一空间向量,根据所述目标客体的空间特征预测所述目标客体的第一语义向量,根据所述目标客体的语义特征预测所述目标客体的第一空间向量;根据预测结果确定第二损失函数;根据所述第一损失函数和所述第二损失函数确定第一目标损失函数;利用所述第一目标损失函数对所述第一机器学习模型和所述第二机器学习模型进行训练。2.根据权利要求1所述的方法,其中,所述根据预测结果确定第二损失函数包括:根据所述目标主体的第一空间向量和所述目标主体的空间标注结果、所述目标客体的第一空间向量和所述目标客体的空间标注结果确定第一子损失函数;根据所述目标主体的第一语义向量和所述目标主体的语义标注结果、所述目标客体的第一语义向量和所述目标客体的语义标注结果确定第二子损失函数;根据所述第一子损失函数和所述第二子损失函数确定所述第二损失函数。3.根据权利要求2所述的方法,其中,所述第一子损失函数与所述目标主体的第一空间向量和所述目标主体的空间标注结果的偏差与所述目标客体的第一空间向量和所述目标客体的空间标注结果的偏差之和正相关;所述第二子损失函数与所述目标主体的第一语义向量和所述目标主体的语义标注结果的交叉熵与所述目标客体的第一语义向量和所述目标客体的语义标注结果的交叉熵之和负相关。4.根据权利要求2所述的方法,其中,所述第二损失函数为所述第一子损失函数和所述第二子损失函数的加权和。5.根据权利要求1所述的方法,其中,所述根据所述目标主体的空间特征预测所述目标主体的第一语义向量包括:将所述目标主体的空间特征和所述视觉特征进行融合,以得到第一融合特征;将所述第一融合特征进行压缩处理,以得到第一压缩特征;利用多层感知机对所述第一压缩特征进行处理,以得到所述目标主体的第一语义向量。6.根据权利要求1所述的方法,其中,所述根据所述目标主体的语义特征预测所述目标主体的第一空间向量包括:利用所述目标主体的语义特征和所述视觉特征进行重构处理,以得到所述目标主体的第一空间向量。7.根据权利要求1所述的方法,其中,所述根据所述目标客体的空间特征预测所述目标
客体的第一语义向量包括:将所述目标客体的空间特征和所述视觉特征进行融合,以得到第二融合特征;将所述第二融合特征进行压缩处理,以得到第二压缩特征;利用多层感知机对所述第二压缩特征进行处理,以得到所述目标客体的第一语义向量。8.根据权利要求1所述的方法,其中,所述根据所述目标客体的语义特征获得所述目标客体的第一空间向量包括:利用所述目标客体的语义特征和所述视觉特征进行重构处理,以得到所述目标客体的第一空间向量。9.根据权利要求1所述的方法,其中,所述第一损失函数与所述谓词概率分布结果和所述谓词标注结果的交叉熵负相关。10.根据权利要求1所述的方法,其中,所述第一目标损失函数为所述第一损失函数和所述第二损失函数的加权和。11.根据权利要求1所述的方法,还包括:根据所述谓词概率分布结果确定所述目标关系三元组的谓词特征。12.根据权利要求11所述的方法,还包括:利用所述第二机器学习模型将所述目标客体的语义特征和空间特征、所述视觉特征进行多模态融合以得到第一对象特征;利用所述第二机器学习模型根据所述谓词特征和所述第一对象特征进行对象间重构,以得到所述目标主体的第二语义向量和第二空间向量;利用所述第二机器学习模型将所述目标主体的语义特征和空间特征、所述视觉特征进行多模态融合以得到第二对象特征;利用所述第二机器学习模型根据所述谓词特征和所述第二对象特征进行对象间重构,以得到所述目标客体的第二语义向量和第二空间向量;根据对象间重构结果确定第三损失函数;根据所述第一损失函数、所述第二损失函数和所述第三损失函数确定第二目标损失函数;利用所述第二目标损失函数对所述第一机器学习模型和所述第二机器学习模型进行训练。13.根据权利要求12所述的方法,其中,所述根据对象间重构结果确定第三损失函数包括:根据所述目标主体的第二空间向量和所述目标主体的空间标注结果、所述目标客体的第二空间向量和所述目标客体的空间标注结果确定第三子损失函数;根据所述目标主体的第二语义向量和所述目标主体的语义标注结果、所述目标客体的第二语义向量和所述目标客体的语义标注结果确定第四子损失函数;根据所述第三子损失函数和所述第四子损失函数确定所述第三损失函数。14.根据权利要求13所述的方法,其中,所述第三子损失函数与所述目标主体的第二空间向量和所述目标主体的空间标注结果的偏差与所述目标客体的第二空间向量和所述目标客体的空间标注结果的偏差之和正
相关;所述第四子损失函数与所述目标主体的第二语义向量和所述目标主体的语义标注结果的交叉熵与所述目标客体的第二语义向量和所述目标客体的语义标注结果的交叉熵之和负相关。15.根据权利要求13所述的方法,其中,所述第三损失函数为所述第三子损失函数和所述第四...

【专利技术属性】
技术研发人员:潘滢炜李业豪姚霆梅涛
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1