【技术实现步骤摘要】
特征编码模型、视觉关系检测模型的训练方法及检测方法
本专利技术涉及视觉关系检测
,具体涉及特征编码模型、视觉关系检测模型的训练方法及检测方法。
技术介绍
近年来,深度学习在图像识别(如图像分类、目标检测、目标分割等)任务上取得了突破性进展。其中,要实现计算机理解场景,重要的一环是视觉关系检测,即对于一幅输入图片,预测图片中的目标物体的位置和类别,以及目标和目标之间的关系的类别。对于视觉关系检测常采用的方法是,对目标和关系进行编码,再通过分类器预测目标类别和关系类别。这些方法常使用循环神经网络逐步地融合区域特征,使得最终每个区域特征都参考了所有其他区域的信息,再将区域特征两两匹配,输入关系分类器,得到最终的视觉关系预测结果。上述检测方法中所采用的循环神经网络模型需要事先采用大量的样本数据进行训练,而真实场景中视觉关系的类别常常存在严重的不均衡问题,即一些常见关系(如,<人-穿着-牛仔裤>)出现频次远远高于不常见关系(如,<猫-睡在-车上>),这导致上述基于大数据学习的方法因无法获得足够的样本而在不常见关系的预测中失效,进而影响视觉关系检 ...
【技术保护点】
1.一种特征编码模型的训练方法,其特征在于,包括:获取初始特征编码模型;其中,所述初始特征编码模型包括级联至少一层的多头注意力模块,每个所述多头注意力模块的参数包括一组互相独立的转换矩阵;获取样本数据;其中,每个所述样本数据包括样本图像中目标区域的目标特征以及对应的类别;将每个所述样本数据输入所述初始特征编码模型中;基于所述类别从视觉常识数据中提取引导图;其中,所述引导图用于表示视觉常识对应于所述类别的目标类别;根据所述引导图对所述初始特征编码模型进行训练,调整所述转换矩阵,以对每个所述目标区域的目标特征进行更新,得到每个所述目标区域的目标特征编码。
【技术特征摘要】
1.一种特征编码模型的训练方法,其特征在于,包括:获取初始特征编码模型;其中,所述初始特征编码模型包括级联至少一层的多头注意力模块,每个所述多头注意力模块的参数包括一组互相独立的转换矩阵;获取样本数据;其中,每个所述样本数据包括样本图像中目标区域的目标特征以及对应的类别;将每个所述样本数据输入所述初始特征编码模型中;基于所述类别从视觉常识数据中提取引导图;其中,所述引导图用于表示视觉常识对应于所述类别的目标类别;根据所述引导图对所述初始特征编码模型进行训练,调整所述转换矩阵,以对每个所述目标区域的目标特征进行更新,得到每个所述目标区域的目标特征编码。2.根据权利要求1所述的方法,其特征在于,所述根据所述引导图对所述初始特征编码模型进行训练,调整所述转换矩阵,以对每个所述目标区域的目标特征进行更新,得到每个所述目标区域的目标特征编码,包括:对于每个所述样本数据,基于所述转换矩阵以及所述目标特征,计算每个所述样本图像的注意力矩阵;其中,所述注意力矩阵用于表示所述样本图像中每个所述目标区域对其他所述目标区域的注意力;利用所述转换矩阵以及所述注意力矩阵,联合所有所述多头注意力模块的输出,并加入所述目标特征,以得到每个所述目标区域的目标特征编码;基于所述目标特征编码以及所述引导图,计算损失函数的值;利用所述损失函数的值以及第一学习率对所述初始特征编码模型进行强学习,调整所述转换矩阵,以更新所述目标特征编码。3.根据权利要求2所述的方法,其特征在于,所述损失函数的定义如下:其中,Lattn为所述损失函数的值;S为引导图序列;Si为引导图序列中的第i个引导图;f(·)为损失函数;H为每个所述多头注意力模块的个数;Ah为所述注意力矩阵。4.根据权利要求3所述的方法,其特征在于,采用如下公式计算所述注意力矩阵以及所述目标特征编码:其中,vi,vj为所述样本图像中的任意两个所述目标特征;为一组互相独立的转换矩阵;Ah(vi,vj)为目标特征vi对目标特征vj的注意力;d为所述目标特征的维数;为对应于目标特征vi的目标特征编码;N为所述样本图像中目标区域的个数。5.根据权利要求2所述的方法,其特征在于,所述利用所述损失函数的值以及第一学习率对所述初始特征编码模型进行强学习,以更新所述转换矩阵,包括:利用所述损失函数的值,计算第一梯度估计;利用所述第一梯度估计以及所述第一学习率,对所述转换矩阵进行更新。6.一种视觉关系检测模型的训练方法,其特征在于,包括:获取目标检测模型;所述目标检测模型用于检测第二样本图像中的目标候选区域、每个所述目标候选区域的目标特征及其对应的类别;获取特征编码模型;其中,所述特征编码模型是根据权利要求1-5中任一项所述的特征编码模型的训练方法训练得到;所述特征编码模型包括目标特征编码模型,和/或,关系特征编码模型;所述目标特征编码模型的输入包括所述目标候选区域的目标特征以及所述类别对应的词向量,输出为所述目标候选区域的目标特征编码;所述关系特征编码模型的输入包括所述目标候选区域的目标特征编码,以及所述目标特征编码的类别对应的词向量,输出为所述目标候选区域的关系特征编码;将所述目标检测模型以及所述特征编码模型级联,以得到初始视觉关系检测模型;其中,所述特征编码模型通过分类模型与输出连接;基于第二学习率对所述初始视觉关系检测模型进行训练,调整所述特征编码模型的参数,以得到视觉关系检测模型;其中,所述第二学习率小于训练所述特征编码模型的学习率。7.根据权利要求6所述的方法,其特征在于,所述基于第二...
【专利技术属性】
技术研发人员:朱艺,梁小丹,林倞,
申请(专利权)人:暗物智能科技广州有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。