模型训练方法、装置、预测方法、电子设备及介质制造方法及图纸

技术编号:27818307 阅读:16 留言:0更新日期:2021-03-30 10:24
本公开实施例公开了一种模型训练方法、装置、预测方法、电子设备及介质。该模型训练方法用于训练预测模型,包括:获取视频样本数据,所述视频样本数据带有标注信息;通过所述预测模型的主干网络处理所述视频样本数据,获取多个帧特征;通过时间域的池化处理所述多个帧特征,得到全局特征;对于每个视频帧,基于所述帧特征和所述全局特征生成所述视频帧的权重;基于所述权重和所述帧特征,生成第一视频特征;基于所述第一视频特征获得预测结果;基于所述预测结果和所述标注信息优化所述预测模型的模型参数。通过全局特征指导注意力机制的权重生成过程,可以更好地挖掘特征序列中的有效特征,并减弱噪声的影响。并减弱噪声的影响。并减弱噪声的影响。

【技术实现步骤摘要】
模型训练方法、装置、预测方法、电子设备及介质


[0001]本公开涉及行人重识别
,具体涉及一种模型训练方法、装置、预测方法、电子设备及介质。

技术介绍

[0002]在行人重识别领域,在特征提取阶段通常需要融合各视频帧的特征信息,然而,本专利技术人发现,现有的简单池化的融合方式产生的结果包含过多的噪声信息;先通过RNN网络处理再池化的融合方式过于关注连续的特征而忽略不连续的特征,导致最终特征的代表性和完整度大大降低;而通过注意力机制的方式产生的权重会极大地削弱受污染帧中有价值的特征,导致特征的完整度受损。因此,目前的视频行人重识别方法的误检率较高。

技术实现思路

[0003]为了解决相关技术中的问题,本公开实施例提供一种模型训练方法、装置、预测方法、电子设备及介质。
[0004]第一方面,本公开实施例中提供了一种模型训练方法,用于训练预测模型。
[0005]具体地,所述模型训练方法,包括:获取视频样本数据,所述视频样本数据带有标注信息;通过所述预测模型的主干网络处理所述视频样本数据,获取多个帧特征;通过时间域的池化处理所述多个帧特征,得到全局特征;对于每个视频帧,基于所述帧特征和所述全局特征生成所述视频帧的权重;基于所述权重和所述帧特征,生成第一视频特征;基于所述第一视频特征获得预测结果;基于所述预测结果和所述标注信息优化所述预测模型的模型参数。
[0006]结合第一方面,本公开在第一方面的第一种实现方式中,所述权重的通道数与所述帧特征的通道数相同。
[0007]结合第一方面或第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,其中,所述对于每个视频帧,基于所述帧特征和所述全局特征生成所述视频帧的权重包括:在当前帧为视频的首帧的情况下,基于所述帧特征和所述全局特征,通过门控循环单元生成所述当前帧的权重;在当前帧为首帧以外的其他视频帧的情况下,基于前一帧的权重和所述全局特征,生成融合向量,基于所述融合向量和所述当前帧的帧特征,通过门控循环单元生成所述当前帧的权重。
[0008]结合第一方面、第一方面的第一种或第二种实现方式中的任一项,本公开在第一方面的第三种实现方式中,其中,所述基于所述权重和所述帧特征,生成第一视频特征包括:
对于各个视频帧的权重在时间维度上执行柔性最大值处理,得到修正后的权重;基于修正后的权重对所述帧特征加权平均,得到第一视频特征。
[0009]结合第一方面、第一方面的第一种至第三种实现方式中的任一项,本公开在第一方面的第四种实现方式中,其中,所述预测结果包括第一预测结果和第二预测结果,所述基于所述第一视频特征获得预测结果包括:在第一分支上,通过第一衰减头部处理所述第一视频特征,得到第二视频特征,通过第一分类层处理所述第二视频特征,得到第一预测结果;在第二分支上,通过多头图卷积网络和第二衰减头部处理所述第一视频特征,得到第三视频特征,通过第二分类层处理所述第三视频特征,得到第二预测结果,其中,所述第一衰减头部和第二衰减头部分别包括线性变换矩阵、批标准化层和激活层,所述第一衰减头部和所述第二衰减头部共享参数,和/或,所述第一分类层和所述第二分类层共享参数。
[0010]结合第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,其中,所述通过多头图卷积网络和第二衰减头部处理所述第一视频特征,得到第三视频特征包括:根据标注信息,将同一个行人的第一视频特征根据各个第一视频特征之间的余弦距离,构建多个第一视频特征的图;按照通道维度将每个第一视频特征分割,从而将图分割为多个子图;通过多头图卷积网络处理所述多个子图,将得到的结果在通道维度上连接,得到第四视频特征;通过第二衰减头部处理所述第四视频特征,得到第三视频特征。
[0011]结合第一方面的第四种或第五种实现方式,本公开在第一方面的第六种实现方式中,其中,所述基于所述预测结果和所述标注信息优化所述预测模型的模型参数包括:基于所述标注信息和第一预测结果的损失函数优化所述预测模型的模型参数;基于所述标注信息和第二预测结果的损失函数优化所述预测模型的模型参数;基于所述第一预测结果和第二预测结果的损失函数优化所述预测模型的模型参数;基于所述第二视频特征和第三视频特征的损失函数优化所述预测模型的模型参数。
[0012]结合第一方面的第四种至第六种实现方式中的任一项,本公开在第一方面的第七种实现方式中,还包括:在模型参数优化完成后,从所述预测模型中删除所述第二分支。
[0013]第二方面,本公开实施例中提供了一种预测方法,包括将视频数据输入至如第一方面、第一方面的第一种至第七种实现方式中任一项所述的方法训练的预测模型,得到预测结果。
[0014]结合第二方面,在第二方面的第一种实现方式中,所述预测模型用于执行以下操作:通过主干网络处理所述视频数据,获取多个帧特征;通过时间域的池化处理所述多个帧特征,得到全局特征;
对于每个视频帧,基于所述帧特征和所述全局特征生成所述视频帧的权重;基于所述权重和所述帧特征,生成第一视频特征;通过第一衰减头部处理所述第一视频特征,得到第二视频特征;通过第一分类层处理所述第二视频特征,得到所述预测结果。
[0015]第三方面,本公开实施例中提供了一种模型训练装置。
[0016]具体地,所述模型训练装置,用于训练预测模型,包括:样本获取模块,被配置为获取视频样本数据,所述视频样本数据带有标注信息;特征提取模块,被配置为通过所述预测模型的主干网络处理所述视频样本数据,获取多个帧特征;池化模块,被配置为通过时间域的池化处理所述多个帧特征,得到全局特征;权重生成模块,被配置为对于每个视频帧,基于所述帧特征和所述全局特征生成所述视频帧的权重;视频特征生成模块,被配置为基于所述权重和所述帧特征,生成第一视频特征;预测模块,被配置为基于所述第一视频特征获得预测结果;参数优化模块,被配置为基于所述预测结果和所述标注信息优化所述预测模型的模型参数。
[0017]第四方面,本公开实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种到第七种实现方式或第二方面、第二方面的第一种实现方式中任一项所述的方法。
[0018]第五方面,本公开实施例中提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面、第一方面的第一种到第七种实现方式或第二方面、第二方面的第一种实现方式中任一项所述的方法。
[0019]根据本公开实施例提供的技术方案,通过获取视频样本数据,所述视频样本数据带有标注信息;通过预测模型的主干网络处理所述视频样本数据,获取多个帧特征;通过时间域的池化处理所述多个帧特征,得到全局特征;对于每个视频帧,基于所述帧特征和所述全局特征生成所述视频帧的权重;基于所述权重和所述帧特征,生成第一视频特征;基于所述第一视频特征获得预测结果;基于所述预测结果和所述标注信息优化所述预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,用于训练预测模型,所述方法包括:获取视频样本数据,所述视频样本数据带有标注信息;通过所述预测模型的主干网络处理所述视频样本数据,获取多个帧特征;通过时间域的池化处理所述多个帧特征,得到全局特征;对于每个视频帧,基于所述帧特征和所述全局特征生成所述视频帧的权重;基于所述权重和所述帧特征,生成第一视频特征;基于所述第一视频特征获得预测结果;基于所述预测结果和所述标注信息优化所述预测模型的模型参数。2.根据权利要求1所述的方法,其中,所述权重的通道数与所述帧特征的通道数相同。3.根据权利要求1所述的方法,其中,所述对于每个视频帧,基于所述帧特征和所述全局特征生成所述视频帧的权重包括:在当前帧为视频的首帧的情况下,基于所述帧特征和所述全局特征,通过门控循环单元生成所述当前帧的权重;在当前帧为首帧以外的其他视频帧的情况下,基于前一帧的权重和所述全局特征,生成融合向量,基于所述融合向量和所述当前帧的帧特征,通过门控循环单元生成所述当前帧的权重。4.根据权利要求1~3任一项所述的方法,其中,所述基于所述权重和所述帧特征,生成第一视频特征包括:对于各个视频帧的权重在时间维度上执行柔性最大值处理,得到修正后的权重;基于修正后的权重对所述帧特征加权平均,得到第一视频特征。5.根据权利要求1所述的方法,其中,所述预测结果包括第一预测结果和第二预测结果,所述基于所述第一视频特征获得预测结果包括:在第一分支上,通过第一衰减头部处理所述第一视频特征,得到第二视频特征,通过第一分类层处理所述第二视频特征,得到第一预测结果;在第二分支上,通过多头图卷积网络和第二衰减头部处理所述第一视频特征,得到第三视频特征,通过第二分类层处理所述第三视频特征,得到第二预测结果,其中,所述第一衰减头部和第二衰减头部分别包括线性变换矩阵、批标准化层和激活层,所述第一衰减头部和所述第二衰减头部共享参数,和/或,所述第一分类层和所述第二分类层共享参数。6.根据权利要求5所述的方法,其中,所述通过多头图卷积网络和第二衰减头部处理所述第一视频特征,得到第三视频特征包括:根据标注信息,将同一个行人的第一视频特征根据各个第一视频特征之间的余弦距离,构建多个第一视频特征的图;按照通道维度将每个第一视频特征分割,从而将图分割为多个子图;通过多头图卷积网络处理所述多个子图,将得到的结...

【专利技术属性】
技术研发人员:王智康马原
申请(专利权)人:北京澎思科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1