模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:39065971 阅读:11 留言:0更新日期:2023-10-12 19:58
本申请涉及一种模型训练方法、装置、设备及存储介质,该方法通过对粗粒度特征(视频全局特征和文本全局特征)进行映射,使得细粒度特征(细粒度视觉特征和细粒度文本特征)的信息量大大增加,从而在采用细粒度特征对图神经网络和多层感知器的网络参数进行优化时提高模型的性能。模型的性能。模型的性能。

【技术实现步骤摘要】
模型训练方法、装置、设备及存储介质


[0001]本申请涉及计算机领域,尤其涉及一种模型训练方法、装置、设备及存储介质。

技术介绍

[0002]车辆检索是学术界和工业界的一个重要课题,在过去十年中一直是一个活跃的研究领域。基于视频内容的有效车辆检索机制可以通过计算车辆图片和视频序列的亲和力检索相似的车辆,帮助警方定位丢失的车辆并抓住嫌疑人,即使嫌疑人更换了车牌,这种基于图像的车辆检索仍能有很好的检索效果。
[0003]在许多案件中会出现没有可用的嫌疑车辆照片,只有一些相关的文本叙述,因此引入了自监督对比学习。自监督对比学习是对比学习中一种无标签参与的对比学习方式。其其能够利用未标记的数据来学习潜在的表示,主要解决人工标注所带来的人力成本问题。
[0004]目前大部分自监督对比学习方法应用于图像分类、图像分割,而很少针对于车辆检索方法,且目前基于车辆检索的自监督学习方法常采用从粗粒度学习车辆特征,并导致影响最终性能。

技术实现思路

[0005]本申请提供了一种模型训练方法、装置、设备及存储介质,用以解决从粗粒度学习车辆特征,导致模型性能受影响的问题。
[0006]第一方面,提供一种模型训练方法,包括:
[0007]基于图神经网络、样本视频和与所述样本视频匹配的文本描述,得到所述样本视频的视频全局特征和所述文本描述的文本全局特征;
[0008]通过多层感知器分别将所述视频全局特征和所述文本全局特征映射到对比学习的空间中,得到与所述视频全局特征对应的细粒度视觉特征和与所述文本全局特征对应的细粒度文本特征;
[0009]利用所述细粒度视觉特征和所述细粒度文本特征,对所述图神经网络和所述多层感知器的网络参数进行优化。
[0010]可选地,基于图神经网络、样本视频和与所述样本视频匹配的文本描述,得到所述样本视频的视频全局特征和所述文本描述的文本全局特征,包括:
[0011]获取所述样本视频的视频编码特征和所述文本描述的文本编码特征;
[0012]基于所述图神经网路、所述视频编码特征和所述文本编码特征,得到所述视频全局特征和所述文本全局特征。
[0013]可选地,基于所述图神经网路、所述视频编码特征和所述文本编码特征,得到所述视频全局特征和所述文本全局特征,包括:
[0014]采用所述图神经网络处理所述视频编码特征,得到所述样本视频的视频隐藏状态特征;以及采用所述图神经网络处理所述文本编码特征,得到所述文本描述的文本隐藏状
态特征;
[0015]分别对所述视频隐藏状态特征和所述文本隐藏状态特征进行平均池化,得到所述视频全局特征和所述文本全局特征。
[0016]可选地,获取所述样本视频的视频编码特征,包括:
[0017]基于所述文本描述的描述时间,对所述样本视频采样得到对齐样本视频;
[0018]提取所述对齐样本视频的视频编码特征;
[0019]确定所述对齐样本视频的视频编码特征,为所述样本视频的视频编码特征。
[0020]可选地,基于所述文本描述的描述时间,对所述样本视频采样得到对齐样本视频,包括:
[0021]基于所述描述时间,确定对所述样本视频进行采样的采样基准时间戳;
[0022]以所述样本视频中所述采样基准时间戳对应的视频帧为采样起点,对所述样本视频进行采样,得到帧数为预设帧数的采样样本视频;
[0023]确定所述采样样本视频为所述对齐样本视频。
[0024]可选地,所述文本描述包括至少两种自然语言描述,所述至少两种自然语言描述中不同的描述对应的描述角度不同。
[0025]可选地,所述图神经网络和所述多层感知器属于弱监督学习模型中的网络层。
[0026]第二方面,提供一种模型训练装置,包括:
[0027]处理模块,用于基于图神经网络、样本视频和与所述样本视频匹配的文本描述,得到所述样本视频的视频全局特征和所述文本描述的文本全局特征;
[0028]映射模块,用于通过多层感知器分别将所述视频全局特征和所述文本全局特征映射到对比学习的空间中,得到与所述视频全局特征对应的细粒度视觉特征和与所述文本全局特征对应的细粒度文本特征;
[0029]优化模块,用于利用所述细粒度视觉特征和所述细粒度文本特征,对所述图神经网络和所述多层感知器的网络参数进行优化。
[0030]第三方面,提供一种电子设备,包括:处理器、存储器和通信总线,其中,处理器和存储器通过通信总线完成相互间的通信;
[0031]所述存储器,用于存储计算机程序;
[0032]所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的模型训练方法。
[0033]第四方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的模型训练方法。
[0034]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,在获得样本视频的视频全局特征和文本描述的文本全局特征后,通过多层感知器对视频全局特征和文本全局特征进行特征映射,从而得到细粒度视觉特征和细粒度文本特征,并最终采用细粒度视觉特征和细粒度文本特征对图神经网络和多层感知器的网络参数进行优化。即本申请通过对粗粒度特征(视频全局特征和文本全局特征)进行映射,使得细粒度特征(细粒度视觉特征和细粒度文本特征)的信息量大大增加,从而在采用细粒度特征对图神经网络和多层感知器的网络参数进行优化时提高模型的性能。
附图说明
[0035]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0036]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0037]图1为本申请实施例中模型训练方法的一种流程示意图;
[0038]图2为本申请实施例中模型训练方法的又一种流程示意图;
[0039]图3为本申请实施例中模型训练装置的结构示意图;
[0040]图4为本申请实施例中电子设备的结构示意图。
具体实施方式
[0041]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0042]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:基于图神经网络、样本视频和与所述样本视频匹配的文本描述,得到所述样本视频的视频全局特征和所述文本描述的文本全局特征;通过多层感知器分别将所述视频全局特征和所述文本全局特征映射到对比学习的空间中,得到与所述视频全局特征对应的细粒度视觉特征和与所述文本全局特征对应的细粒度文本特征;利用所述细粒度视觉特征和所述细粒度文本特征,对所述图神经网络和所述多层感知器的网络参数进行优化。2.根据权利要求1所述的方法,其特征在于,基于图神经网络、样本视频和与所述样本视频匹配的文本描述,得到所述样本视频的视频全局特征和所述文本描述的文本全局特征,包括:获取所述样本视频的视频编码特征和所述文本描述的文本编码特征;基于所述图神经网路、所述视频编码特征和所述文本编码特征,得到所述视频全局特征和所述文本全局特征。3.根据权利要求2所述的方法,其特征在于,基于所述图神经网路、所述视频编码特征和所述文本编码特征,得到所述视频全局特征和所述文本全局特征,包括:采用所述图神经网络处理所述视频编码特征,得到所述样本视频的视频隐藏状态特征;以及采用所述图神经网络处理所述文本编码特征,得到所述文本描述的文本隐藏状态特征;分别对所述视频隐藏状态特征和所述文本隐藏状态特征进行平均池化,得到所述视频全局特征和所述文本全局特征。4.根据权利要求2或3所述的方法,其特征在于,获取所述样本视频的视频编码特征,包括:基于所述文本描述的描述时间,对所述样本视频采样得到对齐样本视频;提取所述对齐样本视频的视频编码特征;确定所述对齐样本视频的视频编码特征,为所述样本视频的视频编码特征。5.根据权利要求4所述的方法,其特征在于,基于所述文本描述的描述时间,对所述样本视...

【专利技术属性】
技术研发人员:徐博诚张睿
申请(专利权)人:重庆特斯联启智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1