模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号：39065971 阅读：11 留言：0更新日期：2023-10-12 19:58

本申请涉及一种模型训练方法、装置、设备及存储介质，该方法通过对粗粒度特征(视频全局特征和文本全局特征)进行映射，使得细粒度特征(细粒度视觉特征和细粒度文本特征)的信息量大大增加，从而在采用细粒度特征对图神经网络和多层感知器的网络参数进行优化时提高模型的性能。模型的性能。模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法、装置、设备及存储介质

[0001]本申请涉及计算机领域，尤其涉及一种模型训练方法、装置、设备及存储介质。

技术介绍

[0002]车辆检索是学术界和工业界的一个重要课题，在过去十年中一直是一个活跃的研究领域。基于视频内容的有效车辆检索机制可以通过计算车辆图片和视频序列的亲和力检索相似的车辆，帮助警方定位丢失的车辆并抓住嫌疑人，即使嫌疑人更换了车牌，这种基于图像的车辆检索仍能有很好的检索效果。
[0003]在许多案件中会出现没有可用的嫌疑车辆照片，只有一些相关的文本叙述，因此引入了自监督对比学习。自监督对比学习是对比学习中一种无标签参与的对比学习方式。其其能够利用未标记的数据来学习潜在的表示，主要解决人工标注所带来的人力成本问题。
[0004]目前大部分自监督对比学习方法应用于图像分类、图像分割，而很少针对于车辆检索方法，且目前基于车辆检索的自监督学习方法常采用从粗粒度学习车辆特征，并导致影响最终性能。

技术实现思路

[0005]本申请提供了一种模型训练方法、装置、设备及存储介质，用以解决从粗粒度学习车辆特征，导致模型性能受影响的问题。
[0006]第一方面，提供一种模型训练方法，包括：
[0007]基于图神经网络、样本视频和与所述样本视频匹配的文本描述，得到所述样本视频的视频全局特征和所述文本描述的文本全局特征；
[0008]通过多层感知器分别将所述视频全局特征和所述文本全局特征映射到对比学习的空间中，得到与所述视频全局特征对应的细粒度视觉特征和与所...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：基于图神经网络、样本视频和与所述样本视频匹配的文本描述，得到所述样本视频的视频全局特征和所述文本描述的文本全局特征；通过多层感知器分别将所述视频全局特征和所述文本全局特征映射到对比学习的空间中，得到与所述视频全局特征对应的细粒度视觉特征和与所述文本全局特征对应的细粒度文本特征；利用所述细粒度视觉特征和所述细粒度文本特征，对所述图神经网络和所述多层感知器的网络参数进行优化。2.根据权利要求1所述的方法，其特征在于，基于图神经网络、样本视频和与所述样本视频匹配的文本描述，得到所述样本视频的视频全局特征和所述文本描述的文本全局特征，包括：获取所述样本视频的视频编码特征和所述文本描述的文本编码特征；基于所述图神经网路、所述视频编码特征和所述文本编码特征，得到所述视频全局特征和所述文本全局特征。3.根据权利要求2所述的方法，其特征在于，基于所述图神经网路、所述视频编码特征和所述文本编码特征，得到所述视频全局特征和所述文本全局特征，包括：采用所述图神经网络处理所述视频编码特征，得到所述样本视频的视频隐藏状态特征；以及采用所述图神经网络处理所述文本编码特征，得到所述文本描述的文本隐藏状态特征；分别对所述视频隐藏状态特征和所述文本隐藏状态特征进行平均池化，得到所述视频全局特征和所述文本全局特征。4.根据权利要求2或3所述的方法，其特征在于，获取所述样本视频的视频编码特征，包括：基于所述文本描述的描述时间，对所述样本视频采样得到对齐样本视频；提取所述对齐样本视频的视频编码特征；确定所述对齐样本视频的视频编码特征，为所述样本视频的视频编码特征。5.根据权利要求4所述的方法，其特征在于，基于所述文本描述的描述时间，对所述样本视...

【专利技术属性】
技术研发人员：徐博诚，张睿，
申请(专利权)人：重庆特斯联启智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人