视频表征模型的训练方法、装置和计算机可读存储介质制造方法及图纸

技术编号：35296424 阅读：10 留言：0更新日期：2022-10-22 12:43

本申请实施例公开了一种视频表征模型的训练方法、装置和计算机可读存储介质，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景；通过获取多元视频组样本，并提取多元视频组样本对应的多模态信息；对目标模态的视频内容信息进行遮掩处理，得到遮掩后多模态信息；采用视频表征模型对遮掩后多模态信息进行特征提取，得到样本视频特征以及语义预测特征；根据目标模态的视频内容信息、语义预测特征以及样本视频特征，对视频表征模型进行损失计算处理，得到预测损失信息和特征表征损失信息；基于预测损失信息和特征表征损失信息，对视频表征模型进行收敛，得到训练后视频表征模型。以此，提高了视频表征模型的训练效率，进而提升视频表征效率。提升视频表征效率。提升视频表征效率。

全部详细技术资料下载

【技术实现步骤摘要】
视频表征模型的训练方法、装置和计算机可读存储介质

[0001]本申请涉及互联网
，具体涉及一种视频表征模型的训练方法、装置和计算机可读存储介质。

技术介绍

[0002]近年来，随着互联网技术的快速发展，网络上产生了大量的信息，例如各种各样的视频，然而大量的视频使得用户难以从中快速获得到真正感兴趣的视频，降低了视频的推送效率。为了将用户感兴趣的视频准确推送至相应的用户，现有技术中大多通过采用训练好的视频表征模型来提取视频的语义信息，以基于视频的语义信息对关联视频进行推送。
[0003]在对现有技术的研究和实践过程中发现，现有的视频表征模型的训练方法往往将视频分类任务作为训练目标来学习视频的特征，然而，分类任务的类别数量有限，并且视频的分类需要人工成本来对视频进行标注，使得视频表征模型的训练效率较低，进而导致视频表征效率较低。

技术实现思路

[0004]本申请实施例提供一种视频表征模型的训练方法、装置和计算机可读存储介质，可以提高了视频表征模型的训练效率，进而提高视频表征模型提取的视频特征的准确性，进一步提升视频表征效率。
[0005]本申请实施例提供一种视频表征模型的训练方法，包括：
[0006]获取多元视频组样本，并提取所述多元视频组样本对应的多模态信息，所述多元视频组样本至少包括基础视频样本和关联视频样本，所述关联视频样本为与所述基础视频样本的相似度满足预设条件的视频样本，所述多模态信息包括至少两种模态的视频内容信息；
[0007]对所述多模态信息中目标模态的视...

【技术保护点】

【技术特征摘要】
1.一种视频表征模型的训练方法，其特征在于，包括：获取多元视频组样本，并提取所述多元视频组样本对应的多模态信息，所述多元视频组样本至少包括基础视频样本和关联视频样本，所述关联视频样本为与所述基础视频样本的相似度满足预设条件的视频样本，所述多模态信息包括至少两种模态的视频内容信息；对所述多模态信息中目标模态的视频内容信息进行遮掩处理，得到遮掩后多模态信息；采用视频表征模型对所述遮掩后多模态信息进行特征提取，得到所述多元视频组样本对应的样本视频特征以及语义预测特征；根据所述目标模态的视频内容信息、语义预测特征以及样本视频特征，对所述视频表征模型进行损失计算处理，得到所述视频表征模型对应的预测损失信息和特征表征损失信息；基于所述预测损失信息和特征表征损失信息，对所述视频表征模型进行收敛，得到训练后视频表征模型。2.如权利要求1所述的视频表征模型的训练方法，其特征在于，所述根据所述目标模态的视频内容信息、语义预测特征以及样本视频特征，对所述视频表征模型进行损失计算处理，得到所述视频表征模型对应的预测损失信息和特征表征损失信息，包括：根据所述目标模态的视频内容信息和语义预测特征，对所述视频表征模型进行预测损失计算处理，得到所述视频表征模型对应的预测损失信息；基于所述多元视频组样本对应的样本视频特征，对所述视频表征模型进行特征损失计算处理，得到所述视频表征模型对应的特征表征损失信息。3.如权利要求2所述的视频表征模型的训练方法，其特征在于，所述基于所述多元视频组样本对应的样本视频特征，对所述视频表征模型进行特征损失计算处理，得到所述视频表征模型对应的特征表征损失信息，包括：在所述多元视频组样本的关联视频样本中提取出视频正样本以及视频负样本，所述视频正样本为与所述基础视频样本相似的视频样本，所述视频负样本为与所述基础视频样本不相似的视频样本；基于所述样本视频特征，计算基础视频样本和视频正样本之间的相似度，得到第一视频相似度，并计算基础视频样本和视频负样本之间的相似度，得到第二视频相似度；根据所述第一视频相似度和第二视频相似度，确定所述视频表征模型对应的特征表征损失信息。4.如权利要求2所述的视频表征模型的训练方法，其特征在于，所述根据所述目标模态的视频内容信息和语义预测特征，对所述视频表征模型进行预测损失计算处理，得到所述视频表征模型对应的预测损失信息，包括：在所述语义预测特征中提取出所述遮掩后多模态信息对应的遮掩词属于预设字典中的词的概率，得到预测概率分布；根据目标模态的视频内容信息确定所述预设字典中每一词的期望概率，得到期望概率分布；基于所述期望概率分布和预测概率分布，对所述视频表征模型进行预测损失计算处理，得到所述视频表征模型对应的预测损失信息。
5.如权利要求1所述的视频表征模型的训练方法，其特征在于，所述采用视频表征模型对所述遮掩后多模态信息进行特征提取，得到所述多元视频组样本对应的样本视频特征以及语义预测特征，包括：对所述遮掩后多模态信息进行同一特征空间的特征映射，得到每一模态对应的模态特征；采用视频表征模型对所述模态特征进行特征融合，得到所述多元视频组样本中每一视频样本对应的样本视频特征；基于预设字典和所述样本视频特征，对所述遮掩后多模态信息中的遮掩词进行预测，得到语义预测特征。6.如权利要求5所述的视频表征模型的训练方法...

【专利技术属性】
技术研发人员：杨皓，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人