视频表征模型的训练方法、装置和计算机可读存储介质制造方法及图纸

技术编号:35296424 阅读:10 留言:0更新日期:2022-10-22 12:43
本申请实施例公开了一种视频表征模型的训练方法、装置和计算机可读存储介质,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景;通过获取多元视频组样本,并提取多元视频组样本对应的多模态信息;对目标模态的视频内容信息进行遮掩处理,得到遮掩后多模态信息;采用视频表征模型对遮掩后多模态信息进行特征提取,得到样本视频特征以及语义预测特征;根据目标模态的视频内容信息、语义预测特征以及样本视频特征,对视频表征模型进行损失计算处理,得到预测损失信息和特征表征损失信息;基于预测损失信息和特征表征损失信息,对视频表征模型进行收敛,得到训练后视频表征模型。以此,提高了视频表征模型的训练效率,进而提升视频表征效率。提升视频表征效率。提升视频表征效率。

【技术实现步骤摘要】
视频表征模型的训练方法、装置和计算机可读存储介质


[0001]本申请涉及互联网
,具体涉及一种视频表征模型的训练方法、装置和计算机可读存储介质。

技术介绍

[0002]近年来,随着互联网技术的快速发展,网络上产生了大量的信息,例如各种各样的视频,然而大量的视频使得用户难以从中快速获得到真正感兴趣的视频,降低了视频的推送效率。为了将用户感兴趣的视频准确推送至相应的用户,现有技术中大多通过采用训练好的视频表征模型来提取视频的语义信息,以基于视频的语义信息对关联视频进行推送。
[0003]在对现有技术的研究和实践过程中发现,现有的视频表征模型的训练方法往往将视频分类任务作为训练目标来学习视频的特征,然而,分类任务的类别数量有限,并且视频的分类需要人工成本来对视频进行标注,使得视频表征模型的训练效率较低,进而导致视频表征效率较低。

技术实现思路

[0004]本申请实施例提供一种视频表征模型的训练方法、装置和计算机可读存储介质,可以提高了视频表征模型的训练效率,进而提高视频表征模型提取的视频特征的准确性,进一步提升视频表征效率。
[0005]本申请实施例提供一种视频表征模型的训练方法,包括:
[0006]获取多元视频组样本,并提取所述多元视频组样本对应的多模态信息,所述多元视频组样本至少包括基础视频样本和关联视频样本,所述关联视频样本为与所述基础视频样本的相似度满足预设条件的视频样本,所述多模态信息包括至少两种模态的视频内容信息;
[0007]对所述多模态信息中目标模态的视频内容信息进行遮掩处理,得到遮掩后多模态信息;
[0008]采用视频表征模型对所述遮掩后多模态信息进行特征提取,得到所述多元视频组样本对应的样本视频特征以及语义预测特征;
[0009]根据所述目标模态的视频内容信息、语义预测特征以及样本视频特征,对所述视频表征模型进行损失计算处理,得到所述视频表征模型对应的预测损失信息和特征表征损失信息;
[0010]基于所述预测损失信息和特征表征损失信息,对所述视频表征模型进行收敛,得到训练后视频表征模型。
[0011]相应的,本申请实施例提供一种视频表征模型的训练装置,包括:
[0012]获取单元,用于获取多元视频组样本,并提取所述多元视频组样本对应的多模态信息,所述多元视频组样本至少包括基础视频样本和关联视频样本,所述关联视频样本为与所述基础视频样本的相似度满足预设条件的视频样本,所述多模态信息包括至少两种模
态的视频内容信息;
[0013]遮掩单元,用于对所述多模态信息中目标模态的视频内容信息进行遮掩处理,得到遮掩后多模态信息;
[0014]提取单元,用于采用视频表征模型对所述遮掩后多模态信息进行特征提取,得到所述多元视频组样本对应的样本视频特征以及语义预测特征;
[0015]计算单元,用于根据所述目标模态的视频内容信息、语义预测特征以及样本视频特征,对所述视频表征模型进行损失计算处理,得到所述视频表征模型对应的预测损失信息和特征表征损失信息;
[0016]收敛单元,用于基于所述预测损失信息和特征表征损失信息,对所述视频表征模型进行收敛,得到训练后视频表征模型。
[0017]在一实施例中,所述计算单元,包括:
[0018]预测损失计算子单元,用于根据所述目标模态的视频内容信息和语义预测特征,对所述视频表征模型进行预测损失计算处理,得到所述视频表征模型对应的预测损失信息;
[0019]特征表征损失计算子单元,用于基于所述多元视频组样本对应的样本视频特征,对所述视频表征模型进行特征损失计算处理,得到所述视频表征模型对应的特征表征损失信息。
[0020]在一实施例中,所述特征表征损失计算子单元,包括:
[0021]提取模块,用于在所述多元视频组样本的关联视频样本中提取出视频正样本以及视频负样本,所述视频正样本为与所述基础视频样本相似的视频样本,所述视频负样本为与所述基础视频样本不相似的视频样本;
[0022]相似度计算模块,用于基于所述样本视频特征,计算基础视频样本和视频正样本之间的相似度,得到第一视频相似度,并计算基础视频样本和视频负样本之间的相似度,得到第二视频相似度;
[0023]特征表征损失信息确定模块,用于根据所述第一视频相似度和第二视频相似度,确定所述视频表征模型对应的特征表征损失信息。
[0024]在一实施例中,所述预测损失计算子单元,包括:
[0025]概率提取模块,用于在所述语义预测特征中提取出所述遮掩后多模态信息对应的遮掩词属于预设字典中的词的概率,得到预测概率分布;
[0026]期望概率确定模块,用于根据目标模态的视频内容信息确定所述预设字典中每一词的期望概率,得到期望概率分布;
[0027]预测损失信息计算模块,用于基于所述期望概率分布和预测概率分布,对所述视频表征模型进行预测损失计算处理,得到所述视频表征模型对应的预测损失信息。
[0028]在一实施例中,所述提取单元,包括:
[0029]特征映射子单元,用于对所述遮掩后多模态信息进行同一特征空间的特征映射,得到每一模态对应的模态特征;
[0030]特征融合子单元,用于采用视频表征模型对所述模态特征进行特征融合,得到所述多元视频组样本中每一视频样本对应的样本视频特征;
[0031]预测子单元,用于基于预设字典和所述样本视频特征,对所述遮掩后多模态信息
中的遮掩词进行预测,得到语义预测特征。
[0032]在一实施例中,所述特征融合子单元,包括:
[0033]模型获取子单元,用于获取视频表征模型,所述视频表征模型包括第一子模型和第二子模型;
[0034]第一融合子单元,用于采用所述第一子模型将所述模态特征进行拼接,得到多模态视频特征,并对所述多模态视频特征进行视频语义特征提取,得到第一样本视频特征;
[0035]第二融合子单元,用于采用所述第二子模型分别将所述模态特征进行语义特征提取,得到模态视频特征,并将所述模态视频特征进行模态特征融合,得到第二样本视频特征;
[0036]特征融合子单元,用于将所述第一样本视频特征和第二样本视频特征进行融合,得到所述多元视频组样本对应的样本视频特征。
[0037]在一实施例中,所述特征映射子单元,包括:
[0038]特征提取模块,用于对所述遮掩后多模态信息中的图像信息和文本信息进行特征提取,得到图像特征和文本特征;
[0039]特征相似度计算模块,用于基于所述图像特征对应的时间信息,计算所述图像特征中相邻的图像特征之间的特征相似度;
[0040]合并模块,用于根据所述特征相似度,在所述图像特征中筛选出至少一个相似图像特征组,并将所述相似图像特征组中的相似图像特征进行合并,得到合并后图像特征;
[0041]映射模块,用于基于合并后图像特征对所述图像特征进行更新,并将更新后图像特征映射到与所述文本特征相同的特征空间中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频表征模型的训练方法,其特征在于,包括:获取多元视频组样本,并提取所述多元视频组样本对应的多模态信息,所述多元视频组样本至少包括基础视频样本和关联视频样本,所述关联视频样本为与所述基础视频样本的相似度满足预设条件的视频样本,所述多模态信息包括至少两种模态的视频内容信息;对所述多模态信息中目标模态的视频内容信息进行遮掩处理,得到遮掩后多模态信息;采用视频表征模型对所述遮掩后多模态信息进行特征提取,得到所述多元视频组样本对应的样本视频特征以及语义预测特征;根据所述目标模态的视频内容信息、语义预测特征以及样本视频特征,对所述视频表征模型进行损失计算处理,得到所述视频表征模型对应的预测损失信息和特征表征损失信息;基于所述预测损失信息和特征表征损失信息,对所述视频表征模型进行收敛,得到训练后视频表征模型。2.如权利要求1所述的视频表征模型的训练方法,其特征在于,所述根据所述目标模态的视频内容信息、语义预测特征以及样本视频特征,对所述视频表征模型进行损失计算处理,得到所述视频表征模型对应的预测损失信息和特征表征损失信息,包括:根据所述目标模态的视频内容信息和语义预测特征,对所述视频表征模型进行预测损失计算处理,得到所述视频表征模型对应的预测损失信息;基于所述多元视频组样本对应的样本视频特征,对所述视频表征模型进行特征损失计算处理,得到所述视频表征模型对应的特征表征损失信息。3.如权利要求2所述的视频表征模型的训练方法,其特征在于,所述基于所述多元视频组样本对应的样本视频特征,对所述视频表征模型进行特征损失计算处理,得到所述视频表征模型对应的特征表征损失信息,包括:在所述多元视频组样本的关联视频样本中提取出视频正样本以及视频负样本,所述视频正样本为与所述基础视频样本相似的视频样本,所述视频负样本为与所述基础视频样本不相似的视频样本;基于所述样本视频特征,计算基础视频样本和视频正样本之间的相似度,得到第一视频相似度,并计算基础视频样本和视频负样本之间的相似度,得到第二视频相似度;根据所述第一视频相似度和第二视频相似度,确定所述视频表征模型对应的特征表征损失信息。4.如权利要求2所述的视频表征模型的训练方法,其特征在于,所述根据所述目标模态的视频内容信息和语义预测特征,对所述视频表征模型进行预测损失计算处理,得到所述视频表征模型对应的预测损失信息,包括:在所述语义预测特征中提取出所述遮掩后多模态信息对应的遮掩词属于预设字典中的词的概率,得到预测概率分布;根据目标模态的视频内容信息确定所述预设字典中每一词的期望概率,得到期望概率分布;基于所述期望概率分布和预测概率分布,对所述视频表征模型进行预测损失计算处理,得到所述视频表征模型对应的预测损失信息。
5.如权利要求1所述的视频表征模型的训练方法,其特征在于,所述采用视频表征模型对所述遮掩后多模态信息进行特征提取,得到所述多元视频组样本对应的样本视频特征以及语义预测特征,包括:对所述遮掩后多模态信息进行同一特征空间的特征映射,得到每一模态对应的模态特征;采用视频表征模型对所述模态特征进行特征融合,得到所述多元视频组样本中每一视频样本对应的样本视频特征;基于预设字典和所述样本视频特征,对所述遮掩后多模态信息中的遮掩词进行预测,得到语义预测特征。6.如权利要求5所述的视频表征模型的训练方法...

【专利技术属性】
技术研发人员:杨皓
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1