【技术实现步骤摘要】
视频数据处理方法以及装置
[0001]本申请涉及网络媒体
,尤其涉及一种视频数据处理方法以及装置。
技术介绍
[0002]在互联网大数据背景下,通常需要对特定数据进行处理分析,从数据中抽取有用信息,即对数据进行表征学习,如何利用互联网上的海量数据挖掘出有效信息,受到了广泛关注。目前视频数据的表征学习,可以采用基于有监督的训练方法,通过获取视频数据的监督信息,利用该监督信息可以指导视频数据特征的分类;然而,现有的监督信息通常为人为标注的单一标签,利用该监督信息学习到的视频数据特征往往为粗粒度特征,该视频数据特征的预测分类结果与视频数据本身的内容可能存在差异,使得视频数据表征学习的效果并不理想。
技术实现思路
[0003]本申请实施例提供一种视频数据处理方法以及装置,可以提升视频多模态表征学习的效果。
[0004]本申请实施例一方面提供了一种视频数据处理方法,包括:获取视频标签集合,对视频标签集合中所包含的视频标签进行聚类,得到K个标签簇;K为正整数;获取样本视频数据对应的样本视频类别和样本视频标签 ...
【技术保护点】
【技术特征摘要】
1.一种视频数据处理方法,其特征在于,包括:获取视频标签集合,对所述视频标签集合中所包含的视频标签进行聚类,得到K个标签簇;K为正整数;获取样本视频数据对应的样本视频类别和样本视频标签,根据所述样本视频标签所属的标签簇,确定所述样本视频数据对应的样本簇类标识;所述样本视频数据包括样本视频流和样本描述文本;通过初始视频多模态模型输出所述样本视频数据对应的样本多模态特征;所述样本多模态特征是对所述样本视频流对应的样本视频特征,以及所述样本描述文本对应的样本文本特征进行融合得到的;将所述样本多模态特征输入至N个分类组件,通过所述N个分类组件输出所述样本视频数据对应的N个分类结果;所述N个分类组件用于执行不同的分类任务,所述N个分类结果包括样本预测类别、簇类标识预测结果以及标签预测结果,N为正整数;根据所述N个分类结果、所述样本视频类别、所述样本视频标签以及所述样本簇类标识,对所述初始视频多模态模型的网络参数进行修正,生成目标视频多模态模型;所述目标视频多模态模型用于从源视频数据中提取表征视频内容的视频多模态特征。2.根据权利要求1所述的方法,其特征在于,所述获取视频标签集合,对所述视频标签集合中所包含的视频标签进行聚类,得到K个标签簇,包括:获取视频标签集合,将视频标签集合中的每个视频标签均转换为标签向量,将所述每个视频标签所对应的标签向量添加至标签向量集合,从所述标签向量集合中选择中心向量t
i
;i为小于或等于K的正整数;获取所述标签向量集合中的每个标签向量分别与所述中心向量t
i
之间的相似度,若所述标签向量集合中的标签向量G
j
与所述中心向量t
i
的相似度最大,则将标签向量G
j
添加至所述中心向量t
i
所属的待处理簇C
i
;j为小于或者等于所述标签向量集合中所包含的标签向量的数量的正整数;根据所述待处理簇C
i
中所包含的标签向量,更新所述中心向量t
i
,直至所述待处理簇C
i
中更新后的中心向量t
i
与更新前的中心向量t
i
相同时,将所述待处理簇C
i
确定为标签簇。3.根据权利要求2所述的方法,其特征在于,所述将视频标签集合中的每个视频标签均转换为标签向量,包括:将所述视频标签集合中的视频标签b
j
划分为D个单位字符,获取所述D个单位字符分别对应的单位词向量;D为正整数;根据所述D个单位字符在所述视频标签b
j
中的语义信息,获取所述D个单位字符分别对应的文本向量;根据所述D个单位字符在所述视频标签b
j
中的文本位置,获取所述D个单位字符分别对应的位置向量;将所述单位词向量、所述文本向量以及所述位置向量进行叠加,得到初始表示特征,通过文本编码器对所述初始表示特征进行文本编码,生成所述视频标签b
j
对应的标签向量G
j
。4.根据权利要求1所述的方法,其特征在于,所述初始视频多模态模型包括视频流组件和文本组件;所述通过初始视频多模态模型输出所述样本视频数据对应的样本多模态特征,包括:
将所述样本视频数据中的所述样本视频流进行采样处理,得到M个目标视频帧;M为正整数;将所述M个目标视频帧依次输入至所述视频流组件,通过所述视频流组件获取所述M个目标视频帧分别对应的样本图像特征,对M个样本图像特征进行特征聚合,得到所述样本视频流对应的样本视频特征;将所述样本视频数据中的所述样本描述文本输入至所述文本组件,通过所述文本组件对所述样本描述文本进行分词处理,得到H个样本描述字符,将所述H个样本描述字符均转换为样本描述向量;H为正整数;根据所述文本组件中的循环神经网络,对H个样本描述向量进行双向循环编码,得到所述样本描述文本对应的样本文本特征;对所述样本视频特征和所述样本文本特征进行融合,得到所述样本视频数据对应的样本多模态特征。5.根据权利要求1所述的方法,其特征在于,所述N个分类组件包括类别分类组件、簇类分类组件以及标签分类组件;所述将所述样本多模态特征输入至N个分类组件,通过所述N个分类组件输出所述样本视频数据对应的N个分类结果,包括:将所述样本多模态特征输入至所述类别分类组件、所述簇类分类组件以及所述标签分类组件,通过所述类别分类组件对所述样本多模态特征进行类别预测,得到所述样本视频数据对应的样本预测类别;通过所述簇类分类组件对所述样本多模态特征进行簇类预测,得到所述样本视频数据对应的簇类标识预测结果;所述簇类标识预测结果包括所述样本视频数据分别属于所述K个标签簇的预测数值;通过所述标签分类组件对所述样本多模态特征进行标签预测,得到所述样本视频数据对应...
【专利技术属性】
技术研发人员:罗永盛,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。