视频数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:37037458 阅读:18 留言:0更新日期:2023-03-29 19:17
本申请公开了一种视频数据处理方法、装置、计算机设备和存储介质,该方法包括:从视频数据中抽取目标图像帧;获取目标图像帧对应的图像特征图;图像特征图包含目标图像帧的多个特征参数,每个特征参数各自对应图像特征图中的一个特征位置;获取图像特征图中每个特征位置处的位置特征嵌入参数;每个特征位置处的位置特征嵌入参数用于指示每个特征位置处的特征参数之间的关联程度;分别对每个特征位置处的特征参数和位置特征嵌入参数进行融合处理,得到每个特征位置处的融合特征信息;根据每个特征位置处的融合特征信息确定视频数据的视频类型。采用本申请,可提高所确定的视频数据的视频类型的准确性。的视频类型的准确性。的视频类型的准确性。

【技术实现步骤摘要】
视频数据处理方法、装置、计算机设备和存储介质


[0001]本申请涉及视频数据处理的
,尤其涉及一种视频数据处理方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着大量视频应用的涌现,对视频数据进行处理的手段也越来越丰富,其中,就包括对视频数据进行分类的处理,以通过所分类的视频数据向用户推送其所感兴趣类型的视频数据。
[0003]现有应用中,通常是由用户在上传视频数据时,就为所上传的视频数据选择类型标签,或者是在用户上传视频数据后,由后台的技术人员手动地为视频数据添加类型标签,这不仅耗费大量人力,而且对视频进行分类的标准也并不统一,导致对视频的分类并不准确。

技术实现思路

[0004]本申请提供了一种视频数据处理方法、装置、计算机设备和存储介质,可提高所确定的视频数据的视频类型的准确性。
[0005]本申请一方面提供了一种视频数据处理方法,该方法包括:
[0006]从视频数据中抽取目标图像帧;
[0007]获取目标图像帧对应的图像特征图;图像特征图包含目标图像帧的多个特征参数,每个特征参数各自对应图像特征图中的一个特征位置;
[0008]获取图像特征图中每个特征位置处的位置特征嵌入参数;每个特征位置处的位置特征嵌入参数用于指示每个特征位置处的特征参数之间的关联程度;
[0009]分别对每个特征位置处的特征参数和位置特征嵌入参数进行融合处理,得到每个特征位置处的融合特征信息;
[0010]根据每个特征位置处的融合特征信息确定视频数据的视频类型。
[0011]本申请一方面提供了一种视频数据处理装置,该装置包括:
[0012]抽取模块,用于从视频数据中抽取目标图像帧;
[0013]获取模块,用于获取目标图像帧对应的图像特征图;图像特征图包含目标图像帧的多个特征参数,每个特征参数各自对应图像特征图中的一个特征位置;
[0014]获取模块,用于获取图像特征图中每个特征位置处的位置特征嵌入参数;每个特征位置处的位置特征嵌入参数用于指示每个特征位置处的特征参数之间的关联程度;
[0015]融合模块,用于分别对每个特征位置处的特征参数和位置特征嵌入参数进行融合处理,得到每个特征位置处的融合特征信息;
[0016]确定模块,用于根据每个特征位置处的融合特征信息确定视频数据的视频类型。
[0017]可选的,图像特征图是调用预测网络获取得到;预测网络包括图像特征提取网络和类型预测网络;
[0018]获取模块获取目标图像帧对应的图像特征图的方式,包括:
[0019]调用预测网络中的图像特征提取网络提取目标图像帧的图像特征,得到图像特征图;
[0020]确定模块根据每个特征位置处的融合特征信息确定视频数据的视频类型的方式,包括:
[0021]调用预测网络中的类型预测网络根据每个特征位置处的融合特征信息确定视频数据的视频类型。
[0022]可选的,获取模块获取图像特征图中每个特征位置处的位置特征嵌入参数的方式,包括:
[0023]从图像特征提取网络中获取位置特征嵌入矩阵;
[0024]从位置特征嵌入矩阵中提取每个特征位置处的位置特征嵌入参数。
[0025]可选的,预测网络还包括文本特征提取网络;上述装置还用于:
[0026]获取视频数据的关联文本数据;
[0027]调用文本特征提取网络提取关联文本数据的文本特征,得到关联文本数据的文本特征矩阵;
[0028]确定模块调用预测网络中的类型预测网络根据每个特征位置处的融合特征信息确定视频数据的视频类型的方式,包括:
[0029]根据每个特征位置处的融合特征信息生成融合特征矩阵;
[0030]对文本特征矩阵和融合特征矩阵进行拼接处理,得到拼接特征矩阵;
[0031]调用类型预测网络根据拼接特征矩阵确定视频数据的视频类型。
[0032]可选的,上述装置还用于:
[0033]获取样本视频数据及样本视频数据的样本关联文本数据;样本视频数据携带视频类型标签;
[0034]从样本视频数据中抽取样本图像帧,并调用初始预测网络中待训练的图像特征提取网络提取样本图像帧的图像特征,得到样本图像帧对应的样本图像特征图;
[0035]调用待训练的图像特征提取网络根据样本图像特征图和初始位置特征嵌入矩阵,生成针对样本图像帧的样本融合特征矩阵;初始位置特征嵌入矩阵是根据每个特征位置得到;
[0036]调用初始预测网络中待训练的文本特征提取网络提取样本关联文本数据的文本特征,得到样本关联文本数据的样本文本特征矩阵;
[0037]根据样本融合特征矩阵和样本文本特征矩阵预测样本视频数据的视频类型;
[0038]根据所预测的样本视频数据的视频类型及视频类型标签所指示的样本视频数据的实际视频类型更新初始预测网络的网络参数,得到预测网络;初始位置特征嵌入矩阵属于初始预测网络的网络参数;
[0039]其中,预测网络包括位置特征嵌入矩阵,位置特征嵌入矩阵是更新后的初始位置特征嵌入矩阵,位置特征嵌入矩阵包括每个特征位置处的位置特征嵌入参数。
[0040]可选的,初始位置特征嵌入矩阵包括每个特征位置处的初始位置嵌入参数;上述装置还用于:
[0041]对样本图像特征图的每个特征位置进行行编码,得到每个特征位置处的行编码
值;
[0042]对样本图像特征图的每个特征位置进行列编码,得到每个特征位置处的列编码值;
[0043]分别对每个特征位置处的行编码值和列编码值进行求和处理,得到每个特征位置处的初始位置嵌入参数。
[0044]可选的,融合模块分别对每个特征位置处的特征参数和位置特征嵌入参数进行融合处理,得到每个特征位置处的融合特征信息的方式,包括:
[0045]分别对每个特征位置处的特征参数和位置特征嵌入参数进行加和融合处理,得到每个特征位置处的融合特征参数;
[0046]根据每个特征位置处的融合特征参数,生成每个特征位置处的融合特征信息。
[0047]可选的,图像特征图的数量为N个,N为正整数;多个特征位置中的任一个特征位置表示为第i个特征位置,i为小于或等于多个特征位置的位置总数量的正整数;
[0048]融合模块根据每个特征位置处的融合特征参数,生成每个特征位置处的融合特征信息的方式,包括:
[0049]对每个图像特征图中第i个特征位置处的融合特征参数进行展平处理,得到第i个特征位置处的融合特征信息;
[0050]其中,第i个特征位置处的融合特征信息包含第i个特征位置处的N个融合特征参数。
[0051]可选的,目标图像帧的数量为多个;
[0052]获取模块获取目标图像帧对应的图像特征图,包括:
[0053]生成每个目标图像帧分别对应的特征图;
[0054]对每个目标图像帧分别对应的特征图进行平均融合处理,得到图像特征图。
[005本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频数据处理方法,其特征在于,所述方法包括:从视频数据中抽取目标图像帧;获取所述目标图像帧对应的图像特征图;所述图像特征图包含所述目标图像帧的多个特征参数,每个特征参数各自对应所述图像特征图中的一个特征位置;获取所述图像特征图中每个特征位置处的位置特征嵌入参数;所述每个特征位置处的位置特征嵌入参数用于指示所述每个特征位置处的特征参数之间的关联程度;分别对所述每个特征位置处的特征参数和位置特征嵌入参数进行融合处理,得到所述每个特征位置处的融合特征信息;根据所述每个特征位置处的融合特征信息确定所述视频数据的视频类型。2.根据权利要求1所述的方法,其特征在于,所述图像特征图是调用预测网络获取得到;所述预测网络包括图像特征提取网络和类型预测网络;所述获取所述目标图像帧对应的图像特征图,包括:调用预测网络中的所述图像特征提取网络提取所述目标图像帧的图像特征,得到所述图像特征图;所述根据所述每个特征位置处的融合特征信息确定所述视频数据的视频类型,包括:调用所述预测网络中的类型预测网络根据所述每个特征位置处的融合特征信息确定所述视频数据的视频类型。3.根据权利要求2所述的方法,其特征在于,所述获取所述图像特征图中每个特征位置处的位置特征嵌入参数,包括:从所述图像特征提取网络中获取位置特征嵌入矩阵;从所述位置特征嵌入矩阵中提取所述每个特征位置处的位置特征嵌入参数。4.根据权利要求2所述的方法,其特征在于,所述预测网络还包括文本特征提取网络;所述方法还包括:获取所述视频数据的关联文本数据;调用所述文本特征提取网络提取所述关联文本数据的文本特征,得到所述关联文本数据的文本特征矩阵;所述调用所述预测网络中的类型预测网络根据所述每个特征位置处的融合特征信息确定所述视频数据的视频类型,包括:根据所述每个特征位置处的融合特征信息生成融合特征矩阵;对所述文本特征矩阵和所述融合特征矩阵进行拼接处理,得到拼接特征矩阵;调用所述类型预测网络根据所述拼接特征矩阵确定所述视频数据的视频类型。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:获取样本视频数据及所述样本视频数据的样本关联文本数据;所述样本视频数据携带视频类型标签;从所述样本视频数据中抽取样本图像帧,并调用初始预测网络中待训练的所述图像特征提取网络提取所述样本图像帧的图像特征,得到所述样本图像帧对应的样本图像特征图;调用待训练的所述图像特征提取网络根据所述样本图像特征图和初始位置特征嵌入矩阵,生成针对所述样本图像帧的样本融合特征矩阵;所述初始位置特征嵌入矩阵是根据
所述每个特征位置得到;调用所述初始预测网络中待训练的所述文本特征提取网络提取所述样本关联文本数据的文本特征,得到所述样本关联文本数据的样本文本特征矩阵;根据所述样本融合特征矩阵和所述样本文本特征矩阵预测所述样本视频数据的视频类型;根据所预测的所述样本视频数据的视频类型及所述视频类型标签所指示的所述样本视频数据的实际视频类型更新所述初始预测网络的网络参数,得到所述预测网络;所述初始位置特征嵌入矩阵属于所述初始预测网络的网络参数;其中,所述预测网络包括位置特征嵌入矩阵,所述位置特征嵌入矩阵是更新后的初始位置特征嵌入矩阵,所述位置特征嵌入矩阵包括所述每个特征位置处的位置特征嵌入参数。6.根据权利要求5所述的方法,其特征在于,所述初始位置特征嵌入矩阵包括所述每个特征位置处的初始位置嵌入参数;所述方法还包括:对...

【专利技术属性】
技术研发人员:文伟王超群
申请(专利权)人:腾讯科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1