视频数据处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：37037458 阅读：18 留言：0更新日期：2023-03-29 19:17

本申请公开了一种视频数据处理方法、装置、计算机设备和存储介质，该方法包括：从视频数据中抽取目标图像帧；获取目标图像帧对应的图像特征图；图像特征图包含目标图像帧的多个特征参数，每个特征参数各自对应图像特征图中的一个特征位置；获取图像特征图中每个特征位置处的位置特征嵌入参数；每个特征位置处的位置特征嵌入参数用于指示每个特征位置处的特征参数之间的关联程度；分别对每个特征位置处的特征参数和位置特征嵌入参数进行融合处理，得到每个特征位置处的融合特征信息；根据每个特征位置处的融合特征信息确定视频数据的视频类型。采用本申请，可提高所确定的视频数据的视频类型的准确性。的视频类型的准确性。的视频类型的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
视频数据处理方法、装置、计算机设备和存储介质

[0001]本申请涉及视频数据处理的
，尤其涉及一种视频数据处理方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着大量视频应用的涌现，对视频数据进行处理的手段也越来越丰富，其中，就包括对视频数据进行分类的处理，以通过所分类的视频数据向用户推送其所感兴趣类型的视频数据。
[0003]现有应用中，通常是由用户在上传视频数据时，就为所上传的视频数据选择类型标签，或者是在用户上传视频数据后，由后台的技术人员手动地为视频数据添加类型标签，这不仅耗费大量人力，而且对视频进行分类的标准也并不统一，导致对视频的分类并不准确。

技术实现思路

[0004]本申请提供了一种视频数据处理方法、装置、计算机设备和存储介质，可提高所确定的视频数据的视频类型的准确性。
[0005]本申请一方面提供了一种视频数据处理方法，该方法包括：
[0006]从视频数据中抽取目标图像帧；
[0007]获取目标图像帧对应的图像特征图；图像特征图包含目标图像帧的多个特征参数，每个特征参数各自对应图像特征图中的一个特征位置；
[0008]获取图像特征图中每个特征位置处的位置特征嵌入参数；每个特征位置处的位置特征嵌入参数用于指示每个特征位置处的特征参数之间的关联程度；
[0009]分别对每个特征位置处的特征参数和位置特征嵌入参数进行融合处理，得到每个特征位置处的融合特征信息；
[0010]根据每个特征位置处的融合特征信息确定视频数据的...

【技术保护点】

【技术特征摘要】
1.一种视频数据处理方法，其特征在于，所述方法包括：从视频数据中抽取目标图像帧；获取所述目标图像帧对应的图像特征图；所述图像特征图包含所述目标图像帧的多个特征参数，每个特征参数各自对应所述图像特征图中的一个特征位置；获取所述图像特征图中每个特征位置处的位置特征嵌入参数；所述每个特征位置处的位置特征嵌入参数用于指示所述每个特征位置处的特征参数之间的关联程度；分别对所述每个特征位置处的特征参数和位置特征嵌入参数进行融合处理，得到所述每个特征位置处的融合特征信息；根据所述每个特征位置处的融合特征信息确定所述视频数据的视频类型。2.根据权利要求1所述的方法，其特征在于，所述图像特征图是调用预测网络获取得到；所述预测网络包括图像特征提取网络和类型预测网络；所述获取所述目标图像帧对应的图像特征图，包括：调用预测网络中的所述图像特征提取网络提取所述目标图像帧的图像特征，得到所述图像特征图；所述根据所述每个特征位置处的融合特征信息确定所述视频数据的视频类型，包括：调用所述预测网络中的类型预测网络根据所述每个特征位置处的融合特征信息确定所述视频数据的视频类型。3.根据权利要求2所述的方法，其特征在于，所述获取所述图像特征图中每个特征位置处的位置特征嵌入参数，包括：从所述图像特征提取网络中获取位置特征嵌入矩阵；从所述位置特征嵌入矩阵中提取所述每个特征位置处的位置特征嵌入参数。4.根据权利要求2所述的方法，其特征在于，所述预测网络还包括文本特征提取网络；所述方法还包括：获取所述视频数据的关联文本数据；调用所述文本特征提取网络提取所述关联文本数据的文本特征，得到所述关联文本数据的文本特征矩阵；所述调用所述预测网络中的类型预测网络根据所述每个特征位置处的融合特征信息确定所述视频数据的视频类型，包括：根据所述每个特征位置处的融合特征信息生成融合特征矩阵；对所述文本特征矩阵和所述融合特征矩阵进行拼接处理，得到拼接特征矩阵；调用所述类型预测网络根据所述拼接特征矩阵确定所述视频数据的视频类型。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：获取样本视频数据及所述样本视频数据的样本关联文本数据；所述样本视频数据携带视频类型标签；从所述样本视频数据中抽取样本图像帧，并调用初始预测网络中待训练的所述图像特征提取网络提取所述样本图像帧的图像特征，得到所述样本图像帧对应的样本图像特征图；调用待训练的所述图像特征提取网络根据所述样本图像特征图和初始位置特征嵌入矩阵，生成针对所述样本图像帧的样本融合特征矩阵；所述初始位置特征嵌入矩阵是根据
所述每个特征位置得到；调用所述初始预测网络中待训练的所述文本特征提取网络提取所述样本关联文本数据的文本特征，得到所述样本关联文本数据的样本文本特征矩阵；根据所述样本融合特征矩阵和所述样本文本特征矩阵预测所述样本视频数据的视频类型；根据所预测的所述样本视频数据的视频类型及所述视频类型标签所指示的所述样本视频数据的实际视频类型更新所述初始预测网络的网络参数，得到所述预测网络；所述初始位置特征嵌入矩阵属于所述初始预测网络的网络参数；其中，所述预测网络包括位置特征嵌入矩阵，所述位置特征嵌入矩阵是更新后的初始位置特征嵌入矩阵，所述位置特征嵌入矩阵包括所述每个特征位置处的位置特征嵌入参数。6.根据权利要求5所述的方法，其特征在于，所述初始位置特征嵌入矩阵包括所述每个特征位置处的初始位置嵌入参数；所述方法还包括：对...

【专利技术属性】
技术研发人员：文伟，王超群，
申请(专利权)人：腾讯科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人