视频特征提取方法、装置、设备及计算机存储介质制造方法及图纸

技术编号:32896310 阅读:14 留言:0更新日期:2022-04-07 11:44
本申请公开了一种视频特征提取方法、装置、设备及计算机存储介质,属于视频处理技术领域,该方法在视频特征提取模型的训练时,采用样本视频发布时添加的话题标签作为真实视频标签,则不需要进行人工标注,避免了人工标注带来的出错率高的问题,提升训练得到的模型的准确率,并且模型训练的效率更高。并且,样本视频发布时添加的话题标签通常是与该视频内容紧密相关的,因而更能够准确表达视频语义,且与实际的视频应用场景更为贴合,从而不仅能够使得的训练得到的模型能够准确表达视频的语义内容,还能够更加符合实际的视频应用场景。景。景。

【技术实现步骤摘要】
视频特征提取方法、装置、设备及计算机存储介质


[0001]本申请涉及计算机
,尤其涉及视频处理
,提供一种视频特征提取方法、装置、设备及计算机存储介质。

技术介绍

[0002]视频是目前网络中获取信息的重要途径,以短视频为例,短视频作为时下信息流产品中极为重要的内容载体,对短视频进行全面准确的内容理解,是实现对于短视频的检索、聚类、推荐或者搜索等功能的前提。视频内容理解除了常见的视频分类、标签等基础特征以外,还包括将视频转化为一串具有语意信息的数字特征,如何全面准确的刻画视频内容特征是内容理解中最具挑战性的问题。
[0003]相关技术中的视频特征提取方案中,通常是采用有监督学习的方式进行模型学习,进而利用获得的模型进行特征提取。但是,有监督学习方案需要事先人工针对每个样本进行标签标注,而样本数量一般量级很大,人工标注不但耗时长且容易出错,使得训练得到的模型准确率并不高。

技术实现思路

[0004]本申请实施例提供一种视频特征提取方法、装置、设备及计算机存储介质,通过视频发布时添加的话题标签行模型训练,无需人工标注,避免了人工标注带来的出错率高的问题,提升训练得到的模型的准确率。
[0005]一方面,提供一种视频特征提取方法,所述方法包括:
[0006]针对待处理的目标视频,获取所述目标视频包括的多个视频帧的目标图像特征信息,以及获取所述目标视频关联的目标文本信息;
[0007]将所述文本信息和所述图像特征信息,输入至已训练的视频特征提取模型中,获得所述目标视频的目标视频特征向量;
[0008]其中,所述已训练的视频特征提取模型是基于各个样本视频各自对应的样本视频特征向量获得的预测视频标签,以及相应的真实视频标签进行训练获得的;每个样本视频特征向量是基于相应的样本视频的样本文本信息和样本图像特征信息获得的,每个样本视频的真实视频标签是基于样本视频发布时添加的话题标签获得的。
[0009]一方面,提供一种视频特征提取装置,所述装置包括:
[0010]数据预处理单元,用于针对待处理的目标视频,获取所述目标视频包括的多个视频帧的目标图像特征信息,以及获取所述目标视频关联的目标文本信息;
[0011]特征提取单元,用于将所述目标文本信息和所述目标图像特征信息,输入至已训练的视频特征提取模型中,获得所述目标视频的目标视频特征向量;
[0012]其中,所述已训练的视频特征提取模型是基于各个样本视频各自对应的样本视频特征向量获得的预测视频标签,以及相应的真实视频标签进行训练获得的;每个样本视频特征向量是基于相应的样本视频的样本文本信息和样本图像特征信息获得的,每个样本视
频的真实视频标签是基于样本视频发布时添加的话题标签获得的。
[0013]可选的,所述数据预处理单元,具体用于:
[0014]分别对所述多个视频帧进行图像特征提取,获得所述多个视频帧各自对应的目标图像特征信息;以及,
[0015]采用如下方式中的一种或者多种的组合,获取所述目标文本信息:
[0016]从所述目标视频的标题中,提取所述标题中包含的目标文本信息;
[0017]采用图像文本识别方法,提取所述目标视频包括的各个视频帧包含的目标文本信息;
[0018]采用语音文本识别方法,提取所述目标视频包括的音频数据包含的目标文本信息。
[0019]可选的,所述特征提取单元,具体用于:
[0020]对所述目标文本信息包括的各个字符进行向量化处理,获得所述各个字符各自对应的字符特征向量;
[0021]基于所述多个视频帧各自对应的目标图像特征信息,获得所述多个视频帧各自对应的图像特征向量;
[0022]将获得的各个字符特征向量和图像特征向量进行级联处理,获得目标特征向量序列;
[0023]采用序列化特征提取方法,对所述目标特征向量序列进行特征提取,获得所述目标视频特征向量。
[0024]可选的,所述特征提取单元,具体用于:
[0025]针对所述目标文本信息包括的各个文本句子,分别执行如下操作:
[0026]针对一个文本句子包括的多个字符,从预设的字符编码字典中,获取所述多个字符各自对应的内容特征向量;
[0027]分别基于所述多个字符在所述一个文本句子中的位置,获得所述多个字符各自对应的位置特征向量;
[0028]基于所述一个文本句子的数据类型,获得所述多个字符各自对应的类型特征向量;其中,所述数据类型包括所述标题文本、图像文本和语音文本;
[0029]根据所述多个字符各自对应的内容特征向量、位置特征向量和类型特征向量,获得所述多个字符各自对应的字符特征向量。
[0030]可选的,所述特征提取单元,具体用于:
[0031]将所述各个字符中每个文本句子包括的多个字符的字符特征向量进行级联处理,获得每个文本句子的句子特征向量;其中,所述句子特征向量包括用于指示文本句子的起始位置的句首标记;
[0032]将各个文本句子的句子特征向量进行级联处理,获得句子特征向量序列;其中,所述句子特征向量序列中不同文本类型的文本句子之间添加有类型分隔标记;
[0033]对所述句子特征向量序列和各个图像特征向量进行级联处理,获得所述目标特征向量序列。
[0034]可选的,所述特征提取单元,具体用于:
[0035]针对所述多个视频帧,分别执行如下操作:
[0036]针对一个视频帧,根据所述一个视频帧的目标图像特征信息,获得所述一个视频帧的内容特征向量;
[0037]基于所述一个视频帧在所述目标视频中的位置,获得所述一个视频帧的位置特征向量;
[0038]基于所述一个视频帧的数据类型,获得所述一个视频帧的类型特征向量;其中,所述数据类型包括视频图像类型;
[0039]根据所述一个视频帧的内容特征向量、位置特征向量和类型特征向量,获得所述一个视频帧的图像特征向量。
[0040]可选的,每个样本视频的真实视频标签包括话题标签和序号标签,一个序号标签唯一对应一个样本视频,且所述装置还包括模型训练单元,用于:
[0041]采用多次迭代训练的方式,训练得到所述已训练的视频特征提取模型,在每一次迭代训练时,包括如下操作:
[0042]分别基于本轮输入的各个样本视频各自对应的样本文本信息和样本图像特征信息,获得所述各个样本视频各自对应的样本视频特征向量;
[0043]针对获得的各个样本视频特征向量,分别执行如下操作:
[0044]针对一个样本视频特征向量,基于所述一个样本视频特征向量进行多标签分类处理,获取所述一个样本视频特征向量对应的样本视频的话题标签特征向量;其中,所述话题标签特征向量包括多个第一指示位,一个第一指示位对应所有话题标签中的一种,且每个第一指示位上的取值用于
[0045]表征所述样本视频是否具有相应话题标签;
[0046]基于所述一个样本视频特征向量进行特征映射本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频特征提取方法,其特征在于,所述方法包括:针对待处理的目标视频,获取所述目标视频包括的多个视频帧的目标图像特征信息,以及获取所述目标视频关联的目标文本信息;将所述目标文本信息和所述目标图像特征信息,输入至已训练的视频特征提取模型中,获得所述目标视频的目标视频特征向量;其中,所述已训练的视频特征提取模型是基于各个样本视频各自对应的样本视频特征向量获得的预测视频标签,以及相应的真实视频标签进行训练获得的;每个样本视频特征向量是基于相应的样本视频的样本文本信息和样本图像特征信息获得的,每个样本视频的真实视频标签是基于样本视频发布时添加的话题标签获得的。2.如权利要求1所述的方法,其特征在于,针对待处理的目标视频,获取所述目标视频包括的多个视频帧的目标图像特征信息,以及获取所述目标视频关联的目标文本信息,包括:分别对所述多个视频帧进行图像特征提取,获得所述多个视频帧各自对应的目标图像特征信息;以及,采用如下方式中的一种或者多种的组合,获取所述目标文本信息:从所述目标视频的标题中,提取所述标题中包含的目标文本信息;采用图像文本识别方法,提取所述目标视频包括的各个视频帧包含的目标文本信息;采用语音文本识别方法,提取所述目标视频包括的音频数据包含的目标文本信息。3.如权利要求1所述的方法,其特征在于,将所述目标文本信息和所述目标图像特征信息,输入至已训练的视频特征提取模型中,获得所述目标视频的目标视频特征向量,包括:对所述目标文本信息包括的各个字符进行向量化处理,获得所述各个字符各自对应的字符特征向量;基于所述多个视频帧各自对应的目标图像特征信息,获得所述多个视频帧各自对应的图像特征向量;将获得的各个字符特征向量和图像特征向量进行级联处理,获得目标特征向量序列;采用序列化特征提取方法,对所述目标特征向量序列进行特征提取,获得所述目标视频特征向量。4.如权利要求3所述的方法,其特征在于,所述对所述目标文本信息包括的各个字符进行向量化处理,获得所述各个字符各自对应的字符特征向量,包括:针对所述目标文本信息包括的各个文本句子,分别执行如下操作:针对一个文本句子包括的多个字符,从预设的字符编码字典中,获取所述多个字符各自对应的内容特征向量;分别基于所述多个字符在所述一个文本句子中的位置,获得所述多个字符各自对应的位置特征向量;基于所述一个文本句子的数据类型,获得所述多个字符各自对应的类型特征向量;其中,所述数据类型包括所述标题文本、图像文本和语音文本;根据所述多个字符各自对应的内容特征向量、位置特征向量和类型特征向量,获得所述多个字符各自对应的字符特征向量。5.如权利要求4所述的方法,其特征在于,将获得的各个字符特征向量和图像特征向量
进行级联处理,获得目标特征向量序列,包括:将所述各个字符中每个文本句子包括的多个字符的字符特征向量进行级联处理,获得每个文本句子的句子特征向量;其中,所述句子特征向量包括用于指示文本句子的起始位置的句首标记;将各个文本句子的句子特征向量进行级联处理,获得句子特征向量序列;其中,所述句子特征向量序列中不同文本类型的文本句子之间添加有类型分隔标记;对所述句子特征向量序列和各个图像特征向量进行级联处理,获得所述目标特征向量序列。6.如权利要求3所述的方法,其特征在于,基于所述多个视频帧各自对应的目标图像特征信息,获得所述多个视频帧各自对应的图像特征向量,包括:针对所述多个视频帧,分别执行如下操作:针对一个视频帧,根据所述一个视频帧的目标图像特征信息,获得所述一个视频帧的内容特征向量;基于所述一个视频帧在所述目标视频中的位置,获得所述一个视频帧的位置特征向量;基于所述一个视频帧的数据类型,获得所述一个视频帧的类型特征向量;其中,所述数据类型包括视频图像类型;根据所述一个视频帧的内容特征向量、位置特征向量和类型特征向量,获得所述一个视频帧的图像特征向量。7.如权利要求1所述的方法,其特征在于,每个样本视频的真实视频标签包括话题标签和序号标签,一个序号标签唯一对应一个样本视频,则所述已训练的视频特征提取模型是通过如下训练过程训练得到的:采用多次迭代训练的方式,训练得到所述已训练的视频特征提取模型;其中,在每一次迭代训练时,执行如下操作:分别基于本轮输入的各个样本视频各自对应...

【专利技术属性】
技术研发人员:徐鹏飞
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1