视频处理方法、机器学习模型训练方法及相关装置、设备制造方法及图纸

技术编号:33294289 阅读:14 留言:0更新日期:2022-05-01 00:20
本申请实施例公开了一种视频处理方法、机器学习模型训练方法及相关装置、设备,该方法涉及人工智能,该方法包括:从待处理视频中提取特征,得到视频特征向量;从待处理文本提取特征,得到文本特征向量;待处理文本与待处理视频相对应;将文本特征向量与视频特征向量进行拼接,得到多模态特征向量;将多模态特征向量进行特征融合,得到融合特征向量;基于融合特征向量对待处理视频进行分类,得到待处理视频的标签。该方法可以提高视频信息和文本信息的融合程度,使得两者相互补充,提高视频的标签识别的准确度,以便于更好地理解视频的主题。题。题。

【技术实现步骤摘要】
视频处理方法、机器学习模型训练方法及相关装置、设备


[0001]本申请涉及人工智能
,尤其涉及一种视频处理方法、机器学习模型训练方法及相关装置、设备。

技术介绍

[0002]近年来,一种视频化信息流形式风靡全球,相比于以文本进行信息传播的传统方式,视频化信息流具有信息量更丰富、浏览方式更便捷且更具冲击力等优势。
[0003]一般,视频的来源除了专业视频编辑人员外,更多来自于自媒体,例如快手、抖音等日常小视频上经常进行视频发布的各大主播。与文本信息相比,自媒体发布的小视频内容更丰富、形式更多样,因此,如何采用一种有效的方式理解视频的主题就成为了一个技术的难点。对于小视频,我们希望通过一系列标签(tags)来对视频信息进行概括,以便于定位视频的主题,从而有助于上层业务方完成视频内容的分发。
[0004]对于小视频标签的标注,大家往往会分别从文本的角度或者视觉的角度来对小视频进行标签标注。然而,仅仅依赖视觉信息或者文本信息对小视频进行标签标注,存在标注不准确的问题。

技术实现思路

[0005]本申请实施例提供了一种视频处理方法、机器学习模型训练方法及相关装置、设备,可以提高视频信息和文本信息的融合程度,使得两者相互补充,提高视频的标签识别的准确度,以便于更好地理解视频的主题。
[0006]本申请实施例第一方面公开了一种视频处理方法,所述方法包括:从待处理视频中提取特征,得到视频特征向量;从待处理文本提取特征,得到文本特征向量;所述待处理文本与所述待处理视频相对应;将所述文本特征向量与所述视频特征向量进行拼接,得到多模态特征向量;将所述多模态特征向量进行特征融合,得到融合特征向量;基于所述融合特征向量对所述待处理视频进行分类,得到所述待处理视频的标签。
[0007]通过该方法,服务器可以更好的融合视频信息和文本信息,使得两者相互补充,提高视频的标签识别的准确度,以便于更好地理解视频的主题。其中,利用文本信息可以有效地将模型识别从感知层面提升到认知层面,从而得到与视频主题最相关的标签。
[0008]结合第一方面,在一种可能的实现中,所述待处理视频包括N张图像,所述视频特征向量包括N个图像特征向量,所述N个图像特征向量与所述N张图像一一对应,N为正整数;所述从待处理视频中提取特征,得到视频特征向量,包括:
[0009]从所述N张图像中分别提取特征,得到所述N个图像特征向量。
[0010]结合第一方面,在一种可能的实现中,所述将所述文本特征向量与所述视频特征向量进行拼接,得到多模态特征向量,包括:
[0011]将所述N个图像特征向量分别依次与所述文本特征向量进行拼接,所述多模态特征向量一行或一列包括一个图像特征向量和所述文本特征向量。
[0012]结合第一方面,在另一种可能的实现中,所述待处理文本包括多条文本,所述从待处理文本提取特征,得到文本特征向量,还包括:从所述多条文本中分别提取的特征,得到多个文本特征向量,所述文本特征向量与所述文本一一对应;
[0013]所述将所述文本特征向量与所述视频特征向量进行拼接,得到多模态特征向量,包括:
[0014]将所述N个图像特征向量中的每一个图像特征向量与所述每一个图像特征向量对应的文本特征向量进行拼接,所述多模态特征向量一行或一列包括一个图像的图像特征向量和所述一个图像对应的文本的文本特征向量。
[0015]结合第一方面,在一种可能的实现中,所述将所述多模态特征向量进行特征融合,得到融合特征向量,包括:
[0016]将所述多模态特征向量输入到融合模块,得到融合特征向量;
[0017]所述融合模块包括至少一层卷积层和与至少一层池化层;其中,
[0018]所述第一卷积层用于提取输入的数据的特征,所述池化层用于对输入的数据进行采样。
[0019]该方法通过卷积神经网络对视频特征向量和文本特征向量进行特征融合,可以有效地提高视频信息和文本信息的信息融合程度,发挥了多模态信息互补的优势,提高视频的标签识别的准确度。
[0020]结合第一方面,在一种可能的实现中,所述基于所述融合特征向量对所述待处理视频进行分类,得到所述待处理视频的标签,包括:
[0021]将所述融合特征向量输入到分类模块,得到所述待处理视频的标签;
[0022]所述分类模块包括至少一层全连接层。
[0023]结合第一方面,在一种可能的实现中,所述视频特征向量是通过第一模型提取得到的,所述文本特征向量是通过第二模型提取得到的;训练数据包括样本视频、所述样本视频对应的样本文本和所述样本视频的标签,其中:
[0024]所述第一模型、所述第二模型、所述融合模块和所述分类模块是基于所述训练数据联合训练得到的;或,所述第一模型、所述融合模块和所述分类模块是基于训练数据联合训练得到的;或,所述第二模型、所述融合模块和所述分类模块是基于训练数据联合训练得到的;或,所述融合模块和所述分类模块是基于训练数据联合训练得到的。
[0025]结合第一方面,在一种可能的实现中,所述从待处理文本提取特征,得到文本特征向量包括:
[0026]对所述待处理文本进行分词,得到所述待处理文本的多个词语;
[0027]将所述多个词语分别进行向量转换,得到所述多个词语分别对应的词向量;
[0028]将所述多个词语分别对应的词向量输入到第一模型,得到文本特征向量;所述第一模型用于提取输入的数据的特征。
[0029]其中,所述待检测文本包括所述待处理视频的主题信息、标题信息、字幕信息、分类信息中的至少一种。
[0030]本申请实施例第二方面公开了一种机器学习模型训练方法,所述模型包括:将样本视频输入第一模型,得到视频特征向量;
[0031]将样本文本输入第二模型,得到文本特征向量;所述待处理文本与所述待处理视
频相对应;
[0032]将所述文本特征向量与所述视频特征向量进行拼接,得到多模态特征向量;
[0033]将所述多模态特征向量输入到融合模块,得到融合特征向量;
[0034]将所述融合特征向量输入到分类模块,得到所述样本视频的预测标签;
[0035]基于所述样本视频的预测标签与标注标签之间的误差调节所述融合模块和所述分类模块的模型参数。
[0036]结合第二方面,在一种可能的实现中,所述基于所述样本视频的预测标签与标注标签之间的误差调节所述融合模块和所述分类模块的模型参数,包括:
[0037]基于所述样本视频的预测标签与标注标签之间的误差调节所述第一模型、所述第二模型、所述融合模块和所述分类模块的模型参数;
[0038]或,
[0039]基于所述样本视频的预测标签与标注标签之间的误差调节所述第一模型、所述融合模块和所述分类模块的模型参数;
[0040]或,
[0041]基于所述样本视频的预测标签与标注标签之间的误差调节所述第二模型、所述融合模块和所述分类模块的模型参数;...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,其特征在于,包括:从待处理视频中提取特征,得到视频特征向量;从待处理文本提取特征,得到文本特征向量;所述待处理文本与所述待处理视频相对应;将所述文本特征向量与所述视频特征向量进行拼接,得到多模态特征向量;将所述多模态特征向量进行特征融合,得到融合特征向量;基于所述融合特征向量对所述待处理视频进行分类,得到所述待处理视频的标签。2.根据权利要求1所述的方法,其特征在于,所述待处理视频包括N张图像,所述视频特征向量包括N个图像特征向量,所述N个图像特征向量与所述N张图像一一对应,N为正整数;所述从待处理视频中提取特征,得到视频特征向量,包括:从所述N张图像中分别提取特征,得到所述N个图像特征向量。3.根据权利要求2所述的方法,其特征在于,所述将所述文本特征向量与所述视频特征向量进行拼接,得到多模态特征向量,包括:将所述N个图像特征向量分别依次与所述文本特征向量进行拼接,所述多模态特征向量一行或一列包括一个图像特征向量和所述文本特征向量。4.根据权利要求2所述的方法,其特征在于,所述待处理文本包括多条文本,所述从待处理文本提取特征,得到文本特征向量,包括:从所述多条文本中分别提取特征,得到多个文本特征向量,所述文本特征向量与所述文本一一对应;所述将所述文本特征向量与所述视频特征向量进行拼接,得到多模态特征向量,包括:将所述N个图像特征向量中的每一个图像特征向量与所述每一个图像特征向量对应的文本特征向量进行拼接,所述多模态特征向量一行或一列包括一个图像的图像特征向量和所述一个图像对应的文本特征向量。5.根据权利要求1

4任一项所述的方法,其特征在于,所述将所述多模态特征向量进行特征融合,得到融合特征向量,包括:将所述多模态特征向量输入到融合模块,得到融合特征向量;所述融合模块包括至少一层卷积层和与至少一层池化层;其中,所述第一卷积层用于提取输入的数据的特征,所述池化层用于对输入的数据进行采样。6.根据权利要求5所述的方法,其特征在于,所述基于所述融合特征向量对所述待处理视频进行分类,得到所述待处理视频的标签,包括:将所述融合特征向量输入到分类模块,得到所述待处理视频的标签;所述分类模块包括至少一层全连接层。7.根据权利要求6所述的方法,其特征在于,所述视频特征向量是通过第一模型提取得到的,所述文本特征向量是通过第二模型提取得到的;训练数据包括样本视频、所述样本视频对应的样本文本和所述样本视频的标签,其中:所述第一模型、所述第二模型、所述融合模块和所述分类模块是基于所述训练数据联合训练得到的;或,所述第一模型、所述融合模块和所述分类模块是基于训练数据联合训练得到的;
或,所述第二模型、所述融合模块和所述分类模块是基于训练数据联合训练得到的;或,所述融合模块和所述分类模块是基于训练数据联合训练得到的。8.根据权利要求1

3任一项所述的方法,其特征在于,所述所述从待处理文本提取特征,得到文本特征向量包括:对所述待处理文本进行分词,得到所述待处理文本的多个词语;将所述多个词语分别进行向量转换,得到所述多个词语分别对应的词向量;将所述多个词语分别对应的词向量输入到第一模型,得到文本特征向...

【专利技术属性】
技术研发人员:黄剑辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1