视频处理方法、装置、设备、介质及产品制造方法及图纸

技术编号:39249790 阅读:9 留言:0更新日期:2023-10-30 12:01
本申请的实施例公开了一种视频处理方法、装置、设备、介质及产品,该方法包括:获取目标视频对应的视频特征,并获取与目标视频相关联的文本信息所对应的文本特征;根据文本特征生成第一语义特征向量,并基于第一语义特征向量对视频特征进行筛选,得到与文本信息具有关联关系的目标视频特征;根据视频特征生成第二语义特征向量,并基于第二语义特征向量对文本特征进行筛选,得到与目标视频具有关联关系的目标文本特征;根据目标视频特征和目标文本特征确定文本信息与目标视频的视频内容是否一致。本申请实施例的技术方案可以提升对图文一致性确定的准确性。性确定的准确性。性确定的准确性。

【技术实现步骤摘要】
视频处理方法、装置、设备、介质及产品


[0001]本申请涉及视频处理
,具体而言,涉及一种视频处理方法、视频处理装置、电子设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]随着生活节奏的加快,网络视频越来越受到人们的关注。为了方便观众快速了解视频内容,每个视频都会配有文字信息,如标题等;然而,由于各种原因,视频存在文字信息与视频内容不一致的情况,给观众带来困扰和误解,因此亟需对视频进行图文一致性检测。

技术实现思路

[0003]为解决上述技术问题,本申请的实施例提供了一种视频处理方法、视频处理装置、电子设备、计算机可读存储介质及计算机程序产品,可以提升对图文一致性确定的准确性。
[0004]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0005]根据本申请实施例的一个方面,提供了一种视频处理方法,包括:获取目标视频对应的视频特征,并获取与所述目标视频相关联的文本信息所对应的文本特征;根据所述文本特征生成第一语义特征向量,并基于所述第一语义特征向量对所述视频特征进行筛选,得到与所述文本信息具有关联关系的目标视频特征;根据所述视频特征生成第二语义特征向量,并基于所述第二语义特征向量对所述文本特征进行筛选,得到与所述目标视频具有关联关系的目标文本特征;根据所述目标视频特征和所述目标文本特征确定所述文本信息与所述目标视频的视频内容是否一致。
[0006]根据本申请实施例的一个方面,还提供了一种视频处理装置,所述装置包括:获取模块,用于获取目标视频对应的视频特征,并获取与所述目标视频相关联的文本信息所对应的文本特征;筛选模块,用于根据所述文本特征生成第一语义特征向量,并基于所述第一语义特征向量对所述视频特征进行筛选,得到与所述文本信息具有关联关系的目标视频特征;所述筛选模块,还用于根据所述视频特征生成第二语义特征向量,并基于所述第二语义特征向量对所述文本特征进行筛选,得到与所述目标视频具有关联关系的目标文本特征;确定模块,还用于根据所述目标视频特征和所述目标文本特征确定所述文本信息与所述目标视频的视频内容是否一致。
[0007]在本申请的一实施例中,所述确定模块进一步用于对所述目标视频特征和目标文本特征进行特征融合处理,得到多模态特征;对所述多模态特征进行信息筛选处理,得到包含关键信息的目标多模态特征;根据所述目标多模态特征确定所述文本信息与所述目标视频的视频内容是否一致。
[0008]在本申请的一实施例中,所述确定模型进一步用于对所述视频特征和所述文本特征进行特征融合处理得到融合特征;根据所述融合特征生成第三语义特征向量,并基于根据所述第三语义特征向量对所述多模态特征进行信息筛选处理,得到所述目标多模态特
征。
[0009]在本申请的一实施例中,所述确定模块进一步用于对所述目标视频中的声音信息进行特征提取处理,得到目标声音特征;根据所述目标声音特征对所述多模态特征进行信息筛选处理,得到所述目标多模态特征。
[0010]在本申请的一实施例中,确定模块进一步用于从所述目标视频的声音筛选取有效声音,并根据所述有效声音的声音频域对所述有效声音进行分离处理,得到包含多种相互独立的声音源的目标声音信息;对所述目标声音信息进行特征提取,得到多个声音特征;对所述多个声音特征进行组合得到所述目标声音特征。
[0011]在本申请的一实施例中,所述确定模块进一步用于对所述目标多模态特征进行全连接映射操作,以得到指定维度的多模态特征;将所述指定维度的多模态特征输入到分类模型,得到对应的一致性概率值;根据所述一致性概率值确定所述文本信息与所述目标视频的视频内容是否一致。
[0012]在本申请的一实施例中,所述筛选模块进一步用于获取设定的参数权重矩阵和偏置向量;根据所述文本特征、所述参数权重矩阵和所述偏置向量生成门限向量;通过激活函数对所述门限向量进行映射得到所述第一语义特征向量。
[0013]在本申请的一实施例中,所述筛选模块进一步用于基于所述第一语义特征向量和所述视频特征,获取所述视频特征与所述文本信息的关联度;根据所述视频特征与所述文本信息的关联度对所述视频特征进行筛选,得到与所述文本信息具有关联关系的目标视频特征。
[0014]在本申请的一实施例中,所述筛选模块进一步用于将所述第一语义特征向量与所述视频特征进行点乘处理,得到所述视频特征对应的与所述文本信息相关联的关联度,将与所述文本信息的关联度大于预设关联度阈值的视频特征作为所述目标视频特征。
[0015]在本申请的一实施例中,所述获取模块进一步用于根据所述目标视频的视频内容从所述目标视频中提取关键帧,将所述关键帧输入至预训练的视频特征模型,以获取所述视频特征;将所述文本信息输入至预训练的文本模型,以获取所述文本特征。
[0016]在本申请的一实施例中,所述获取模块进一步用于根据所述目标视频的视频时长和帧率,计算帧提取间隔;根据所述目标视频中各个帧的图像信息计算每个帧的图像评分,所述图像信息包括图像质量、运动性和内容变化中的至少一种;根据所述图像评分和所述帧提取间隔从所述目标视频中选取所述关键帧。
[0017]在本申请的一实施例中,所述装置还包括训练模块,该训练模块用于获取样本视频对应的样本视频特征,并获取与样本视频相关联的样本文本信息所对应的文本特征,所述样本视频携带有样本标签;根据所述样本文本特征生成样本文本语义特征向量,并基于样本文本语义特征向量对所述样本视频进行筛选,得到样本目标视频特征;根据所述样本视频特征生成样本视频语义特征向量,并基于所述样本视频语义特征向量对所述文本特征进行筛选,得到样本目标文本特征;根据所述样本目标视频特征和所述样本目标文本特征对所述样本视频和所述样本文本信息进行一致性预测,得到预测结果;根据所述预测结果和所述样本标签构建损失函数,并根据所述损失函数对预训练模型的模型参数进行更新,得到所述图文一致性模型。
[0018]根据本申请实施例的一个方面,提供了一种电子设备,包括一个或多个处理器;存
储装置,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述电子设备实现如上所述的视频处理方法。
[0019]根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被电子设备的处理器执行时,使电子设备执行如上所述的视频处理方法。
[0020]根据本申请实施例的一个方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质读取并执行所述计算机程序,使得所述电子设备执行如上所述的视频处理方法。
[0021]在本申请的实施例所提供的技术方案中,获取目标视频对应的视频特征,并获取与目标视频相关联的文本信息所对应的文本特征,根据文本特征生成第一语义特征向量,并基于第一语义特征向量对视频特征进行筛选,得到与文本信息具有关联关系的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,其特征在于,包括:获取目标视频对应的视频特征,并获取与所述目标视频相关联的文本信息所对应的文本特征;根据所述文本特征生成第一语义特征向量,并基于所述第一语义特征向量对所述视频特征进行筛选,得到与所述文本信息具有关联关系的目标视频特征;根据所述视频特征生成第二语义特征向量,并基于所述第二语义特征向量对所述文本特征进行筛选,得到与所述目标视频具有关联关系的目标文本特征;根据所述目标视频特征和所述目标文本特征确定所述文本信息与所述目标视频的视频内容是否一致。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标视频特征和所述目标文本特征确定所述文本信息与所述目标视频的视频内容是否一致,包括:对所述目标视频特征和目标文本特征进行特征融合处理,得到多模态特征;对所述多模态特征进行信息筛选处理,得到包含关键信息的目标多模态特征;根据所述目标多模态特征确定所述文本信息与所述目标视频的视频内容是否一致。3.根据权利要求2所述的方法,其特征在于,所述对所述多模态特征进行信息筛选处理,得到包含关键信息的目标多模态特征,包括:对所述视频特征和所述文本特征进行特征融合处理得到融合特征;根据所述融合特征生成第三语义特征向量,并基于根据所述第三语义特征向量对所述多模态特征进行信息筛选处理,得到所述目标多模态特征。4.根据权利要求2所述的方法,其特征在于,所述对所述多模态特征进行信息筛选处理,得到包含关键信息的目标多模态特征,包括:对所述目标视频中的声音信息进行特征提取处理,得到目标声音特征;根据所述目标声音特征对所述多模态特征进行信息筛选处理,得到所述目标多模态特征。5.根据权利要求4所述的方法,其特征在于,所述对所述目标视频中的声音信息进行特征提取处理,得到目标声音特征,包括:从所述目标视频的声音筛选取有效声音,并根据所述有效声音的声音频域对所述有效声音进行分离处理,得到包含多种相互独立的声音源的目标声音信息;对所述目标声音信息进行特征提取,得到多个声音特征;对所述多个声音特征进行组合得到所述目标声音特征。6.根据权利要求2所述的方法,其特征在于,所述根据所述目标多模态特征确定所述文本信息与所述目标视频的视频内容是否一致,包括:对所述目标多模态特征进行全连接映射操作,以得到指定维度的多模态特征;将所述指定维度的多模态特征输入到分类模型,得到对应的一致性概率值;根据所述一致性概率值确定所述文本信息与所述目标视频的视频内容是否一致。7.根据权利要求1所述的方法,其特征在于,所述根据所述文本特征生成第一语义特征向量,包括:获取设定的参数权重矩阵和偏置向量;根据所述文本特征、所述参数权重矩阵和所述偏置向量生成门限向量;
通过激活函数对所述门限向量进行映射得到所述第一语义特征向量。8.根据权利要求1所述的方法,其特征在于,所述基于所述第一语义特征向量对所述视频特征进行筛选,得到与所述文本信息具有关联关系的目标视频特征,包括:基于所述第一语义特征向量和所述视频特征,获取所述视频特征与所述文本信息的关联度;根据所述视频特征与所述文本信息的关联度对所述视频特征进行筛选,得到与所述文本信息具有关联关系的目标视频特征。9.根据权利要求8所述的方法,其特征在于,所述基于所述第一语义特征向量和所述视频特征,获取所述视频特征与所述文本信息的关联度,包括:将所述第一...

【专利技术属性】
技术研发人员:黄剑辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1