视频处理及模型训练方法、装置、设备和存储介质制造方法及图纸

技术编号:37703088 阅读:7 留言:0更新日期:2023-06-01 23:50
本公开提供了一种视频处理及模型训练方法、装置、设备和存储介质,涉及人工智能技术领域,具体涉及视频处理、深度学习、计算机视觉等技术领域。视频处理方法包括:将视频切分为至少一个视频片段;针对所述至少一个视频片段中的目标视频片段,提取所述目标视频片段的视频表示特征;以及,基于所述目标视频片段的视频表示特征,确定所述目标视频片段的多个子评价信息中的各个子评价信息;针对所述目标视频片段,基于所述目标视频片段的所述各个子评价信息,确定所述目标视频片段的总评价信息;基于所述目标视频片段的总评价信息,确定视频封面。本公开可以低成本且高效率地获得效果较好的视频封面。的视频封面。的视频封面。

【技术实现步骤摘要】
视频处理及模型训练方法、装置、设备和存储介质


[0001]本公开涉及人工智能
,具体涉及视频处理、深度学习、计算机视觉等
,尤其涉及一种视频处理及模型训练方法、装置、设备和存储介质。

技术介绍

[0002]随着智能设备和短视频技术的发展,可以在视频中选择一个视频片段作为封面,由于该封面是视频片段,可以称为视频封面。
[0003]需要解决如何获得效果更好的视频封面的问题。

技术实现思路

[0004]本公开提供了一种视频处理及模型训练方法、装置、设备和存储介质。
[0005]根据本公开的一方面,提供了一种视频处理方法,包括:将视频切分为至少一个视频片段;针对所述至少一个视频片段中的目标视频片段,提取所述目标视频片段的视频表示特征;以及,基于所述目标视频片段的视频表示特征,确定所述目标视频片段的多个子评价信息中的各个子评价信息;针对所述目标视频片段,基于所述目标视频片段的所述各个子评价信息,确定所述目标视频片段的总评价信息;基于所述目标视频片段的总评价信息,确定视频封面。
[0006]根据本公开的另一方面,提供了一种视频处理模型的训练方法,所述模型包括:特征提取网络和多个分支网络,所述方法包括:将视频样本切分为至少一个视频片段;针对所述至少一个视频片段中的目标视频片段,采用所述特征提取网络,提取所述目标视频片段的视频表示特征;以及,采用所述多个分支网络中的各个分支网络,基于所述目标视频片段的视频表示特征,确定所述目标视频片段的多个预测信息中的各个预测信息;基于所述各个预测信息及其对应的各个真实信息,构建损失函数;基于所述损失函数,调整所述特征提取网络的模型参数和所述各个分支网络的模型参数中的至少一项,直至满足预设条件。
[0007]根据本公开的另一方面,提供了一种视频处理装置,包括:切分模块,用于将视频切分为至少一个视频片段;第一确定模块,用于针对所述至少一个视频片段中的目标视频片段,提取所述目标视频片段的视频表示特征;以及,基于所述目标视频片段的视频表示特征,确定所述目标视频片段的多个子评价信息中的各个子评价信息;第二确定模块,用于针对所述目标视频片段,基于所述目标视频片段的所述各个子评价信息,确定所述目标视频片段的总评价信息;第三确定模块,用于基于所述目标视频片段的总评价信息,确定视频封面。
[0008]根据本公开的另一方面,提供了一种视频处理模型的训练装置,所述模型包括:特征提取网络和多个分支网络,所述方法包括:切分模块,用于将视频样本切分为至少一个视频片段;预测模块,用于针对所述至少一个视频片段中的目标视频片段,采用所述特征提取网络,提取所述目标视频片段的视频表示特征;以及,采用所述多个分支网络中的各个分支网络,基于所述目标视频片段的视频表示特征,确定所述目标视频片段的多个预测信息中
的各个预测信息;构建模块,用于基于所述各个预测信息及其对应的各个真实信息,构建损失函数;调整模块,用于基于所述损失函数,调整所述特征提取网络的模型参数和所述各个分支网络的模型参数中的至少一项,直至满足预设条件。
[0009]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
[0010]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
[0011]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
[0012]根据本公开的技术方案,可以低成本且高效率地获得效果较好的视频封面。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0015]图1是根据本公开第一实施例的示意图;
[0016]图2是本公开实施例对应的应用场景的示意图;
[0017]图3是根据本公开实施例提供的基于视频确定视频封面的整体框架的示意图;
[0018]图4是根据本公开实施例提供的pptsm双分支模型的示意图;
[0019]图5是根据本公开实施例提供的pptsm双分支模型中的特征提取网络和分支网络的示意图;
[0020]图6是根据本公开第二实施例的示意图;
[0021]图7是根据本公开第三实施例的示意图;
[0022]图8是根据本公开第四实施例的示意图;
[0023]图9是根据本公开第五实施例的示意图;
[0024]图10是用来实现本公开实施例的视频处理方法或视频处理模型的训练方法的电子设备的示意图。
具体实施方式
[0025]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0026]针对视频封面,可以结合多种评价信息评价其效果,多种评价信息例如包括:质量、重复度等。识别每种评价信息可以称为一个任务。
[0027]相关技术中,可以针对每个任务分别训练一个模型,例如,针对上述的质量和重复
度分别训练一个模型,采用两个模型分别获得质量分数和重复度分数,进而基于这两个分数获得总分数,基于总分数获得视频封面。
[0028]但是,针对每个任务分别训练一个模型的方式,成本高、效率差。
[0029]图1是根据本公开第一实施例的示意图,本实施例提供一种视频处理方法,该方法包括:
[0030]101、将视频切分为至少一个视频片段。
[0031]102、针对所述至少一个视频片段中的目标视频片段,提取所述目标视频片段的视频表示特征;以及,基于所述目标视频片段的视频表示特征,确定所述目标视频片段的多个子评价信息中的各个子评价信息。
[0032]103、针对所述目标视频片段,基于所述目标视频片段的所述各个子评价信息,确定所述目标视频片段的总评价信息。
[0033]104、基于所述目标视频片段的总评价信息,确定视频封面。
[0034]其中,视频中包括多帧图像,可以将视频包括的多帧图像划分为至少一个分组,每个分组中包括至少一帧图像,每个分组的图像组成一个视频片段。
[0035]将多帧图像划分为至少一个分组时,可以是基于预设个数,例如,可以设置每个分组包括预设个数的图像。或者,也可以采用预先训练的深度神本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,包括:将视频切分为至少一个视频片段;针对所述至少一个视频片段中的目标视频片段,提取所述目标视频片段的视频表示特征;以及,基于所述目标视频片段的视频表示特征,确定所述目标视频片段的多个子评价信息中的各个子评价信息;针对所述目标视频片段,基于所述目标视频片段的所述各个子评价信息,确定所述目标视频片段的总评价信息;基于所述目标视频片段的总评价信息,确定视频封面。2.根据权利要求1所述的方法,其中,所述将视频切分为至少一个视频片段,包括:采用镜头切分网络,对所述视频进行切分处理,以获得所述至少一个视频片段,其中,视频片段包括同一个镜头下的预设帧数的图像。3.根据权利要求1或2所述的方法,其中,所述提取所述目标视频片段的视频表示特征;以及,基于所述目标视频片段的视频表示特征,确定所述目标视频片段的多个子评价信息中的各个子评价信息,包括:采用视频处理模型的特征提取网络,提取所述目标视频片段的视频表示特征;采用所述视频处理模型的多个分支网络中的各个分支网络,基于所述目标视频片段的视频表示特征,确定所述目标视频片段的所述各个子评价信息。4.根据权利要求3所述的方法,其中,所述多个子评价信息包括:视频质量分数和出镜率分数;所述多个分支网络包括:第一分支网络和第二分支网络;所述采用所述视频处理模型的多个分支网络中的各个分支网络,基于所述目标视频片段的视频表示特征,确定所述目标视频片段的所述各个子评价信息,包括:采用所述第一分支网络,基于所述目标视频片段的视频表示特征,确定所述目标视频片段的视频质量分数;采用所述第二分支网络,基于所述目标视频片段的视频表示特征,确定所述目标视频片段的视频分类特征;以及,基于所述目标视频片段的视频分类特征,确定所述目标视频片段的出镜率分数。5.根据权利要求4所述的方法,其中,所述基于所述目标视频片段的视频分类特征,确定所述目标视频片段的出镜率分数,包括:基于所述视频分类特征,对所述目标视频片段进行聚类处理,以获得至少一个聚类簇;针对所述至少一个聚类簇中的目标聚类簇内,基于所述目标聚类簇对应的镜头数,确定所述目标视频片段的出镜率分数。6.根据权利要求5所述的方法,其中,所述总评价信息是总分数,所述总分数基于所述视频质量分数和所述出镜率分数获得;所述基于所述目标视频片段的总评价信息,确定视频封面,包括:针对所述目标聚类簇,基于所述目标聚类簇包括的目标视频片段的总分数,确定所述目标聚类簇对应的视频封面。7.一种视频处理模型的训练方法,所述模型包括:特征提取网络和多个分支网络,所述
方法包括:将视频样本切分为至少一个视频片段;针对所述至少一个视频片段中的目标视频片段,采用所述特征提取网络,提取所述目标视频片段的视频表示特征;以及,采用所述多个分支网络中的各个分支网络,基于所述目标视频片段的视频表示特征,确定所述目标视频片段的多个预测信息中的各个预测信息;基于所述各个预测信息及其对应的各个真实信息,构建损失函数;基于所述损失函数,调整所述特征提取网络的模型参数和所述各个分支网络的模型参数中的至少一项,直至满足预设条件。8.根据权利要求7所述的方法,其中,所述将视频样本切分为至少一个视频片段,包括:采用镜头切分网络,对所述视频样本进行切分处理,以获得所述至少一个视频片段,其中,视频片段包括同一个镜头下的预设帧数的图像。9.根据权利要求7或8所述的方法,其中,所述多个预测信息包括:预测视频质量分数和预测视频分类特征;所述多个分支网络包括:第一分支网络和第二分支网络;所述采用所述多个分支网络中的各个分支网络,基于所述目标视频片段的视频表示特征,确定所述目标视频片段的多个预测信息中的各个预测信息,包括:采用所述第一分支网络,基于所述目标视频片段的视频表示特征,确定所述目标视频片段的预测视频质量分数;采用所述第二分支网络,基于所述目标视频片段的视频表示特征,确定所述目标视频片段的预测视频分类特征。10.一种视频处理装置,包括:切分模块,用于将视频切分为至少一个视频片段;第一确定模块,用于针对所述至少一个视频片段中的目标视频片段,提取所述目标视...

【专利技术属性】
技术研发人员:陈波王冠皓唐鑫
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1