一种样本数据生成方法、装置、设备及存储介质制造方法及图纸

技术编号:36966556 阅读:23 留言:0更新日期:2023-03-22 19:27
本公开提供了一种样本数据生成方法、装置、设备及存储介质,涉及计算机技术领域,尤其涉及视频处理、图像处理、深度学习等人工智能技术领域。具体实现方案为:利用镜头切分模型将样本视频切分为多个镜头片段,得到多个镜头边界伪标签,镜头边界伪标签用于指示样本视频中包括的镜头边界视频帧;删除以镜头边界伪标签对应的切分点为中心的第一预设数量的连续视频帧;将每个镜头片段中的最后一个视频帧作为真实镜头边界标签;将当前的样本视频和真实镜头边界标签作为用于训练目标镜头切分模型的样本数据。可以自动生成样本数据,无需人工标注。标注。标注。

【技术实现步骤摘要】
一种样本数据生成方法、装置、设备及存储介质


[0001]本公开涉及计算机
,尤其涉及视频处理、图像处理、深度学习等人工智能


技术介绍

[0002]一个完整的视频通常是由多个镜头片段组合而成的,识别出视频中包括的镜头片段后,可以基于识别结果进行很多下游任务,比如抽取高光镜头、识别视频场景以及进行视频图像去重等。

技术实现思路

[0003]本公开提供了一种样本数据生成方法、装置、设备以及存储介质。
[0004]根据本公开的第一方面,提供了一种样本数据生成方法,包括:
[0005]利用镜头切分模型将样本视频切分为多个镜头片段,得到多个镜头边界伪标签,所述镜头边界伪标签用于指示所述样本视频中包括的镜头边界视频帧;
[0006]删除以所述镜头边界伪标签对应的切分点为中心的第一预设数量的连续视频帧;
[0007]将每个镜头片段中的最后一个视频帧作为真实镜头边界标签;
[0008]将当前的样本视频和真实镜头边界标签作为用于训练目标镜头切分模型的样本数据。
[0009]根据本公开的第二方面,提供了一种样本数据生成装置,包括:
[0010]切分模块,用于利用镜头切分模型将样本视频切分为多个镜头片段,得到多个镜头边界伪标签,所述镜头边界伪标签用于指示所述样本视频中包括的镜头边界视频帧;
[0011]删除模块,用于删除以所述镜头边界伪标签对应的切分点为中心的第一预设数量的连续视频帧;
[0012]标注模块,用于将每个镜头片段中的最后一个视频帧作为真实镜头边界标签;
[0013]生成模块,用于将当前的样本视频和真实镜头边界标签作为用于训练目标镜头切分模型的样本数据。
[0014]根据本公开的第三方面,提供了一种电子设备,包括:
[0015]至少一个处理器;以及
[0016]与所述至少一个处理器通信连接的存储器;其中,
[0017]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
[0018]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法。
[0019]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面所述的方法。
[0020]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特
征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0021]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0022]图1是本公开实施例提供的训练深度学习模型的过程的示例性示意图;
[0023]图2是本公开实施例提供的一种样本数据生成方法的流程图;
[0024]图3a是本公开实施例提供的利用已有的镜头切分模型切分得到的镜头片段的示例性示意图;
[0025]图3b是本公开实施例提供的第一种对镜头片段处理后的效果的示例性示意图;
[0026]图3c是本公开实施例提供的第二种对镜头片段处理后的效果的示例性示意图;
[0027]图3d是本公开实施例提供的第三种对镜头片段处理后的效果的示例性示意图;
[0028]图4是本公开实施例提供的第四种对镜头片段处理后的效果的示例性示意图;
[0029]图5是本公开实施例提供的另一种样本数据生成方法的流程图;
[0030]图6是本公开实施例提供的一种样本数据生成装置的结构示意图;
[0031]图7是用来实现本公开实施例的样本数据生成方法的电子设备的框图。
具体实施方式
[0032]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0033]利用镜头切分模型可以识别一个视频中的镜头边界视频帧,镜头边界视频帧为一个镜头片段中的最后一个视频帧,进而基于镜头边界视频帧可以将一个视频切分为多个镜头片段。为了使得镜头切分模型能够准确地识别镜头边界视频帧,需要基于大量的标注数据对镜头切分模型进行训练。
[0034]如图1所示,图1示出了将深度学习模型训练为镜头切分模型的示例性示意图,图1中下方示出了由4个视频帧组成的视频,将这段视频输入深度学习模型后,深度学习模型可以预测每个视频帧是否为镜头边界视频帧。
[0035]在图1的示例中,0代表不是视频边界视频帧,1代表是镜头边界视频帧。
[0036]深度学习模型的预测结果为0010,即第3个视频帧对应的预测结果为1,也就是说深度学习模型将第3个视频帧预测为镜头边界视频帧。而这段视频对应的标签(也可称为标注)为0100,即实际上第2个视频帧才是镜头边界视频帧。
[0037]在得到深度学习模型的预测结果后,可以基于预测结果与标签计算损失函数值(loss),进而根据损失函数值调整深度学习模型的参数。利用大量的样本视频及标签,即可训练得到镜头切分模型。
[0038]可以看出,为了得到切分准确率较高的镜头切分模型,需要大量的样本数据。
[0039]本公开实施例提供了一种样本数据生成方法,该方法应用于电子设备如图2所示,该方法包括:
[0040]S201、利用镜头切分模型将样本视频切分为多个镜头片段,得到多个镜头边界伪
标签,镜头边界伪标签用于指示样本视频中包括的镜头边界视频帧。
[0041]本公开实施例中的样本视频可以为电视剧、电影或者其他类型的短视频或长视频。
[0042]其中,本步骤中的镜头切分模型可以为已有的任一镜头切分模型,已有的镜头切分模型可以为利用少量的样本数据训练得到的镜头切分模型,或者为能够从公开渠道获取的镜头切分模型,这些镜头切分模型的切分效果准确性不够高,本公开实施例中可以将利用这些镜头切分模型识别出的镜头边界视频帧作为镜头边界伪标签。
[0043]可以理解的是,镜头边界视频帧是上述多个镜头片段中每个镜头片段的最后一个视频帧。
[0044]作为示例,如图3a所示,图3a中每一行的最后一个视频帧为镜头切分模型预测出的镜头边界视频帧,从图3a中可以看出,实际上第二行的第一个视频帧以及第三行的第一个视频帧才是实际的镜头边界视频帧。
[0045]S202、删除以镜头边界伪标签对应的切分点为中心的第一预设数量的连续视频帧。
[0046]一种实施方式中,可以从S201中得到的多个镜头边界伪标签中随机选择至少一个镜头边界伪标签,针对所选择的每个伪标签,删除以该镜头边界伪标签对应的切分点为中心的第一预设数量的连本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本数据生成方法,包括:利用镜头切分模型将样本视频切分为多个镜头片段,得到多个镜头边界伪标签,所述镜头边界伪标签用于指示所述样本视频中包括的镜头边界视频帧;删除以所述镜头边界伪标签对应的切分点为中心的第一预设数量的连续视频帧;将每个镜头片段中的最后一个视频帧作为真实镜头边界标签;将当前的样本视频和真实镜头边界标签作为用于训练目标镜头切分模型的样本数据。2.根据权利要求1所述的方法,在所述将当前的样本视频和真实镜头边界标签作为用于训练目标镜头切分模型的样本数据之前,所述方法还包括:针对所述多个镜头片段中的任意两个相邻镜头片段,随机删除其中一个镜头片段。3.根据权利要求1或2所述的方法,在所述将当前的样本视频和真实镜头边界标签作为用于训练目标镜头切分模型的样本数据之前,所述方法还包括:对所述多个镜头片段进行随机重排序;或者,将所述样本视频平均分为多个视频段,对至少一个视频段内的镜头片段进行随机重排序;或者,基于所述多个镜头片段之间的相似度,对所述多个镜头片段进行重排序。4.根据权利要求3所述的方法,其中,所述基于所述多个镜头片段之间的相似度,对所述多个镜头片段进行重排序,包括:从所述多个镜头片段中随机选择待排序镜头片段;从所述待排序镜头片段之后的镜头片段中选择一个镜头片段,将所选择的镜头片段移动至所述待排序镜头片段之后且与所述待排序镜头片段相邻的位置;其中,所述待排序镜头片段与所选择的镜头片段之间的相似度处于预设范围内。5.根据权利要求4所述的方法,其中,镜头片段之间的相似度通过以下方式获得:分别抽取两个镜头片段中的关键帧;计算从两个镜头片段中抽取出的关键帧之间的图像相似度,将计算得到的图像相似度作为两个镜头片段之间的相似度。6.根据权利要求1所述的方法,在所述将当前的样本视频和真实镜头边界标签作为用于训练目标镜头切分模型的样本数据之前,所述方法还包括:从所述多个镜头片段中随机选择第一预设比例的镜头片段,针对所选择的每个镜头片段,对该镜头片段内包括的视频帧进行渐变处理。7.根据权利要求1或6所述的方法,在所述将当前的样本视频和真实镜头边界标签作为用于训练目标镜头切分模型的样本数据之前,所述方法还包括:从所述多个镜头片段中随机选择第二预设比例组相邻镜头片段,针对所选择的每组相邻镜头片段,对该组相邻镜头片段中,以排在前的镜头片段的最后一个视频帧为中心的第二预设数量的视频帧进行加权融合处理。8.一种样本数据生成装置,包括:切分模块,用于利用镜头切分模型将样本视频切分为多个镜头片段,得到多个镜头边界伪标签,所述镜头边界伪标签用于指示所述样本视频中包括的镜头边界视频帧;删除模块...

【专利技术属性】
技术研发人员:唐鑫王冠皓
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1