视频裁剪方法、模型训练方法及装置制造方法及图纸

技术编号:33134429 阅读:16 留言:0更新日期:2022-04-17 00:57
本公开提供了一种用于视频裁剪方法、模型训练方法及装置,涉及视频技术领域,尤其涉及短视频技术领域。其中视频裁剪方法包括:获取针对原始视频文件的互动行为数据;根据该互动行为数据,确定原始视频文件的各个时刻点的互动热度;选取N个互动热度最高的时刻点,将选取的时刻点作为该原始视频文件的兴趣点,N为正整数;分别以各个兴趣点为基准对该原始视频文件进行裁剪,得到N个裁剪后的视频文件。本公开能够生成高质量的短视频文件。能够生成高质量的短视频文件。能够生成高质量的短视频文件。

【技术实现步骤摘要】
视频裁剪方法、模型训练方法及装置


[0001]本公开涉及视频
,尤其涉及短视频
,具体涉及一种视频裁剪方法、模型训练方法及装置。

技术介绍

[0002]随着视频技术的发展和短视频平台的普及,大量的信息都通过的短视频方式传播。如何创建或生成短视频,成为需要解决的技术问题。

技术实现思路

[0003]本公开提供了一种视频裁剪方法、模型训练方法及装置。
[0004]根据本公开的一方面,提供了一种视频裁剪方法,包括:
[0005]获取针对原始视频文件的互动行为数据;
[0006]根据所述互动行为数据,确定所述原始视频文件的各个时刻点的互动热度;
[0007]选取N个互动热度最高的时刻点,将选取的时刻点作为所述原始视频文件的兴趣点,所述N为正整数;
[0008]分别以各个所述兴趣点为基准对所述原始视频文件进行裁剪,得到N个裁剪后的视频文件。
[0009]根据本公开的另一方面,提供了一种神经网络模型的训练方法,包括:
[0010]获取多个样本数据,每个所述样本数据包括视频文件中包含兴趣点的时间范围内的互动行为数据、所述兴趣点与裁剪起点的第一时间距离标记值以及所述兴趣点与裁剪终点的第二时间距离标记值;
[0011]针对各个所述样本数据,将所述视频文件中包含兴趣点的时间范围内的互动行为数据输入初始神经网络模型,由所述初始神经网络模型输出所述兴趣点与裁剪起点之间的第一时间距离预测值、以及所述兴趣点与裁剪终点之间的第二时间距离预测值;
[0012]采用所述多个样本数据的所述第一时间距离标记值、所述第二时间距离标记值、所述第一时间距离预测值以及所述第二时间距离预测值确定损失函数;
[0013]利用所述损失函数调整所述初始神经网络模型的参数,直至所述损失函数收敛,得到训练完成的神经网络模型。
[0014]根据本公开的另一方面,提供了一种视频裁剪装置,包括:
[0015]数据获取模块,用于获取针对原始视频文件的互动行为数据;
[0016]互动热度确定模块,用于根据所述互动行为数据,确定所述原始视频文件的各个时刻点的互动热度;
[0017]选取模块,用于选取N个互动热度最高的时刻点,将选取的时刻点作为所述原始视频文件的兴趣点,所述N为正整数;
[0018]初步裁剪模块,用于分别以各个所述兴趣点为基准对所述原始视频文件进行裁剪,得到N个裁剪后的视频文件。
[0019]根据本公开的另一方面,提供了一种神经网络模型的训练装置,包括:
[0020]样本获取模块,用于获取多个样本数据,每个所述样本数据包括视频文件中包含兴趣点的时间范围内的互动行为数据、所述兴趣点与裁剪起点的第一时间距离标记值以及所述兴趣点与裁剪终点的第二时间距离标记值;
[0021]输入模块,用于针对各个所述样本数据,将所述视频文件中包含兴趣点的时间范围内的互动行为数据输入初始神经网络模型,由所述初始神经网络模型输出所述兴趣点与裁剪起点之间的第一时间距离预测值、以及所述兴趣点与裁剪终点之间的第二时间距离预测值;
[0022]损失函数确定模块,用于采用所述多个样本数据的所述第一时间距离标记值、所述第二时间距离标记值、所述第一时间距离预测值以及所述第二时间距离预测值确定损失函数;
[0023]调整模块,用于利用所述损失函数调整所述初始神经网络模型的参数,直至所述损失函数收敛,得到训练完成的神经网络模型。
[0024]根据本公开的另一方面,提供了一种电子设备,包括:
[0025]至少一个处理器;以及
[0026]与所述至少一个处理器通信连接的存储器;其中,
[0027]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。
[0028]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一项所述的方法。
[0029]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一项所述的方法。
[0030]采用本公开,能够根据用户对原始视频文件的互动行为数据确定原始视频文件中的兴趣点,并以兴趣点为基准对原始视频文件进行裁剪,得到多个裁剪后的视频文件,即短视频。由于裁剪后得到的短视频中包含了原始视频文件中用户最感兴趣的部分,因此这种方式得到的短视频质量较高,更能够符合用户的喜好,具有极高的应用价值。
[0031]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0032]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0033]图1是根据本公开一实施例的视频裁剪方法的示意性流程图;
[0034]图2是根据本公开另一实施例的视频裁剪方法的示意性流程图;
[0035]图3是根据本公开一实施例的视频裁剪方案的流程框图;
[0036]图4是根据本公开一实施例的视频裁剪方法中,确定各个时刻点互动热度的方式示意图;
[0037]图5是根据本公开一实施例的视频裁剪方法中,确定兴趣点的方式示意图;
[0038]图6是根据本公开一实施例的视频裁剪方法中,针对一个兴趣点进行视频裁剪的方式示意图;
[0039]图7是根据本公开一实施例的视频裁剪方法中使用的一种神经网络模型架构示意图;
[0040]图8是根据本公开一实施例的视频裁剪方法中,根据音量最小的点进行裁剪的方式示意图;
[0041]图9是根据本公开一实施例的视频裁剪方法中,确定弹幕对应的文本向量中的中心向量的实现方式示意图;
[0042]图10根据本公开一实施例的一种神经网络模型的训练方法的示意性流程图;
[0043]图11是根据本公开一实施例的视频裁剪装置的示意性结构图;
[0044]图12是根据本公开另一实施例的视频裁剪装置的示意性结构图;
[0045]图13是根据本公开一实施例的神经网络模型的训练装置的示意性结构图;
[0046]图14是用来实现本公开实施例的视频裁剪方法或神经网络模型的训练方法的电子设备的框图。
具体实施方式
[0047]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0048]本公开的实施例提出一种视频裁剪方法,图1是根据本公开一实施例的视频裁剪方法的示意性流程图,包括:
[0049]S110:获取针对原本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频裁剪方法,包括:获取针对原始视频文件的互动行为数据;根据所述互动行为数据,确定所述原始视频文件的各个时刻点的互动热度;选取N个互动热度最高的时刻点,将选取的时刻点作为所述原始视频文件的兴趣点,所述N为正整数;分别以各个所述兴趣点为基准对所述原始视频文件进行裁剪,得到N个裁剪后的视频文件。2.根据权利要求1所述的方法,还包括:根据所述裁剪后的视频文件中的音量信息,对所述裁剪后的视频文件进行二次裁剪。3.根据权利要求1或2所述的方法,其中,所述获取针对原始视频文件的互动行为数据,包括:从用户行为数据库中获取所述针对原始视频文件的互动行为数据;其中,所述用户行为数据库记录来自视频播放终端的多个视频文件的互动行为数据,所述多个视频文件的互动行为数据包括各个视频文件的标识、总时长、互动行为及互动行为在所述视频文件中的时刻点中的至少一项。4.根据权利要求3所述的方法,其中,所述互动行为包括收藏、分享、弹幕、评论、打赏及点赞中的至少一项。5.根据权利要求1至4中任一所述的方法,其中,所述根据所述互动行为数据,确定所述原始视频文件的各个时刻点的互动热度,包括:采用滑动窗口在所述原始视频文件的时间轴上滑动,所述滑动窗口的长度为预先设定的时间长度,所述滑动窗口滑动的步长为所述原始视频文件中相邻时刻点之间的时间距离;利用所述互动行为数据,统计所述滑动窗口滑动至各个位置时,所述滑动窗口范围内的互动行为的数量;将在所述各个位置统计得到的互动行为的数量,分别作为所述各个时刻点的互动行为的数量;利用所述各个时刻点的互动行为的数量,确定所述各个时刻点的互动热度。6.根据权利要求5所述的方法,其中,所述利用所述各个时刻点的互动行为的数量,确定所述各个时刻点的互动热度,包括:针对每个所述时刻点,确定所述时刻点的各种互动行为的数量的算术和或加权和;将所述算术和或加权和作为所述时刻点的互动热度。7.根据权利要求6所述的方法,其中,所述选取N个互动热度最高的时刻点,将选取的时刻点作为所述原始视频文件的兴趣点,包括:根据各个时刻点的互动热度确定互动热度曲线,所述互动热度曲线表征所述各个时刻点的互动热度;确定所述互动热度曲线上的多个峰值;从所述多个峰值中选取N个互动热度最高的时刻点,将选取的时刻点作为所述原始视频文件的兴趣点。8.根据权利要求7所述的方法,所述从所述多个峰值中选取N个互动热度最高的时刻点
之前,还包括:根据预先设置确定所述兴趣点的个数N。9.根据权利要求7所述的方法,所述从所述多个峰值中选取N个互动热度最高的时刻点之前,还包括:根据所述原始视频文件的长度及预定比例,确定所述兴趣点的个数N。10.根据权利要求6至9中任一所述的方法,其中,所述分别以各个所述兴趣点为基准对所述原始视频文件进行裁剪,得到N个裁剪后的视频文件,包括:针对各个所述兴趣点,确定所述兴趣点前后的多个时刻点的互动行为的数量;将所述兴趣点前后的多个时刻点的互动行为的数量、以及所述兴趣点的互动行为的数量输入预先训练的神经网络模型,得到所述兴趣点与裁剪起点之间的第一时间距离预测值、以及所述兴趣点与裁剪终点之间的第二时间距离预测值;根据所述兴趣点、所述第一时间距离预测值和所述第二时间距离预测值,确定所述裁剪起点和所述裁剪终点;在所述裁剪起点和所述裁剪终点对所述原始视频文件进行裁剪,得到裁剪后的视频文件。11.根据权利要求10所述的方法,还包括:根据预定条件确定所述兴趣点前后的多个时刻点的范围。12.根据权利要求10或11所述的方法,其中,所述预先训练的神经网络模型包括长短期记忆网络LSTM或LSTM的相关变体。13.根据权利要求2所述的方法,其中,所述根据所述裁剪后的视频文件中的音量信息,对所述裁剪后的视频文件进行二次裁剪,包括:在所述裁剪后的视频文件的边界范围内,确定所述裁剪后的视频文件中音量最小的时刻点,在所述音量最小的时刻点对所述裁剪后的视频文件进行二次裁剪;其中,所述边界范围包括与所述裁剪后的视频文件的起点的时间距离不超过第一时间长度的范围、和/或与所述裁剪后的视频文件的终点的时间距离不超过第二范围的范围。14.根据权利要求1至13中任一所述的方法,还包括:根据所述裁剪后的视频文件中的弹幕,确定所述裁剪后的视频文件的标题。15.根据权利要求2所述的方法,还包括:根据二次裁剪后的视频文件中的弹幕,确定所述二次裁剪后的视频文件的标题。16.根据权利要求15所述的方法,其中,所述根据二次裁剪后的视频文件中的弹幕,确定所述二次裁剪后的视频文件的标题,包括:将在所述二次裁剪后的视频文件中出现的各个弹幕分别转换为对应的文本向量;针对各个所述文本向量,分别确定每个文本向量与其他各个文本向量之间的距离之和;将所述距离之和最小的文本向量对应的弹幕作为所述二次裁剪后的视频文件的标题。17.根据权利要求16所述的方法,其中,确定文本向量与其他文本向量之间的距离的方式包括:计算所述文本向量与所述其他文本向量之间的夹角余弦,将所述夹角余弦作为所述文本向量与所述其他文本向量之间的距离;或者,
计算所述文本向量与所述其他文本向量之间的欧氏距离,将所述欧氏距离作为所述文本向量与所述其他文本向量之间的距离。18.根据权利要求15所述的方法,其中,所述根据二次裁剪后的视频文件中的弹幕,确定所述二次裁剪后的视频文件的标题,包括:将所述二次裁剪后的视频文件中的各个弹幕分别进行分词处理,得到多个分词,并统计各个分词在所述二次裁剪后的视频文件的所有弹幕中出现的次数;从所述多个分词中选取出现次数最多的L个分词,作为重要分词,并根据所述重要分词出现的次数为所述重要分词设定分词分值;所述L为正整数;针对所述二次裁剪后的视频文件中的各个弹幕,确定所述弹幕中包含的重要分词,并根据重要分词的分词分值确定所述弹幕的弹幕分值;将所述弹幕...

【专利技术属性】
技术研发人员:魏承东丁杰超高睿
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1