视频裁剪方法、模型训练方法及装置制造方法及图纸

技术编号：33134429 阅读：26 留言：0更新日期：2022-04-17 00:57

本公开提供了一种用于视频裁剪方法、模型训练方法及装置，涉及视频技术领域，尤其涉及短视频技术领域。其中视频裁剪方法包括：获取针对原始视频文件的互动行为数据；根据该互动行为数据，确定原始视频文件的各个时刻点的互动热度；选取N个互动热度最高的时刻点，将选取的时刻点作为该原始视频文件的兴趣点，N为正整数；分别以各个兴趣点为基准对该原始视频文件进行裁剪，得到N个裁剪后的视频文件。本公开能够生成高质量的短视频文件。能够生成高质量的短视频文件。能够生成高质量的短视频文件。

全部详细技术资料下载

【技术实现步骤摘要】
视频裁剪方法、模型训练方法及装置

[0001]本公开涉及视频
，尤其涉及短视频
，具体涉及一种视频裁剪方法、模型训练方法及装置。

技术介绍

[0002]随着视频技术的发展和短视频平台的普及，大量的信息都通过的短视频方式传播。如何创建或生成短视频，成为需要解决的技术问题。

技术实现思路

[0003]本公开提供了一种视频裁剪方法、模型训练方法及装置。
[0004]根据本公开的一方面，提供了一种视频裁剪方法，包括：
[0005]获取针对原始视频文件的互动行为数据；
[0006]根据所述互动行为数据，确定所述原始视频文件的各个时刻点的互动热度；
[0007]选取N个互动热度最高的时刻点，将选取的时刻点作为所述原始视频文件的兴趣点，所述N为正整数；
[0008]分别以各个所述兴趣点为基准对所述原始视频文件进行裁剪，得到N个裁剪后的视频文件。
[0009]根据本公开的另一方面，提供了一种神经网络模型的训练方法，包括：
[0010]获取多个样本数据，每个所述样本数据包括视频文件中包含兴趣点的时间范围内的互动行为数据、所述兴趣点与裁剪起点的第一时间距离标记值以及所述兴趣点与裁剪终点的第二时间距离标记值；
[0011]针对各个所述样本数据，将所述视频文件中包含兴趣点的时间范围内的互动行为数据输入初始神经网络模型，由所述初始神经网络模型输出所述兴趣点与裁剪起点之间的第一时间距离预测值、以及所述兴趣点与裁剪终点之间的第二时间距离预测值；
[...

【技术保护点】

【技术特征摘要】
1.一种视频裁剪方法，包括：获取针对原始视频文件的互动行为数据；根据所述互动行为数据，确定所述原始视频文件的各个时刻点的互动热度；选取N个互动热度最高的时刻点，将选取的时刻点作为所述原始视频文件的兴趣点，所述N为正整数；分别以各个所述兴趣点为基准对所述原始视频文件进行裁剪，得到N个裁剪后的视频文件。2.根据权利要求1所述的方法，还包括：根据所述裁剪后的视频文件中的音量信息，对所述裁剪后的视频文件进行二次裁剪。3.根据权利要求1或2所述的方法，其中，所述获取针对原始视频文件的互动行为数据，包括：从用户行为数据库中获取所述针对原始视频文件的互动行为数据；其中，所述用户行为数据库记录来自视频播放终端的多个视频文件的互动行为数据，所述多个视频文件的互动行为数据包括各个视频文件的标识、总时长、互动行为及互动行为在所述视频文件中的时刻点中的至少一项。4.根据权利要求3所述的方法，其中，所述互动行为包括收藏、分享、弹幕、评论、打赏及点赞中的至少一项。5.根据权利要求1至4中任一所述的方法，其中，所述根据所述互动行为数据，确定所述原始视频文件的各个时刻点的互动热度，包括：采用滑动窗口在所述原始视频文件的时间轴上滑动，所述滑动窗口的长度为预先设定的时间长度，所述滑动窗口滑动的步长为所述原始视频文件中相邻时刻点之间的时间距离；利用所述互动行为数据，统计所述滑动窗口滑动至各个位置时，所述滑动窗口范围内的互动行为的数量；将在所述各个位置统计得到的互动行为的数量，分别作为所述各个时刻点的互动行为的数量；利用所述各个时刻点的互动行为的数量，确定所述各个时刻点的互动热度。6.根据权利要求5所述的方法，其中，所述利用所述各个时刻点的互动行为的数量，确定所述各个时刻点的互动热度，包括：针对每个所述时刻点，确定所述时刻点的各种互动行为的数量的算术和或加权和；将所述算术和或加权和作为所述时刻点的互动热度。7.根据权利要求6所述的方法，其中，所述选取N个互动热度最高的时刻点，将选取的时刻点作为所述原始视频文件的兴趣点，包括：根据各个时刻点的互动热度确定互动热度曲线，所述互动热度曲线表征所述各个时刻点的互动热度；确定所述互动热度曲线上的多个峰值；从所述多个峰值中选取N个互动热度最高的时刻点，将选取的时刻点作为所述原始视频文件的兴趣点。8.根据权利要求7所述的方法，所述从所述多个峰值中选取N个互动热度最高的时刻点
之前，还包括：根据预先设置确定所述兴趣点的个数N。9.根据权利要求7所述的方法，所述从所述多个峰值中选取N个互动热度最高的时刻点之前，还包括：根据所述原始视频文件的长度及预定比例，确定所述兴趣点的个数N。10.根据权利要求6至9中任一所述的方法，其中，所述分别以各个所述兴趣点为基准对所述原始视频文件进行裁剪，得到N个裁剪后的视频文件，包括：针对各个所述兴趣点，确定所述兴趣点前后的多个时刻点的互动行为的数量；将所述兴趣点前后的多个时刻点的互动行为的数量、以及所述兴趣点的互动行为的数量输入预先训练的神经网络模型，得到所述兴趣点与裁剪起点之间的第一时间距离预测值、以及所述兴趣点与裁剪终点之间的第二时间距离预测值；根据所述兴趣点、所述第一时间距离预测值和所述第二时间距离预测值，确定所述裁剪起点和所述裁剪终点；在所述裁剪起点和所述裁剪终点对所述原始视频文件进行裁剪，得到裁剪后的视频文件。11.根据权利要求10所述的方法，还包括：根据预定条件确定所述兴趣点前后的多个时刻点的范围。12.根据权利要求10或11所述的方法，其中，所述预先训练的神经网络模型包括长短期记忆网络LSTM或LSTM的相关变体。13.根据权利要求2所述的方法，其中，所述根据所述裁剪后的视频文件中的音量信息，对所述裁剪后的视频文件进行二次裁剪，包括：在所述裁剪后的视频文件的边界范围内，确定所述裁剪后的视频文件中音量最小的时刻点，在所述音量最小的时刻点对所述裁剪后的视频文件进行二次裁剪；其中，所述边界范围包括与所述裁剪后的视频文件的起点的时间距离不超过第一时间长度的范围、和/或与所述裁剪后的视频文件的终点的时间距离不超过第二范围的范围。14.根据权利要求1至13中任一所述的方法，还包括：根据所述裁剪后的视频文件中的弹幕，确定所述裁剪后的视频文件的标题。15.根据权利要求2所述的方法，还包括：根据二次裁剪后的视频文件中的弹幕，确定所述二次裁剪后的视频文件的标题。16.根据权利要求15所述的方法，其中，所述根据二次裁剪后的视频文件中的弹幕，确定所述二次裁剪后的视频文件的标题，包括：将在所述二次裁剪后的视频文件中出现的各个弹幕分别转换为对应的文本向量；针对各个所述文本向量，分别确定每个文本向量与其他各个文本向量之间的距离之和；将所述距离之和最小的文本向量对应的弹幕作为所述二次裁剪后的视频文件的标题。17.根据权利要求16所述的方法，其中，确定文本向量与其他文本向量之间的距离的方式包括：计算所述文本向量与所述其他文本向量之间的夹角余弦，将所述夹角余弦作为所述文本向量与所述其他文本向量之间的距离；或者，
计算所述文本向量与所述其他文本向量之间的欧氏距离，将所述欧氏距离作为所述文本向量与所述其他文本向量之间的距离。18.根据权利要求15所述的方法，其中，所述根据二次裁剪后的视频文件中的弹幕，确定所述二次裁剪后的视频文件的标题，包括：将所述二次裁剪后的视频文件中的各个弹幕分别进行分词处理，得到多个分词，并统计各个分词在所述二次裁剪后的视频文件的所有弹幕中出现的次数；从所述多个分词中选取出现次数最多的L个分词，作为重要分词，并根据所述重要分词出现的次数为所述重要分词设定分词分值；所述L为正整数；针对所述二次裁剪后的视频文件中的各个弹幕，确定所述弹幕中包含的重要分词，并根据重要分词的分词分值确定所述弹幕的弹幕分值；将所述弹幕...

【专利技术属性】
技术研发人员：魏承东，丁杰超，高睿，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人