一种自动化批量音乐卡点视频生成的方法、系统、计算机设备及可读存储介质技术方案

技术编号:29465131 阅读:19 留言:0更新日期:2021-07-27 17:53
本发明专利技术公开了一种自动化批量音乐卡点视频生成的方法、系统、计算机设备及可读存储介质,本发明专利技术中,用户上传m段视频片段和n首背景音乐,用户可以对m个视频槽位的时长比例和每个槽位需要优先卡的点的类型进行配置,也可以完全不配置,然后会对输入的音乐进行分析,从中抽取可用的卡点候选点,候选点包括beats,downbeats,onsets和结尾点,接着会根据候选点和参数配置对每个视频槽位的时长进行调整,最后根据视频槽位的时长对每段视频进行变速或者裁剪,输出n条卡点视频。

The invention relates to a method, system, computer equipment and readable storage medium for automatic batch music card video generation

【技术实现步骤摘要】
一种自动化批量音乐卡点视频生成的方法、系统、计算机设备及可读存储介质
本专利技术具体涉及一种自动化批量音乐卡点视频生成的方法、系统、计算机设备及可读存储介质。
技术介绍
目前的音乐卡点视频生成主要通过人工操作完成。现有技术中,在做音乐卡点视频合成时,或是限制了音乐,或是限制了可以卡的点,并且人工介入较多。其中,一种方法是“剪同款”,用户需要选择模版,然后提供剪辑好的规定数量和时长的视频片段才能生成卡点视频。比如剪映等APP中的“剪同款”功能,只能用和模版相同的音乐来合成视频,限制了音乐的选择,模板单一。另一种方法是给用户推荐可以卡的点,然后用户自己从中选择需要卡的点,最后把视频片段剪辑成选择的卡点时长,拼接合成视频。比如AE中的BeatEdit插件可以给出任意音乐的beats,但只提供了beats,限制了可以卡的点。无论哪种方法,都需要人工根据需要卡的点,调整视频时长,难以批量生产卡点视频。
技术实现思路
针对上述情况,为克服现有技术的缺陷,本专利技术提供一种自动化批量音乐卡点视频生成的方法、系统、计算机设备及可读存储介质。为了实现上述目的,本专利技术提供以下技术方案:一种自动化批量音乐卡点视频生成的系统,包括参数配置模块、beats检测模块、downbeats检测模块、鼓点检测模块、结尾点检测模块、决策模块、剪辑与渲染模块;其中,beats检测模块与downbeats检测模块连接,参数配置模块、beats检测模块、downbeats检测模块、鼓点检测模块、结尾点检测模块分别与决策模块连接,决策模块和剪辑与渲染模块连接;参数配置模块被配置为能够对输入的视频进行参数配置,并将配置的参数信息发生至决策模块,beats检测模块被配置为能够对输入的音频进行检测,得到beats序列,并将beats序列分别发送至downbeats检测模块与决策模块,downbeats检测模块被配置为能够对beats序列进行检测,得到downbeats,并将downbeats发生至决策模块;鼓点检测模块、结尾点检测模块能够分别对输入的音频进行检测,得到鼓点与结尾点,并将检测得到的结果发送至决策模块;决策模块被配置为能够接收上述的检测结果与配置的参数信息进行决策,并将决策发送至剪辑与渲染模块,剪辑与渲染模块被配置为能够根据决策,对视频片段进行自动化编辑,最后把所有的视频片段拼接并加上音乐就得到了最终的视频。一种自动化批量音乐卡点视频生成的方法,采用以上所述的系统,包括以下步骤:(1)输入音频与视频;(2)参数配置模块对输入的视频进行参数配置;(3)beats检测模块、鼓点检测模块、结尾点检测模块分别对输入的音频进行检测,得到beats序列、鼓点与结尾点;(4)downbeats检测模块对步骤(3)得到的beats序列进行检测,得到downbeats;(5)决策模块根据步骤(2)中用户配置的参数以及步骤(3)-(4)检测得到beats序列、鼓点、结尾点与downbeats进行决策;(6)剪辑与渲染模块根据步骤(5)的决策,对视频片段进行自动化编辑,最后把所有的视频片段拼接并加上音乐就得到了最终的视频。进一步地,步骤(3)中,beats检测模块对输入的音频进行检测,包括以下步骤:(3.1)计算onsets的能量包络O(t)(3.11)对输入的音频进行短时傅立叶变换,得到频谱;然后将频谱转换到梅尔频谱上;(3.12)把时间按4ms为最小单位分成时间片,然后在时间轴上做一阶差值,只保留正值,并把每个时间点上所有频率的正值求和;在求和时用高通滤波器过滤掉人耳难以感知的频段;此时的每一个峰值就是一个onset;(3.13)最后用高斯窗对求和结果做平滑处理,得到onsets的能量包络O(t);(3.2)计算全局的tempo(3.21)基于onsets的能量包络O(t),对其做不同时间延迟下的加权自相关计算,其峰值便是估计的bpm即tempo;加权自相关函数为:其中,t是时间点,τ为延迟的时间,O(t)为onsets的能量包络,W(τ)是高斯加权函数;其中,τ0是默认偏向的tempo大小,στ是偏重程度系数;(3.3)基于动态规划计算beats(1)找到每个beats的具体时间点,同时进行微调;在寻找beats时,把目标设定为:其中,{ti}是一个时间序列,即是要找的beats点,ti表示第i个beats点;O(t)为onsets的能量包络,α是平衡两个目标的系数,N为找到的beats点的个数,τp为上一步中计算得到的tempo,F(Δt,τ)表示找到的两个beats点的距离和τp的差距,Δt=ti-ti-1,表示任意两个相邻时间点的距离;用动态规划的方法,找到使得C({ti})最大的序列{ti},就是最终的beats序列。进一步地,步骤(4)中,downbeats检测模块寻找downbeats的方法,包括以下步骤:(4.1)将beats分组步骤(3)中已经得到了beats序列为[t0,t1,t2,…,ti,…,tN],默认将beats分为4组,i%4={0,1,2,3}的分别为一组;(4.2)计算每个beat的能量采样,以每个beat为中心,计算采样窗口中音频信号能量大小,能量的计算公式为:其中,En表示第n个beat的能量,表示第n个beat采样窗口中第i个采样点的声音信号值;(4.3)计算每组beats的能量将同一组beats能量相加,得到每组的beats能量大小;(4.4)找能量最大的一组在4组中取能量最大的一组就是downbeats。进一步地,步骤(3)中,鼓点检测模块采用一种基于音频分轨的鼓点检测方法,其步骤如下:(s1)音频分轨基于U-net网络架构,在MUSDB数据集和人为合成的数据集上进行训练,得到了可以将音频分为人声、鼓声、贝斯和其它这四类的音乐分轨模型;利用该模型提取输入音乐当中的鼓声轨;(s2)计算鼓声轨的onsets读取鼓声轨的音频信号,利用步骤(3.1)中计算onsets能量包络的方法,计算分离出来的鼓声轨的onsets能量包络,将包络的各个局部峰值点作为鼓声的onsets;(s3)计算鼓点先把所有的onsets平移到离其最近的音频信号峰值点,作为检测到的鼓点,并剔除掉平移到同一个峰值点的鼓点;再计算每个鼓点的能量,并把能量低的鼓点剔除,剩下的就是最终的鼓点。进一步地,步骤(3)中,结尾点检测模块采用一种寻找结尾重音点的方法,其步骤如下:(3-1)读取音频文件;(3-2)用汉宁窗对输入信号的能量做卷积平滑处理;寻找其中的波谷和波峰;(3-3)计算每对波谷和波峰的差值,取差值的均值和中位数中较大的作为threshold,过滤掉差值小于threshold的波谷和波本文档来自技高网...

【技术保护点】
1.一种自动化批量音乐卡点视频生成的系统,其特征是,包括参数配置模块、beats检测模块、downbeats检测模块、鼓点检测模块、结尾点检测模块、决策模块、剪辑与渲染模块;其中,beats检测模块与downbeats检测模块连接,参数配置模块、beats检测模块、downbeats检测模块、鼓点检测模块、结尾点检测模块分别与决策模块连接,决策模块和剪辑与渲染模块连接;/n参数配置模块被配置为能够对输入的视频进行参数配置,并将配置的参数信息发生至决策模块,beats检测模块被配置为能够对输入的音频进行检测,得到beats序列,并将beats序列分别发送至downbeats检测模块与决策模块,downbeats检测模块被配置为能够对beats序列进行检测,得到downbeats,并将downbeats发生至决策模块;鼓点检测模块、结尾点检测模块能够分别对输入的音频进行检测,得到鼓点与结尾点,并将检测得到的结果发送至决策模块;决策模块被配置为能够接收上述的检测结果与配置的参数信息进行决策,并将决策发送至剪辑与渲染模块,剪辑与渲染模块被配置为能够根据决策,对视频片段进行自动化编辑,最后把所有的视频片段拼接并加上音乐就得到了最终的视频。/n...

【技术特征摘要】
1.一种自动化批量音乐卡点视频生成的系统,其特征是,包括参数配置模块、beats检测模块、downbeats检测模块、鼓点检测模块、结尾点检测模块、决策模块、剪辑与渲染模块;其中,beats检测模块与downbeats检测模块连接,参数配置模块、beats检测模块、downbeats检测模块、鼓点检测模块、结尾点检测模块分别与决策模块连接,决策模块和剪辑与渲染模块连接;
参数配置模块被配置为能够对输入的视频进行参数配置,并将配置的参数信息发生至决策模块,beats检测模块被配置为能够对输入的音频进行检测,得到beats序列,并将beats序列分别发送至downbeats检测模块与决策模块,downbeats检测模块被配置为能够对beats序列进行检测,得到downbeats,并将downbeats发生至决策模块;鼓点检测模块、结尾点检测模块能够分别对输入的音频进行检测,得到鼓点与结尾点,并将检测得到的结果发送至决策模块;决策模块被配置为能够接收上述的检测结果与配置的参数信息进行决策,并将决策发送至剪辑与渲染模块,剪辑与渲染模块被配置为能够根据决策,对视频片段进行自动化编辑,最后把所有的视频片段拼接并加上音乐就得到了最终的视频。


2.一种自动化批量音乐卡点视频生成的方法,其特征是,采用权利要求1中所述的系统,包括以下步骤:
(1)输入音频与视频;
(2)参数配置模块对输入的视频进行参数配置;
(3)beats检测模块、鼓点检测模块、结尾点检测模块分别对输入的音频进行检测,得到beats序列、鼓点与结尾点;
(4)downbeats检测模块对步骤(3)得到的beats序列进行检测,得到downbeats;
(5)决策模块根据步骤(2)中用户配置的参数以及步骤(3)-(4)检测得到beats序列、鼓点、结尾点与downbeats进行决策;
(6)剪辑与渲染模块根据步骤(5)的决策,对视频片段进行自动化编辑,最后把所有的视频片段拼接并加上音乐就得到了最终的视频。


3.根据权利要求2所述的一种自动化批量音乐卡点视频生成的方法,其特征是,步骤(3)中,beats检测模块对输入的音频进行检测,包括以下步骤:
(3.1)计算onsets的能量包络O(t)
(3.11)对输入的音频进行短时傅立叶变换,得到频谱;然后将频谱转换到梅尔频谱上;
(3.12)把时间按4ms为最小单位分成时间片,然后在时间轴上做一阶差值,只保留正值,并把每个时间点上所有频率的正值求和;在求和时用高通滤波器过滤掉人耳难以感知的频段;此时的每一个峰值就是一个onset;
(3.13)最后用高斯窗对求和结果做平滑处理,得到onsets的能量包络O(t);
(3.2)计算全局的tempo
(3.21)基于onsets的能量包络O(t),对其做不同时间延迟下的加权自相关计算,其峰值便是估计的bpm即tempo;加权自相关函数为:



其中,t是时间点,τ为延迟的时间,O(t)为onsets的能量包络,W(τ)是高斯加权函数;



其中,τ0是默认偏向的tempo大小,στ是偏重程度系数;
(3.3)基于动态规划计算beats
(1)找到每个beats的具体时间点,同时进行微调;在寻找beats时,把目标设定为:



其中,{ti}是一个时间序列,即是要找的beats点,ti表示第i个beats点;O(t)为onsets的能量包络,α是平衡两个目标的系数,N为找到的beats点的个数,τp为上一步中计算得到的tempo,F(Δ...

【专利技术属性】
技术研发人员:陈权谭亮
申请(专利权)人:杭州艾耕科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1