一种混音的方法及相关装置制造方法及图纸

技术编号：35032567 阅读：21 留言：0更新日期：2022-09-24 23:07

本发明专利技术实施例提供了一种混音的方法及相关装置，用于提升混音效果。本发明专利技术实施例方法包括：获取目标歌曲的原唱干声中每句歌词片段的音频指纹；将目标歌曲的用户干声切分为多句歌词片段；将用户干声中每句歌词片段的时间戳按照预设时长执行N次左右偏移，以得到用户干声中每句歌词片段的N+1个候选音频；计算N+1个候选音频对应的N+1个候选音频指纹；将用户干声中每句歌词片段的N+1个候选音频指纹与原唱干声中对应歌词片段的音频指纹逐一匹配，以得到与原唱干声中每句歌词片段的音频指纹相似度值最高的用户干声对应歌词片段的候选音频；将与最高相似度值对应的候选音频视为修正后的用户干声的歌词片段；将修正后的用户干声的歌词片段与伴奏进行混音。歌词片段与伴奏进行混音。歌词片段与伴奏进行混音。

全部详细技术资料下载

【技术实现步骤摘要】
一种混音的方法及相关装置

[0001]本专利技术涉及音频处理
，尤其涉及一种混音的方法及相关装置。

技术介绍

[0002]混音，是将干声与伴奏混合在一起，从而得到混合音效的一种方式。
[0003]现有技术在混音时，一般是将整首歌曲的干声和伴奏进行多次混合，从而得到多个混合音效，然后再将多个混合音效和原唱的音频指纹分别进行比对，以获取最佳的混合音效。
[0004]而这种混音方式至少存在以下缺点：
[0005]因为在比对时，需要将整首歌曲混合音效的音频指纹和原唱整首歌曲的音频指纹进行比对，故存在计算开销大，且对混合参数敏感度低的问题。

技术实现思路

[0006]本专利技术实施例提供了一种混音的方法及相关装置，用于将用户干声的多个候选音频的候选音频指纹和原唱干声的音频指纹逐句进行比对，以得到修正后的用户干声，再将修正后的用户干声和伴奏进行混音，从而在节省计算开销的前提下，提升了混音效果。
[0007]本申请实施例第一方面提供了一种混音的方法，包括：
[0008]获取目标歌曲的原唱干声中每句歌词片段的音频指纹；
[0009]获取所述目标歌曲的用户干声，将所述目标歌曲的用户干声切分为多句歌词片段；
[0010]将所述用户干声中每句歌词片段的时间戳按照预设时长执行N次左右偏移，以得到用户干声中每句歌词片段的N+1个候选音频，其中，N为大于等于1的整数；
[0011]计算所述用户干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹；r/>[0012]将所述用户干声中每句歌词片段的N+1个候选音频指纹与原唱干声中对应歌词片段的音频指纹逐一匹配，以得到与原唱干声中每句歌词片段的音频指纹相似度值最高的用户干声对应歌词片段的候选音频；
[0013]将与原唱干声中每句歌词片段音频指纹的最高相似度值对应的候选音频视为修正后的用户干声的歌词片段；
[0014]将所述修正后的用户干声的歌词片段与伴奏进行混音。
[0015]优选的，所述获取目标歌曲的原唱干声中每句歌词片段的音频指纹，包括：
[0016]对所述目标歌曲的原唱干声中的每句歌词片段进行分帧加窗；
[0017]将分帧加窗后原唱干声的每帧语音信号执行时域到频域的变换，以得到原唱干声中每帧语音信号的频域信号；
[0018]将所述原唱干声中每帧语音信号的频域信号执行巴克刻度滤波组处理，以得到原唱干声中每帧语音信号的巴克域特征；
[0019]根据差分计算公式，对所述原唱干声中每帧语音信号的巴克域特征进行差分计
算，以得到原唱干声中每句歌词片段的音频指纹。
[0020]优选的，在获取目标歌曲的原唱干声中每句歌词片段的音频指纹之前，所述方法还包括：
[0021]根据目标歌曲原唱干声中的歌词信息和时间戳信息，获取所述歌词信息中每句歌词的开始时刻和结束时刻；
[0022]根据所述每句歌词的开始时刻和结束时候，将所述目标歌曲的原唱干声切分为多句歌词片段。
[0023]优选的，将所述目标歌曲的用户干声切分为多句歌词片段，包括：
[0024]利用低通滤波器从所述目标歌曲的用户干声中筛选出满足预设频率的第一干声信号；
[0025]利用声音激活检测算法从所述第一干声信号中筛选出音频能量大于预设值的第二干声信号；
[0026]确定所述第二干声信号在每句歌词上的开始时刻和结束时刻；
[0027]根据所述第二干声信号在每句歌词上的开始时刻和结束时刻，将所述目标歌曲的户干声切分为多句歌词片段。
[0028]优选的，所述计算所述用户干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹，包括：
[0029]分别获取所述用户干声中每句歌词片段的第M个候选音频，其中，M大于等于1且小于等于N+1；
[0030]将所述第M个候选音频进行分帧加窗；
[0031]将分帧加窗后的第M个候选音频中每帧语音信号执行时域到频域的变换，以得到第M个候选音频中每帧语音信号的频域信号；
[0032]将所述第M个候选音频中每帧语音信号的频域信号执行巴克刻度滤波组处理，以得到第M个候选音频中每帧语音信号的巴克域特征；
[0033]根据差分计算公式，对所述第M个候选音频中每帧语音信号的巴克域特征进行差分计算，以得到第M个候选音频的音频指纹。
[0034]优选的，所述目标歌曲的原唱干声和用户干声中的每句歌词片段包括n帧语音信号，每帧语音信号包括m个频带，每句歌词片段的音频指纹为包括n*m个元素的矩阵，其中，n为不小于1的整数，m为大于等于零且小于33的整数；
[0035]所述将所述用户干声中每句歌词片段的N+1个候选音频指纹与原唱干声中对应歌词片段的音频指纹逐一匹配，以得到与原唱干声中每句歌词片段的音频指纹相似度值最高的用户干声对应歌词片段的候选音频，包括：
[0036]获取所述用户干声中每句歌词片段的N+1个候选音频指纹对应的N+1个矩阵；
[0037]将所述N+1个矩阵与原唱干声中对应歌词片段的音频指纹所对应的目标矩阵进行比对，获取与所述目标矩阵相同元素最多的候选矩阵；
[0038]将所述候选矩阵对应的候选音频视为与原唱干声中对应歌词片段的音频指纹相似度值最高的用户干声歌词片段的候选音频。
[0039]优选的，在将所述修正后的用户干声的歌词片段与伴奏进行混音之前，所述方法还包括：
[0040]分别获取所述目标歌曲的用户干声中每句歌词片段的第一响度曲线，及所述目标歌曲的原唱干声中每句歌词片段的第二响度曲线；
[0041]将所述第一响度曲线和所述第二响度曲线中的对应响度值作差，以得到增益曲线；
[0042]根据所述增益曲线，对修正后用户干声中每句歌词片段的响度值进行调整，以得到响度调整后的修正用户干声；
[0043]将所述修正后的用户干声的歌词片段与伴奏进行混音，包括：
[0044]将响度调整后的修正用户干声的歌词片段与伴奏进行混音。
[0045]优选的，分别获取所述目标歌曲的用户干声中每句歌词片段的第一响度曲线，包括：
[0046]对所述目标歌曲的用户干声中的每句歌词片段进行分帧加窗；
[0047]将分帧加窗后用户干声的每帧语音信号执行时域到频域的变化，以得到用户干声中每帧语音信号的频域信号；
[0048]将所述用户干声中每帧语音信号的频域信号执行巴克刻度滤波组处理，以得到用户干声中每帧语音信号的巴克域特征；
[0049]计算所述用户干声每句歌词片段中多帧语音信号巴克域特征的均值，将所述用户干声中多帧语音信号巴克域特征的均值视为用户干声每句歌词片段的响度值；
[0050]根据所述用户干声每句歌词片段的响度值绘制用户干声每句歌词片段的第一响度曲线。
[0051]优选的，分别所述目标歌曲的原唱干声中每句歌词片段的第二响度曲线，包括：
[0052]对所述目标歌曲的原唱干声本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种混音的方法，其特征在于，包括：获取目标歌曲的原唱干声中每句歌词片段的音频指纹；获取所述目标歌曲的用户干声，将所述目标歌曲的用户干声切分为多句歌词片段；将所述用户干声中每句歌词片段的时间戳按照预设时长执行N次左右偏移，以得到用户干声中每句歌词片段的N+1个候选音频，其中，N为大于等于1的整数；计算所述用户干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹；将所述用户干声中每句歌词片段的N+1个候选音频指纹与原唱干声中对应歌词片段的音频指纹逐一匹配，以得到与原唱干声中每句歌词片段的音频指纹相似度值最高的用户干声对应歌词片段的候选音频；将与原唱干声中每句歌词片段音频指纹的最高相似度值对应的候选音频视为修正后的用户干声的歌词片段；将所述修正后的用户干声的歌词片段与伴奏进行混音。2.根据权利要求1所述的方法，其特征在于，所述获取目标歌曲的原唱干声中每句歌词片段的音频指纹，包括：对所述目标歌曲的原唱干声中的每句歌词片段进行分帧加窗；将分帧加窗后原唱干声的每帧语音信号执行时域到频域的变换，以得到原唱干声中每帧语音信号的频域信号；将所述原唱干声中每帧语音信号的频域信号执行巴克刻度滤波组处理，以得到原唱干声中每帧语音信号的巴克域特征；根据差分计算公式，对所述原唱干声中每帧语音信号的巴克域特征进行差分计算，以得到原唱干声中每句歌词片段的音频指纹。3.根据权利要求1所述的方法，其特征在于，在获取目标歌曲的原唱干声中每句歌词片段的音频指纹之前，所述方法还包括：根据目标歌曲原唱干声中的歌词信息和时间戳信息，获取所述歌词信息中每句歌词的开始时刻和结束时刻；根据所述每句歌词的开始时刻和结束时候，将所述目标歌曲的原唱干声切分为多句歌词片段。4.根据权利要求1所述的方法，其特征在于，将所述目标歌曲的用户干声切分为多句歌词片段，包括：利用低通滤波器从所述目标歌曲的用户干声中筛选出满足预设频率的第一干声信号；利用声音激活检测算法从所述第一干声信号中筛选出音频能量大于预设值的第二干声信号；确定所述第二干声信号在每句歌词上的开始时刻和结束时刻；根据所述第二干声信号在每句歌词上的开始时刻和结束时刻，将所述目标歌曲的户干声切分为多句歌词片段。5.根据权利要求1所述的方法，其特征在于，所述计算所述用户干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹，包括：分别获取所述用户干声中每句歌词片段的第M个候选音频，其中，M大于等于1且小于等于N+1；
将所述第M个候选音频进行分帧加窗；将分帧加窗后的第M个候选音频中每帧语音信号执行时域到频域的变换，以得到第M个候选音频中每帧语音信号的频域信号；将所述第M个候选音频中每帧语音信号的频域信号执行巴克刻度滤波组处理，以得到第M个候选音频中每帧语音信号的巴克域特征；根据差分计算公式，对所述第M个候选音频中每帧语音信号的巴克域特征进行差分计算，以得到第M个候选音频的音频指纹。6.根据权利要求1所述的方法，其特征在于，所述目标歌曲的原唱干声和用户干声中的每句歌词片段包括n帧语音信号，每帧语音信号包括m个频带，每句歌词片段的音频指纹为包括n*m个元素的矩阵，其中，n为不小于1的整数，m为大于等于零且小于33的整数；所述将所述用户干声中每句歌词片段的N+1个候选音频指纹与原唱干声中对应歌词片段的音频指纹逐一匹配，以得到与原唱干声中每句歌词片段的音频指纹相似度值最高的用户干声对应歌词片段的候选音频，包括：获取所述用户干声中每句歌词片段的N+1个候选音频指纹对应的N+1个矩阵；将所述N+1个矩阵与原唱干声中对应歌词片段的音频指纹所对应的目标矩阵进行比对，获取与所述目标矩阵相同元素最多的候选矩阵；将所述候选矩阵对应的候选音频视为与原唱干声中对应歌词片段的音频指纹相似度值最高的用户干声歌词片段的候选音频。7.根据权利要求1所述的方法，其特征在于，在将所述修正后的用户干声的歌词片段与伴奏进行混音之前，所述方法还包括：分别获取所述目标歌曲的用户干声中每句歌词片段的第一响度曲线，及所述目标歌曲的原唱干声中每句歌词片段的第二响度曲线；将所述第一响度曲线和所述第二响度曲线中的对应响度值作差，以得到增益曲线；根据所述增益曲线，对修正后用户干声中每句歌词片段的响度值进行调整，以得到响度调整后的修正用户干声；将所述修正后的用户干声的歌词片段与伴奏进行混音，包括：将响度调整后的修正用户干声的歌词片段与伴奏进行混音。8.根据权利要求7述的方法，其特征在于，分别获取所述目标歌曲的用户干声中每句歌词片段的第一响度曲线，包括：对所述目标歌曲的用户干声中的每句歌词片段进行分帧加...

【专利技术属性】
技术研发人员：庄晓滨，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人