基于乐音信号频谱图建模的多音音乐歌声旋律提取方法技术

技术编号:36250457 阅读:21 留言:0更新日期:2023-01-07 09:43
本发明专利技术公开了一种基于乐音信号频谱图建模的多音音乐歌声旋律提取方法该方法首先求混合音频信号的常Q变换,得到对数频率幅度谱;其次,依据同一乐音声源的基波与各次谐波分量的频点位置关系得到图结构。然后,将常Q变换幅度谱作为图卷积网络输入,将旋律音高转换为独热向量,并将其作为图卷积网络的输出,利用图卷积网络学习复杂的输入输出映射函数,并将图卷积网络的每帧输出节点中最大值所对应的频率作为该帧的初步旋律音高估计结果。最后,采用后处理步骤,构建显著度谱图,微调旋律音高估计。本发明专利技术构建对数频率域图结构来实现歌声旋律提取问题,采用数据驱动模式自动学习图卷积网络的参数,达到轻量级参数下的歌声旋律提取目的。取目的。取目的。

【技术实现步骤摘要】
基于乐音信号频谱图建模的多音音乐歌声旋律提取方法


[0001]本专利技术涉及音频信号处理
,尤其涉及一种基于乐音信号频谱图建模的多音音乐歌声旋律提取方法。

技术介绍

[0002]多音音乐是人声与伴奏的混合信号,且同时可能有两个或者两个以上的声源发声,使得人声与伴奏在时域与频域均相互叠加,进而导致难以准确提取歌声旋律。目前,仍无法准确描述人耳听觉对歌声旋律的感知属性,使得旋律提取建模仍旧没有准确的理论支撑。能量显著性和时序连续性是旋律提取的两个基本依据,已有方法用不同的方式建模能量显著性和时序连续性。现有旋律提取方法包括显著度法、源分离法和机器学类方法。显著度法包括谱分析、多音高估计、旋律轨迹跟踪等步骤。常人为设定显著度函数建模旋律能量显著性,这些显著度函数的科学性和合理性难以保证。源分离类方法先从混合信号中分离出或增强歌声分量,然后再采用单音高估计方法估计旋律音高。源分离问题属于欠定问题范畴,仍无法得到令人满意的效果,进而限制了此类方法的性能。机器学习类方法包括传统机器学习类方法和深度学习方法。由于旋律有时会被噪声淹没,传统机器学习类方法的鲁棒性差,而深度学习类方法具有参数规模大、解释性差的缺点。

技术实现思路

[0003]根据现有技术存在的问题,本专利技术公开了一种基于乐音信号频谱图建模的多音音乐歌声旋律提取方法,具体包括如下步骤:
[0004]对音频信号进行常Q变换获得对数频率幅度谱,截取一定频率范围内的幅度谱,将第i帧的前后连续奇数帧幅度谱拼接获得拼接幅度谱,将该拼接幅度谱作为第i帧输入特征,表示为X
i

[0005]构建所述拼接幅度谱对应的邻接矩阵;
[0006]将拼接幅度谱的每个频点作为图结构的节点,根据邻接矩阵确定边,即各个节点的连接关系,从而将乐音信号的各频率分量用图结构表示;
[0007]将第i帧信号对应的旋律音高频率进行离散化,得到输出标签的独热向量,将独热向量作为图卷积网络的输出,得到第i帧输入特征X
i
所对应的输出标签Y
i

[0008]对图卷积网络进行训练获得最优参数;
[0009]采用训练好的网络参数,在测试集上进行旋律音高预测,并将图卷积网络输出节点中最大值对应的频率作为初步的旋律音高估计;
[0010]对图卷积网络得到的初步旋律音高序列进行中值滤波,得到平滑旋律音高轨迹;
[0011]对音频信号进行分帧、再对每帧信号进行补零和短时傅里叶变换得到短时傅里叶变换幅度谱;
[0012]采用相位声码器对短时傅里叶变换幅度谱进行瞬时幅度、瞬时频率修正;
[0013]逐帧依据显著度函数计算显著度值;
[0014]将平滑旋律音高轨迹为中心的一定频率范围构成的带状区域作为最终歌声旋律输出候选范围,搜索候选范围内的最大显著度值,将最大显著度值对应的频率作为最终的非0频率段歌声旋律输出结果;对于图卷积网络的0值输出则不进行修正。
[0015]所述显著度函为:
[0016][0017]其中,a
i
是第i个谱峰幅值,Tr(a
i
)为幅度门限函数,w(b,h,f
i
)为权重函数。
[0018]由于采用了上述技术方案,本专利技术提供一种基于乐音信号频谱图建模的多音音乐歌声旋律提取方法,该方法对混合音频信号进行常Q变换,得到对数频率幅度谱,依据同一乐音声源的基频与各次谐波分量的频点位置关系,构建邻接矩阵,得到图结构,用图卷积网络学习复杂的输入输出映射函数,并将图卷积网络的每帧输出节点中最大值所对应的频率作为该帧的初步旋律音高估计结果;采用后处理步骤,构建显著度谱图,微调旋律音高估计,因此本方法取得了较高的准确率和鲁棒性。
附图说明
[0019]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本专利技术方法的流程图
[0021]图2为本专利技术中一段音乐信号的时域波形图;
[0022]图3为本专利技术该段音乐信号的常Q变换幅度谱图
[0023]图4为本专利技术中邻接矩阵的示意图
[0024]图5为本专利技术初步旋律序列估计
[0025]图6为本专利技术后处理显著度图
[0026]图7为本专利技术最终歌声旋律提取结果图
具体实施方式
[0027]为使本专利技术的技术方案和优点更加清楚,下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚完整的描述:
[0028]本专利技术提出的歌声旋律提取方法如图1所示。首先,求混合音频信号的常Q变换,得到对数频率幅度谱。其次,依据同一乐音声源的基波与各次谐波分量的频点位置关系得到图结构。然后,将常Q变换幅度谱作为图卷积网络输入,将旋律音高转换为独热向量,并将其作为图卷积网络的输出,利用图卷积网络学习复杂的输入输出映射函数,并将图卷积网络的每帧输出节点中最大值所对应的频率作为该帧的初步旋律音高估计结果。最后,采用后处理步骤,构建显著度谱图,微调旋律音高估计。
[0029]实施例:
[0030]考虑到旋律具有典型的谐波性,本专利技术将音乐信号频谱中的各个频点用节点表示,把乐音的谐波性用边来表示,这样某一乐音声源的各次谐波内在联系可用图结构表示,
进而实现基于图的歌声旋律提取。为了提升旋律音高轨迹的平滑性,降低量化误差,本专利技术采用音高显著度函数对初步旋律音高估计进行微调,具体方案包括如下步骤:
[0031]S1:给定一段音频信号,其时域波形图如图2所示。采用12频点/八度的频率分辨率,对音频信号进行常Q变换,得到对数频率幅度谱,如图3所示。截取47.65

8141.46Hz频率范围内的幅度谱,故每帧音频信号的幅度谱共90个频点。将每帧前一帧到后一帧的连续3帧幅度谱拼接,得到长度为270的拼接幅度谱,作为第i帧输入特征表示X
i

[0032]S2:构建3帧幅度谱拼接对应的邻接矩阵,如图4所示,具体计算公式为:
[0033][0034]其中,N=90,h=1,

,5,i(j)=1,

,270。
[0035]S3:拼接幅度谱的每个频点作为一个图结构的节点,由公式(1)定义的邻接矩阵确定边,即定义各个节点的连接关系,这样便将乐音信号的各分量用图结构表示出来。
[0036]S4:将第i帧信号对应的旋律音高频率按照12频点/八度的分辨率进行离散化,得到输出标签的独热向量,并作为图卷积网络的输出,这样便得到第i帧输入特征X
i
所对应的输出标签Y
i

[0037]S5:在训练集上,进行参数训练,损失函数选择二元交叉熵函数,优化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于乐音信号频谱图建模的多音音乐歌声旋律提取方法,其特征在于包括:对音频信号进行常Q变换获得对数频率幅度谱,截取一定频率范围内的幅度谱,将第i帧的前后连续奇数帧幅度谱拼接获得拼接幅度谱,将该拼接幅度谱作为第i帧输入特征,表示为X
i
;构建所述拼接幅度谱对应的邻接矩阵;将拼接幅度谱的每个频点作为图结构的节点,根据邻接矩阵确定边,即各个节点的连接关系,从而将乐音信号的各频率分量用图结构表示;将第i帧信号对应的旋律音高频率进行离散化,得到输出标签的独热向量,将独热向量作为图卷积网络的输出,得到第i帧输入特征X
i
所对应的输出标签Y
i
;对图卷积网络进行训练获得最优参数;采用训练好的网络参数,在测试集上进行旋律音高预测,并将图卷积网络输出节点中最大值对应的频率作为初步的旋...

【专利技术属性】
技术研发人员:张维维闫凌宇
申请(专利权)人:大连海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1