基于堆叠沙漏网络的音乐源分离方法技术

技术编号:27125898 阅读:16 留言:0更新日期:2021-01-25 19:45
本发明专利技术公开了一种基于堆叠沙漏网络的音乐源分离方法,包括步骤:S1、将原始混合语音信号经过分帧、加窗、傅里叶变换得到原始混合语音信号频谱图;S2、将原始混合信号幅度谱输入堆叠沙漏网络,经过堆叠沙漏网络后得到第一人声预测值和第一伴奏预测值;每个沙漏模块下采样第一次卷积后的输出通道等差式递增;S3、经时频掩模得到第二人声预测值和第二伴奏预测值,并得到预测人声信号和预测伴奏信号。与现有技术相比,本发明专利技术提供的音乐源分离方法,基于沙漏模块充分利用语音信号上下文之间的联系,从而提升了网络的分离效果,设计了等差式通道递增的结构,来弥补下采样语音谱图时产生的信息丢失,进一步提高了音乐源分离的效果。进一步提高了音乐源分离的效果。进一步提高了音乐源分离的效果。

【技术实现步骤摘要】
基于堆叠沙漏网络的音乐源分离方法


[0001]本专利技术涉及音乐源分离方法,具体是基于堆叠沙漏网络的音乐源分离方法。

技术介绍

[0002]音乐源分离是自然语言处理下的一个重要分支,针对不同领域的具体要求,音乐源分离的目的可以是从混合信号中分离出人声或伴奏,也可以是从混合信号中分离出单个乐器的声音。分离后的信号源,在音乐检索领域上可进一步用于乐器识别、音高统计、音乐转录、歌词同步、歌手及歌词识别等应用。在语音识别领域上,可用于人声识别、关键词识别、语音情感识别等应用。随着有关机器学习和深度学习的研究,一系列神经网络在不断丰富和进化。为了有效地将一维的语音信号应用在CNN等神经网络中,可以先通过傅里叶变换将一维语音信号转换成二维幅度谱图,或者通过梅尔尺度滤波器转换成梅尔谱图或对数梅尔谱图。变换得到的二维图像,即可通过CNN或其他适用于信号处理的神经网络来进行训练。但是这些CNN网络深度上往往都比较浅,无法利用深度学习的优势来提取更深层次语音信号的特征,并且结构往往简单,无法处理更复杂的分离任务且分离效果不令人满意。
[0003]堆叠沙漏网络是是用来解决在人体姿态上的相关问题的一种神经网络,在堆叠沙漏网络中,每个阶段的沙漏模块都是一个简单的轻量级网络,包含自己的下采样和上采样路径,将前一阶段的沙漏网络按照端到端的方式首尾叠加起来就构成了堆叠沙漏网络。堆叠后的沙漏网络通过中间监督来保证网络各层参数的正常更新。堆叠沙漏网络的最初设计的目的是为了解决在人体姿态上的相关问题,它的重复推理的结构可以使得沙漏网络在人体关节的不同尺度上处理特征,并且捕获与身体关节相关的各种空间关系。它不仅有效地解决了人体姿态估计的难题,更重要的是为其他图像处理领域提供了一种新的思路和基体,很多占主导地位的网络结构正是基于堆叠沙漏网络上产生的不同变体。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的神经网络结构语音分离效果较差的不足,提供了一种基于堆叠沙漏网络的音乐源分离方法,基于沙漏模块的上采样和下采样路径,随着四个阶段不同沙漏模块端到端式的堆叠,前一阶段沙漏模块学习到的语音特征信息作为下一个沙漏模块的输入,使得后一阶段的沙漏模块获得了更丰富的特征信息,可以更加充分利用语音信号上下文之间的联系,从而提升了网络的分离效果;同时针对沙漏网络编码部分的不足,在沙漏模块中设计了一种等差式通道递增的结构,来弥补下采样语音谱图时产生的信息丢失,进一步提高了音乐源分离的效果。
[0005]本专利技术的目的主要通过以下技术方案实现:
[0006]基于堆叠沙漏网络的音乐源分离方法,包括步骤:S1、将原始混合语音信号经过分帧、加窗、傅里叶变换得到原始混合语音信号频谱图,所述原始混合语音信号频谱图包括原始混合信号幅度谱和原始混合信号相位谱;S2、将原始混合信号幅度谱输入堆叠沙漏网络,所述堆叠沙漏网络包括四个以端对端的方式首尾堆叠的沙漏模块,原始混合信号幅度谱经
过堆叠沙漏网络后得到第一人声预测值和第一伴奏预测值;每个沙漏模块下采样第一次卷积后的输出通道等差式递增;S3、将第一人声预测值、第一伴奏预测值结合时频掩模得到经过时频掩模后的第二人声预测值和经过时频掩模后的第二伴奏预测值;将第二人声预测值和第二伴奏预测值分别与原始混合信号相位谱结合,并分别经过逆傅里叶变换得到预测人声信号和预测伴奏信号。
[0007]堆叠沙漏网络是是用来解决在人体姿态上的相关问题的一种神经网络,在堆叠沙漏网络中,每个阶段的沙漏模块都是一个简单的轻量级网络,包含自己的下采样和上采样路径,将前一阶段的沙漏网络按照端到端的方式首尾叠加起来就构成了堆叠沙漏网络。堆叠后的沙漏网络通过中间监督来保证网络各层参数的正常更新。在堆叠沙漏单个模块中,很多结构采用的都是等宽度的通道进行重复的下采样和上采样。这样的结构设计虽然看起来是拓扑的美观对称结构,但是效果远远不如ResNet等主流网络,对此本技术方案将堆叠沙漏网络使用在音乐源分离中,基于沙漏模块的上采样和下采样路径,随着四个阶段不同沙漏模块端到端式的堆叠,前一阶段沙漏模块学习到的语音特征信息作为下一个沙漏模块的输入,使得后一阶段的沙漏模块获得了更丰富的特征信息,可以更加充分利用语音信号上下文之间的联系,从而提升了网络的分离效果。本技术方案用四个以端到端的方式首尾堆叠起来的沙漏模块来进行分离,随着四个阶段不同沙漏模块端到端式的堆叠,前一阶段沙漏模块学习到的语音特征信息作为下一个沙漏模块的输入,使得后一阶段的沙漏模块获得了更丰富的特征信息,可以更加充分利用语音信号上下文之间的联系,从而提升了网络的分离效果。另一方面,堆叠起来的沙漏网络使得网络更加深入,有助于学习更深层次的语义特征。由于时频掩模可以针对混合信号中不同源之间的关系,在输入混合信号和输出预测信号之间产生约束,进而可以产生平滑的预测结果。故我们利用时频掩模来作为分离后的源的输出。将时频掩模与混合信号的输入谱图相乘后,可以得到网络所估计的语音谱图。每一个沙漏模块对应一个损失,所以4个损失之和对应最终的损失函数,这种中间监督可以保证网络各层参数的正常更新,从而提高分离性能;本技术方案所提出的堆叠沙漏网络没有改变原始信号的相位,所以可以通过逆STFT,即结合语音谱图的幅度与原始相位来得到预测分离源的信号。此外,针对沙漏网络编码部分的不足,在沙漏模块中设计了等差式通道递增的结构来对混合信号的语音谱图进行下采样,利用每个沙漏模块下采样第一次卷积后的输出通道等差式递增,构建了一种强大的特征编码器,从而减少了信息丢失,来弥补下采样语音谱图时产生的信息丢失,进一步提高了音乐源分离的效果。
[0008]进一步的,堆叠沙漏网络还包括一个由五个连续卷积层构成的初始卷积模块,所述卷积模块设置在四个沙漏模块之前,所述卷积模块不改变输入图像的大小,只增加图像的输出通道数。
[0009]本技术方案在分离时首先要将原始混合的语音信号通过傅里叶变换转换成频谱图,再进一步输入到第一阶段的沙漏模块中。具体来说,通过设置傅里叶变换时滑动的窗长为1024,相邻窗之间的距离为256。对于时间帧长度不足64的语音信号进行补0操作。傅里叶变换后得到的语音谱图分辨率大小为512x64-分别对应图像的高度和宽度。在四个不同阶段的沙漏模块中,最小的特征通道数为256。由于傅里叶变换得到的语音谱图是单通道的-通道数为,即灰白图像,故为了避免由于特征维数的差异过大导致的网络性能不稳定,把得到的语音谱图输入到第一阶段的沙漏模块之前,先经过一个初始卷积模块,目的是为了增
加语音谱图的特征通道数。初始卷积模块由五个连续的卷积层构成,它们不改变输入图像的大小,只增加图像的输出通道数。具体来说,维度为512x64x1的语音谱图依次经过7x7x64,3个3x3x128,3x3x256构成的五个卷积层后,得到的混合信号的输入谱图维度为512x64x256-最后一个乘法因子代表着输出通道数。
[0010]进一步的,四个沙漏模块均为四阶沙漏模块,输入的谱图在每个沙漏模块中都要经过四个连续的下采样,以不断减半输入谱图分辨率大小。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于堆叠沙漏网络的音乐源分离方法,其特征在于,包括步骤:S1、将原始混合语音信号经过分帧、加窗、傅里叶变换得到原始混合语音信号频谱图,所述原始混合语音信号频谱图包括原始混合信号幅度谱和原始混合信号相位谱;S2、将原始混合信号幅度谱输入堆叠沙漏网络,所述堆叠沙漏网络包括四个以端对端的方式首尾堆叠的沙漏模块,原始混合信号幅度谱经过堆叠沙漏网络后得到第一人声预测值和第一伴奏预测值;每个沙漏模块下采样第一次卷积后的输出通道等差式递增;S3、将第一人声预测值、第一伴奏预测值结合时频掩模得到经过时频掩模后的第二人声预测值和经过时频掩模后的第二伴奏预测值;将第二人声预测值和第二伴奏预测值分别与原始混合信号相位谱结合,并分别经过逆傅里叶变换得到预测人声信号和预测伴奏信号。2.如权利要求1所述的基于堆叠沙漏网络的音乐源分离方法,其特征在于,堆叠沙漏网络还包括一个由五个连续卷积层构成的初始卷积模块,所述卷积模块设置在四个沙漏模块之前,所述卷积模块不改变输入图像的大小,只增加图像的输出通道数。3.如权利要求2所述的基于堆叠沙漏网络的音乐源分离方法,其特征在于,四个沙漏模块均为四阶沙漏模块,输入的谱图在每个沙漏模块中都要经过四个连续的下采样,以不断减半输入谱图分辨率大小。4.如权利要求3所述的基于堆叠沙漏网络的音乐源分离方法,其特征在于,在每个沙漏模块内的卷积层后还设有一个注意力层,在每个沙漏模块的卷积层中还设有批标准化和Leaky_relu激活函数来改进反向梯度传播和参数的更新。5.如权利要求3所述...

【专利技术属性】
技术研发人员:孙超
申请(专利权)人:成都明杰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1