基于堆叠沙漏网络的音乐源分离方法技术

技术编号：27125898 阅读：16 留言：0更新日期：2021-01-25 19:45

本发明专利技术公开了一种基于堆叠沙漏网络的音乐源分离方法，包括步骤：S1、将原始混合语音信号经过分帧、加窗、傅里叶变换得到原始混合语音信号频谱图；S2、将原始混合信号幅度谱输入堆叠沙漏网络，经过堆叠沙漏网络后得到第一人声预测值和第一伴奏预测值；每个沙漏模块下采样第一次卷积后的输出通道等差式递增；S3、经时频掩模得到第二人声预测值和第二伴奏预测值，并得到预测人声信号和预测伴奏信号。与现有技术相比，本发明专利技术提供的音乐源分离方法，基于沙漏模块充分利用语音信号上下文之间的联系，从而提升了网络的分离效果，设计了等差式通道递增的结构，来弥补下采样语音谱图时产生的信息丢失，进一步提高了音乐源分离的效果。进一步提高了音乐源分离的效果。进一步提高了音乐源分离的效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于堆叠沙漏网络的音乐源分离方法

[0001]本专利技术涉及音乐源分离方法，具体是基于堆叠沙漏网络的音乐源分离方法。

技术介绍

[0002]音乐源分离是自然语言处理下的一个重要分支，针对不同领域的具体要求，音乐源分离的目的可以是从混合信号中分离出人声或伴奏，也可以是从混合信号中分离出单个乐器的声音。分离后的信号源，在音乐检索领域上可进一步用于乐器识别、音高统计、音乐转录、歌词同步、歌手及歌词识别等应用。在语音识别领域上，可用于人声识别、关键词识别、语音情感识别等应用。随着有关机器学习和深度学习的研究，一系列神经网络在不断丰富和进化。为了有效地将一维的语音信号应用在CNN等神经网络中，可以先通过傅里叶变换将一维语音信号转换成二维幅度谱图，或者通过梅尔尺度滤波器转换成梅尔谱图或对数梅尔谱图。变换得到的二维图像，即可通过CNN或其他适用于信号处理的神经网络来进行训练。但是这些CNN网络深度上往往都比较浅，无法利用深度学习的优势来提取更深层次语音信号的特征，并且结构往往简单，无法处理更复杂的分离任务且分离效果不令人满意。
[0003]堆叠沙漏网络是是用来解决在人体姿态上的相关问题的一种神经网络，在堆叠沙漏网络中，每个阶段的沙漏模块都是一个简单的轻量级网络，包含自己的下采样和上采样路径，将前一阶段的沙漏网络按照端到端的方式首尾叠加起来就构成了堆叠沙漏网络。堆叠后的沙漏网络通过中间监督来保证网络各层参数的正常更新。堆叠沙漏网络的最初设计的目的是为了解决在人体姿态上的相关问题，它的重复推理的结构可以使得沙漏网络在人体关节的...

【技术保护点】

【技术特征摘要】
1.基于堆叠沙漏网络的音乐源分离方法，其特征在于，包括步骤：S1、将原始混合语音信号经过分帧、加窗、傅里叶变换得到原始混合语音信号频谱图，所述原始混合语音信号频谱图包括原始混合信号幅度谱和原始混合信号相位谱；S2、将原始混合信号幅度谱输入堆叠沙漏网络，所述堆叠沙漏网络包括四个以端对端的方式首尾堆叠的沙漏模块，原始混合信号幅度谱经过堆叠沙漏网络后得到第一人声预测值和第一伴奏预测值；每个沙漏模块下采样第一次卷积后的输出通道等差式递增；S3、将第一人声预测值、第一伴奏预测值结合时频掩模得到经过时频掩模后的第二人声预测值和经过时频掩模后的第二伴奏预测值；将第二人声预测值和第二伴奏预测值分别与原始混合信号相位谱结合，并分别经过逆傅里叶变换得到预测人声信号和预测伴奏信号。2.如权利要求1所述的基于堆叠沙漏网络的音乐源分离方法，其特征在于，堆叠沙漏网络还包括一个由五个连续卷积层构成的初始卷积模块，所述卷积模块设置在四个沙漏模块之前，所述卷积模块不改变输入图像的大小，只增加图像的输出通道数。3.如权利要求2所述的基于堆叠沙漏网络的音乐源分离方法，其特征在于，四个沙漏模块均为四阶沙漏模块，输入的谱图在每个沙漏模块中都要经过四个连续的下采样，以不断减半输入谱图分辨率大小。4.如权利要求3所述的基于堆叠沙漏网络的音乐源分离方法，其特征在于，在每个沙漏模块内的卷积层后还设有一个注意力层，在每个沙漏模块的卷积层中还设有批标准化和Leaky_relu激活函数来改进反向梯度传播和参数的更新。5.如权利要求3所述...

【专利技术属性】
技术研发人员：孙超，
申请(专利权)人：成都明杰科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人