混音环境中的端到端目标声信号提取方法及系统技术方案

技术编号:36913216 阅读:20 留言:0更新日期:2023-03-18 09:31
本发明专利技术提供一种混音环境中的端到端目标声信号提取方法及系统,包括:S1:构建端到端目标声信号抽取模型,端到端目标声信号抽取模型包括:可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元;S2:获取声信号,将声信号输入可学习编码单元,通过可学习编码单元提取声信号的隐式声音特征图;S3:将隐式声音特征图输入基于因果卷积机制的分离单元进行分离,获得掩码函数;S4:将隐式声音特征图和掩码函数输入可学习解码单元进行编码,获得重构声信号。本发明专利技术中端到端目标声信号抽取模型无需预处理、推理时间短,在不同的音频类别时鲁棒性较好。棒性较好。棒性较好。

【技术实现步骤摘要】
混音环境中的端到端目标声信号提取方法及系统


[0001]本专利技术涉及声音数字信号处理领域,尤其涉及一种混音环境中的端到端目标声信号提取方法及系统。

技术介绍

[0002]声音分离是信号处理中的一项基础性任务,在现实世界中有着广泛的应用,例如从有噪声的声音信号中分离出干净的声音来提高声音自动识别的准确性。具体来说,这项工作的目的正是要从声音的混合物中分离出特定目标所发出的声音。这项任务对于声音事件检测、对话和会议记录的信号质量提升尤其重要。声音分离的研究跨越了几十年,是声音分离研究中最活跃、最具竞争力的领域。
[0003]在深度学习时代之前,许多传统的方法被引入该任务,如非负矩阵分解(NMF),计算听觉场景分析(CASA)和概率模型。然而,这些模型通常只适用于封闭的扬声器,这大大限制了它们的实际应用。
[0004]非负矩阵分解(NMF)是一种无监督学习算法,目的在于提取有用的特征,工作原理类似于PCA,可以识别出组合成数据的原始分量,也可以用于降维,通常不用于对数据进行重建或者编码。但该方法的缺点是,NMF生成的分量是没有顺序的,分量顺序和原始信号的顺序的匹配存在偶然性,最终信号分离效果并不稳定,存在一定的失败率。
[0005]计算听觉场景分析(CASA)就是利用计算机技术,让计算机模仿人类对听觉信号的处理过程进行建模,从而具备和人类一样从复杂混合声源中感知声音、处理声音、解释声音的能力。目前CASA系统有两种主要的模型,一个是数据驱动型,指的是信息从低级到高级的单向流动过程;另外一种是信息双向流动的图式驱动模型,模型接受信息后可以进行反馈,并且参与预测未来的声音。但是计算听觉场景分析方法普遍难以找到合适的声音分离线索,完成目标声音信号和噪声信号的分离,而且模型尺寸普遍偏大,计算时间较长。
[0006]随着深度学习技术在各个领域的成功,研究人员开始设计基于数据的模型来分离未知声源的混合,这克服了传统方法的障碍。一般来说,用于单通道声音分离的深度学习技术可以分为两类:时频域(T

F)域方法和端到端时域方法。
[0007]T

F方法基于计算短时傅里叶变换(STFT)生成的T

F特征,分离每个源的T

F特征,然后通过STFT逆重构源波形。它们通常使用混合波的原始相位来合成估计的源波形,并保留有噪声混合波的相位,这分离结果在存在相位上的偏差,最终分离出的声音质量也不稳定。
[0008]端到端时域方法利用编解码器框架直接建模混合波形的时域方法,Wave

U

Net通过对时域波形进行连续的卷积编码的下采样操作,然后进行连续的反卷积解码的上采样操作还原波形,期间利用跳跃连接拼接相近尺寸的上下采样信息。这类方法已经可以实现分离质量的稳定性,但较深的神经网络层数和两倍采样频率的输入长度决定了其高计算成本和低实时性。
[0009]总体而言,现有的针对声信号的分离提取方法,存在计算成本高、稳定性差、实时
性低等缺点。
[0010]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0011]为解决上述技术问题,本专利技术提供一种混音环境中的端到端目标声信号提取方法,包括:S1:构建端到端目标声信号抽取模型,端到端目标声信号抽取模型包括:可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元;S2:获取声信号,将声信号输入可学习编码单元,通过可学习编码单元提取声信号的隐式声音特征图;S3:将隐式声音特征图输入基于因果卷积机制的分离单元进行分离,获得掩码函数;S4:将隐式声音特征图和掩码函数输入可学习解码单元进行编码,获得重构声信号。
[0012]优选的,步骤S2具体为:S21:获取声信号,声信号的波形信号表达式为:x∈R1×
T
,T为一维波形中每个通道的信号序列长度,R为实数集;S22:可学习编码单元将声信号分割为长度为L的无重叠段,通过N个大小同为为L的卷积核对无重叠段进行采样操作,获得N个通道信息;S23:将N个通道信息拼接为隐式声音特征图W,隐式声音特征图的表达式为:其中,x为输入的声信号,ReLU为非线性激活函数,ConblD()为一维卷积运算函数。
[0013]优选的,步骤S4具体为:S41:将基于因果卷积机制的分离单元获得的C个掩码函数与隐式声音特征图进行点积乘法,获得掩蔽后的特征图,计算公式为:其中,W为隐式声音特征图,为Hadamard积,mask
i
为掩码函数,i为掩码函数的编号;W
i
为第i个声源估计的掩蔽后的特征图,W
i
∈R
N
×
M
,N为通道信息的数量,M为掩蔽后的特征图中每个通道的信号序列长度,R为实数集;S42:可学习解码单元通过转置卷积将掩蔽后的特征图还原为一维波形,计算公式为:其中,x
i
为解码单元输出的第i个声源波形序列的一维波形,x
i
∈R1×
T
,T为一维波形中每个通道的信号序列长度,ConvlDTranspose()为转置卷积运算函数;S43:可学习解码单元通过一维转置卷积运算将一维波形重构为重构声信号。
[0014]优选的:
基于因果卷积机制的分离单元由上至下共包括8个卷积层,第一卷积层位于最上层,第一卷积层由一维卷积块组成,向下的每一层卷积层的卷积块均比上一层卷积层的卷积块多一维,第八卷积层位于最下层,第八卷积层由八维卷积块组成。
[0015]一种混音环境中的端到端目标声信号提取系统,包括:模型构建模块,用于构建端到端目标声信号抽取模型,端到端目标声信号抽取模型包括:可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元;特征图提取模块,用于获取声信号,将声信号输入可学习编码单元,通过可学习编码单元提取声信号的隐式声音特征图;分离模块,用于将隐式声音特征图输入基于因果卷积机制的分离单元进行分离,获得掩码函数;重构模块,用于将隐式声音特征图和掩码函数输入可学习解码单元进行编码,获得重构声信号。
[0016]本专利技术具有以下有益效果:1、可学习编码单元和可学习解码单元的架构可以更好的对波形进行特征空间的映射和还原,所需要时间序列长度也更短,避免了时频域方法存在的相位估计问题;2、分离单元可以从不同时间尺度距离和不同距离的通道间学习权重分布,再对权重分布进行累加操作,可以高效快速地计算出掩码函数;3、分离单元采用了残差结构,使用跳跃连接实现了恒等映射,不会产生额外参数及增加计算复杂度,可以增强网络的泛化能力,简化训练过程,并且很大程度上缓解了梯度消失和梯度爆炸等问题;4、端到端目标声信号抽取模型无需预处理、推理时间短,在不同的音频类别时鲁棒性较好。
附图说明
[0017]图1为本专利技术实施例方法流程图;图2为分离单元中每个卷积层的结构图;本专利技术目的的实现、功能特点及优点将结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种混音环境中的端到端目标声信号提取方法,其特征在于,包括:S1:构建端到端目标声信号抽取模型,端到端目标声信号抽取模型包括:可学习编码单元、基于因果卷积机制的分离单元和可学习解码单元;S2:获取声信号,将声信号输入可学习编码单元,通过可学习编码单元提取声信号的隐式声音特征图;S3:将隐式声音特征图输入基于因果卷积机制的分离单元进行分离,获得掩码函数;S4:将隐式声音特征图和掩码函数输入可学习解码单元进行编码,获得重构声信号。2.根据权利要求1所述的混音环境中的端到端目标声信号提取方法,其特征在于,步骤S2具体为:S21:获取声信号,声信号的波形信号表达式为:x∈R1×
T
,T为一维波形中每个通道的信号序列长度,R为实数集;S22:可学习编码单元将声信号分割为长度为L的无重叠段,通过N个大小同为为L的卷积核对无重叠段进行采样操作,获得N个通道信息;S23:将N个通道信息拼接为隐式声音特征图W,隐式声音特征图的表达式为:其中,x为输入的声信号,ReLU为非线性激活函数,ConblD()为一维卷积运算函数。3.根据权利要求1所述的混音环境中的端到端目标声信号提取方法,其特征在于,步骤S4具体为:S41:将基于因果卷积机制的分离单元获得的C个掩码函数与隐式声音特征图进行点积乘法,获得掩蔽后的特征图,计算公式为:其中,W为隐式声音特征图,为Hadamard积,mask
i
为掩码函数,i为掩码函数的编号;W
i
为第i个声源估计的掩蔽后的特征图,W
...

【专利技术属性】
技术研发人员:余永升章林柯宋鹏
申请(专利权)人:海纳科德湖北科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1