System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度学习的混叠鸟鸣声分离方法技术_技高网

一种基于深度学习的混叠鸟鸣声分离方法技术

技术编号:40827082 阅读:4 留言:0更新日期:2024-04-01 14:48
本发明专利技术公开了一种基于深度学习的混叠鸟鸣声分离方法,对混叠鸟鸣声信号的特征进行提取,并在分离网络中计算其掩码向量,再通过解码器输出纯净鸟鸣声,将所有训练样本训练100次,逐渐提高分离效果,步骤一、在编码器中计算混叠鸟鸣声信号的特征向量;步骤二、在分离网络中,使用该特征向量计算出每一个鸟鸣声声源对应的掩码向量;步骤三、使用掩码向量处理编码器特征;步骤四、使用解码器重构纯净鸟鸣声信号。本发明专利技术方法具有分离效果好的特点,SI‑SNRi和SDRi分别达16.8dB和17.2dB。

【技术实现步骤摘要】

本专利技术涉及一种基于深度学习的混叠鸟鸣声分离方法,是一种基于ratt-gated-tasnet的深度学习混叠鸟鸣声分离方法。


技术介绍

1、近年来,全球工业化的快速发展导致了对环境的严重破坏。生物的多样性是地球生命的基础,也是人类社会赖以发展的基础,更是赖以生存的基础。生物多样性会影响一个国家或地区的发展,保护生物多样性就是保护生物其本身,更是在保护人类自己。在生物多样性的保护工作中,鸟类的保护也是一个极其重要的环节,某些鸟类的种群数量可以作为生态环境评估的重要指标以此来达到保护生物多样性的目的,因此,鸟类的识别在鸟类保护工作方面具有很大的意义。然而,直接使用在自然环境下采集的鸟鸣声来识别某种鸟类明显具有一定的难度,现场录入的鸟鸣声会包含许多难以避免的其他鸟类鸣叫声的噪声。所以,很有必要对开放环境下混叠鸟鸣声进行声源分离,将纯净的鸟鸣声从其他鸟类鸣叫声中分离出来并用于鸟类识别,纯净的鸟鸣声能大幅度提高鸟鸣声识别的效率。

2、综上,有必要设计一种混叠鸟鸣声分离方法。


技术实现思路

1、本专利技术所要解决的技术问题是提供一种基于深度学习的混叠鸟鸣声分离方法,该方法具有分离效果好的特点。

2、专利技术的技术解决方案如下:

3、一种基于深度学习的混叠鸟鸣声分离方法,包括以下步骤:

4、步骤一、在编码器中计算两种混叠鸟鸣声信号的特征向量;

5、所述的特征向量是指中间特征空间中对应的特征向量;得到的是d维矩阵,也可以说是鸟鸣声信号的特征向量,d一般取2;

6、步骤二、在分离网络中计算掩码向量;

7、将混叠鸟鸣声信号对应的特征向量通过分离网络模块,获得每个纯净鸟鸣声在时间步长内对应的掩码向量;

8、步骤三、使用掩码向量处理编码器特征;

9、使用从分离网络中得到的掩码向量处理编码器中输出的混叠鸟鸣声特征向量;

10、步骤四、使用解码器重构纯净鸟鸣声信号;

11、将分离网络输出的特征向量经过解码器的一维转置卷积处理后即可得到两种纯净的鸟鸣声信号,实现混叠鸟鸣声的分离。

12、步骤一中:将混叠鸟鸣声音频信号输送到编码器中,编码器名为残差多头注意力编码器((residual multihead attetionencoder,即resmhaencoder),它是一个经过改进的卷积神经网络,由一个一维卷积、多头注意力机制和两个relu激活函数组成;最终得到两种混叠鸟鸣声的特征向量w;有:

13、w=h(xut);

14、其中:

15、h()是relu函数,保证每个特征的非负性。这里的relu函数是一维卷积操作里的relu函数,后两个relu函数是残差多头注意力机制的组成部分;

16、x即x(t),

17、其中x(t)为混叠音频的离散波形,由c个干净音频的波形si(t),i=1,...,c组成,在本专利中c=2,混叠音频中存在两种鸟鸣声需要分离

18、u是编码器的基底函数,为一维卷积函数,一维卷积由一个逐点卷积与深度可分离卷积组成,包含n个向量,n为编码器的滤波器数量,n=512,每个向量长度为l=16。

19、在编码器中以叠加的方式加入两层多头注意力机制。将w再输入到中,第一个注意力机制的输出为第二个注意力机制的输入,经过注意力机制处理后,得到的是2维的值矩阵,这个就是步骤一的最终结果,2维的值矩阵即特征向量w。

20、多头注意力机制的表达式如下:

21、multihead(q,k,v)=concat(head1,...,headn)w°

22、其中,headi=attention(qwiq,kwik,vwiv),wiq,wik,wiv,wo为映射参数矩阵,用于线性变化参数,统一维度;wiq,wik,wiv的维度为512x64,wo的维度为512x512,根据梯度反向传播自动更新,取值范围为(0,1),concat函数将每个head的值进行维度连接,保证所有维度为512x512(一共有8个头,一个头的维度为512x64,8个就是512x512);multihead(q,k,v)最终是一个512x512的二维特征矩阵;残差多头注意力编码器:首先经过一个relu函数,再经过两个mha模块,最后再经过一个relu函数。

23、步骤二中,将编码器的输出输入至分离网络,在分离网络中,包括以下两个步骤:

24、步骤21,通过归一化运算保证数据的有效性和稳定性,再经过一个线性的1×1-conv块,其作为瓶颈层确定了后续卷积块的输入和残差路径中的信道数量;

25、归一化选择的是全局归一化(global layer normalization,gln),gln在通道和时间维度上对特征进行归一化,gln的表达式如下:

26、

27、

28、

29、其中,f是特征向量w,n和t分别为w的维度和片段数,γ,β是可训练参数;通常这两个取值为1,再通过反向传播来更新这两个参数并不断地调整取值,一般在(0,1),ε是常数,取值为0.00001,作用是防止除0;⊙是同或运算符号。n=512,t=100;

30、步骤22,经过门控时间卷积网络(gated-temporal convolutionalnetwork,gated-tcn)计算出分离鸟鸣声需要的掩码向量。门控时间卷积网络的具体设计为:由3层8个具有不同膨胀因子的门控卷积块堆叠组成,3层8个,是指每层8个,一共三层,每8个一组,每一个门控卷积块的结果通过跳过连接路径的结果进行异或运算,确保了足够大的时间上下文窗口,从而更好地利用语音信号的长期依赖性,每一个门控卷积块的残差路径用作下一个门控卷积块的输入,所有门控卷积块跳过连接路径的值进行异或运算,用作门控时间卷积网络的输出,即得到掩码向量;掩码向量为512x512的矩阵向量。

31、门控卷积块的设计(后面有设计图)为:每个1×1-conv块后面连接d-conv块,d-conv是学习数据的特征表示,从而提高网络的学习能力,在它们后面分别添加门控线性单元(glus)和全局归一化运算,以加快训练。图4中上方还有2个1×1-conv块,用于降低模型参数和计算成本,提高网络训练效率。

32、模型中用到的归一化都是这一种归一化,包括后面流程图的normalization和layernorm都是这一种归一化。

33、而且步骤21和22都有1×1-conv块,是独立的。

34、步骤三中,门控时间卷积网络的输出首先经过prelu函数,其作用是保证特征向量的非负性,然后被传递到核大小为1的逐点卷积块(1×1-conv)计算目标音源的掩码向量mi。再与编码器的输出w进行逐元素相乘,得到每个纯净音源的特征向量di。最后经过sigmoid函数保证特征向量的值在区间(0,1),特征向量di的定义本文档来自技高网...

【技术保护点】

1.一种基于深度学习的混叠鸟鸣声分离方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于深度学习的混叠鸟鸣声分离方法,其特征在于,步骤一中:将混叠鸟鸣声音频信号输送到编码器中,编码器名为残差多头注意力编码器((Residual MultiHead AttetionEncoder,即ResMHAEncoder),它是一个经过改进的卷积神经网络,由一个一维卷积、多头注意力机制和两个ReLu激活函数组成;最终得到两种混叠鸟鸣声的特征向量w;有:

3.根据权利要求2所述的基于深度学习的混叠鸟鸣声分离方法,其特征在于,步骤二中,将编码器的输出输入至分离网络,在分离网络中,包括以下两个步骤:

4.根据权利要求3所述的基于深度学习的混叠鸟鸣声分离方法,其特征在于,步骤三中,门控时间卷积网络的输出首先经过PReLu函数,其作用是保证特征向量的非负性,然后被传递到核大小为1的逐点卷积块(1×1-conv)计算目标音源的掩码向量mi。再与编码器的输出w进行逐元素相乘,得到每个纯净音源的特征向量di。最后经过sigmoid函数保证特征向量的值在区间(0,1),特征向量di的定义如下式:

5.根据权利要求4所述的基于RAtt-Gated-TasNet的深度学习混叠鸟鸣声分离方法,其特征在于,步骤四中,采用解码器的转置卷积运算重构纯净音源的波形

...

【技术特征摘要】

1.一种基于深度学习的混叠鸟鸣声分离方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于深度学习的混叠鸟鸣声分离方法,其特征在于,步骤一中:将混叠鸟鸣声音频信号输送到编码器中,编码器名为残差多头注意力编码器((residual multihead attetionencoder,即resmhaencoder),它是一个经过改进的卷积神经网络,由一个一维卷积、多头注意力机制和两个relu激活函数组成;最终得到两种混叠鸟鸣声的特征向量w;有:

3.根据权利要求2所述的基于深度学习的混叠鸟鸣声分离方法,其特征在于,步骤二中,将编码器的输出输入至分离网络,在分离网络...

【专利技术属性】
技术研发人员:陈爱斌向刚唐璐王肇任
申请(专利权)人:中南林业科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1