System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度学习的海豚声音生成方法技术_技高网

一种基于深度学习的海豚声音生成方法技术

技术编号:40521759 阅读:17 留言:0更新日期:2024-03-01 13:40
本发明专利技术公开了一种基于深度学习的海豚声音生成方法,属于声音合成技术领域,本发明专利技术中采用EMD分解算法对海豚原始声音进行分解,得到多个EMD原始信号,每个EMD原始信号包含部分声音特征,再提取奇异值和时频特征,实现获取每个EMD原始信号的声音特征,采用深度学习模型处理奇异值特征矩阵和时频特征矩阵,生成EMD估计信号,将多个EMD估计信号进行叠加组合,得到海豚声音。本发明专利技术中将海豚原始声音进行了分解,使得每个EMD原始信号仅包含海豚原始声音的部分特征,数据量更少,复杂度更低,能提高生成海豚声音的精度。

【技术实现步骤摘要】

本专利技术涉及声音合成,具体涉及一种基于深度学习的海豚声音生成方法


技术介绍

1、近年来,有研究尝试使用人工智能技术来模拟海豚的声音生成。例如,一种基于生成对抗网络的海豚叫声生成方法被提出,该方法通过训练判别器模型和生成器模型来生成海豚叫声。这种技术不仅有助于更深入地理解海豚的声音语言,也为人工合成海豚声音提供了方向。

2、海豚发出的声音包括以下特点:高频率、宽频带、由一系列复杂而多变的音调组成、以及具备声纳定位与回声定位。因此,海豚声音本身融合大量信息,且具备高频率和宽频带的特征,若采用现有的海豚叫声生成方法,直接以海豚叫声样本为训练样本,训练后的生成器模型生成的海豚声音精度较低。


技术实现思路

1、针对现有技术中的上述不足,本专利技术提供的一种基于深度学习的海豚声音生成方法解决了现有的海豚叫声生成方法生成的海豚声音精度低的问题。

2、为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于深度学习的海豚声音生成方法,包括以下步骤:

3、s1、采用emd分解算法对海豚原始声音进行分解,得到多个emd原始信号;

4、s2、对每个emd原始信号提取奇异值,构建奇异值特征矩阵;

5、s3、对每个emd原始信号提取时频特征,构建时频特征矩阵;

6、s4、采用深度学习模型处理奇异值特征矩阵和时频特征矩阵,生成emd估计信号;

7、s5、将多个emd估计信号进行组合,生成海豚声音。

8、本专利技术的有益效果为:本专利技术中采用emd分解算法对海豚原始声音进行分解,得到多个emd原始信号,每个emd原始信号包含部分声音特征,再提取奇异值和时频特征,实现获取每个emd原始信号的声音特征,采用深度学习模型处理奇异值特征矩阵和时频特征矩阵,生成emd估计信号,将多个emd估计信号进行叠加组合,得到海豚声音。本专利技术中将海豚原始声音进行了分解,使得每个emd原始信号仅包含海豚原始声音的部分特征,数据量更少,复杂度更低,能提高生成海豚声音的精度。

9、进一步地,所述s2包括以下分步骤:

10、s21、根据每个emd原始信号,构建对应的轨迹矩阵;

11、s22、对轨迹矩阵进行奇异值分解,得到奇异值特征向量;

12、s23、根据奇异值特征向量,构建奇异值特征矩阵,a=ata,其中,a为奇异值特征矩阵,a为奇异值特征向量,t为转置运算。

13、进一步地,所述s3包括以下分步骤:

14、s31、提取每个emd原始信号的时域特征,其中,时域特征包括:峰峰值、偏度、峭度和波形因数;

15、s32、对每个emd原始信号进行频域变换,得到频域信号;

16、s33、提取频域信号的频域特征,其中,频域特征包括:谱幅度均值、谱幅度重心、功率谱密度和倒谱系数;

17、s34、将时域特征和频域特征作为元素,构建时频特征向量;

18、s35、根据时频特征向量,构建时频特征矩阵,b=btb,其中,b为时频特征矩阵,b为时频特征向量,t为转置运算。

19、上述进一步地方案的有益效果为:本专利技术中通过奇异值特征矩阵和时频特征矩阵表达海豚原始声音的声音特征,从而减少emd原始信号的数据量。

20、进一步地,所述s4中深度学习模型包括:奇异值特征处理网络、时频特征处理网络、特征拼接单元、第一lstm单元、concat层、第二lstm单元和多个输出单元;

21、所述奇异值特征处理网络的输入端用于输入奇异值特征矩阵,其输出端与特征拼接单元的第一输入端连接;所述时频特征处理网络的输入端用于输入时频特征矩阵,其输出端与特征拼接单元的第二输入端连接;所述特征拼接单元的输出端分别与第一lstm单元中多个cell模块的输入端连接;所述concat层的输入端分别与第一lstm单元中多个cell模块的输出端连接,其输出端分别与第二lstm单元中多个cell模块的输入端连接;每个所述输出单元的输入端与第二lstm单元中一个cell模块的输出端连接,其输出端作为深度学习模型的输出端;所述第一lstm单元中每个cell模块用于输入特征拼接单元输出特征中的一个特征值;所述第二lstm单元中每个cell模块用于输入concat层的输出特征。

22、上述进一步地方案的有益效果为:本专利技术中设置奇异值特征处理网络和时频特征处理网络分别对奇异值特征矩阵和时频特征矩阵进行处理,实现进一步地特征提取,再采用特征拼接单元进行两个网络的特征提取和拼接,第一lstm单元中每个cell模块用于处理一个特征值,利用lstm的记忆性,使得第一lstm单元更好考虑特征拼接单元输出特征中各个特征值的关系,采用concat层对第一lstm单元的输出进行拼接成向量,输入到第二lstm单元中每个cell模块,使得第二lstm单元不仅考虑第二lstm单元中上一个cell模块的输出,同时要综合第一lstm单元的输出,提高生成海豚声音的精度。

23、进一步地,所述奇异值特征处理网络和时频特征处理网络结构相同,均包括:第一卷积块、第二卷积块、第三卷积块、第一上采样层、第二上采样层、第三上采样层、加法器a1和特征显著处理层;

24、所述第一卷积块的输入端作为奇异值特征处理网络或时频特征处理网络的输入端,其输出端分别与第一上采样层的输入端和第二卷积块的输入端连接;所述第二卷积块的输出端分别与第二上采样层的输入端和第三卷积块的输入端连接;所述第三卷积块的输出端与第三上采样层的输入端连接;所述加法器a1的输入端分别与第一上采样层的输出端、第二上采样层的输出端和第三上采样层的输出端连接,其输出端与特征显著处理层的输入端连接;所述特征显著处理层的输出端作为奇异值特征处理网络或时频特征处理网络的输出端。

25、上述进一步地方案的有益效果为:本专利技术中采用三个卷积块逐步提取特征,在不同深度特征处,设置上采样层进行上采样处理,丰富不同深度特征的数据量,再采用加法器a1进行融合处理,采用特征显著处理层凸出显著特征。

26、进一步地,所述特征显著处理层的表达式为:

27、,

28、其中,xi,z为特征显著处理层输出的第i个特征值,xi为特征显著处理层输入的第i个特征值,xmax为加法器a1的输出特征中最大特征值,i为正整数。

29、上述进一步地方案的有益效果为:本专利技术中特征显著处理层一方面能对输入的特征值进行归一化处理,另一方面能凸出显著特征,使得大的特征值与小的特征值区分更显著。

30、进一步地,所述特征拼接单元的表达式为:

31、,

32、其中,h为特征拼接单元的输出特征,maxpool为最大池化操作,avgpool为平均池化操作,xq为奇异值特征处理网络的输出特征,xs为时频特征处理网络的输出特征,为哈达玛积。

33、上述进一步地方案的有益效果为:在进行特征拼接时,采用最大池化操作和平本文档来自技高网...

【技术保护点】

1.一种基于深度学习的海豚声音生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于深度学习的海豚声音生成方法,其特征在于,所述S2包括以下分步骤:

3.根据权利要求1所述的基于深度学习的海豚声音生成方法,其特征在于,所述S3包括以下分步骤:

4.根据权利要求1所述的基于深度学习的海豚声音生成方法,其特征在于,所述S4中深度学习模型包括:奇异值特征处理网络、时频特征处理网络、特征拼接单元、第一LSTM单元、Concat层、第二LSTM单元和多个输出单元;

5.根据权利要求4所述的基于深度学习的海豚声音生成方法,其特征在于,所述奇异值特征处理网络和时频特征处理网络结构相同,均包括:第一卷积块、第二卷积块、第三卷积块、第一上采样层、第二上采样层、第三上采样层、加法器A1和特征显著处理层;

6.根据权利要求5所述的基于深度学习的海豚声音生成方法,其特征在于,所述特征显著处理层的表达式为:

7.根据权利要求4所述的基于深度学习的海豚声音生成方法,其特征在于,所述特征拼接单元的表达式为:

8.根据权利要求4所述的基于深度学习的海豚声音生成方法,其特征在于,所述输出单元的表达式为:

9.根据权利要求1所述的基于深度学习的海豚声音生成方法,其特征在于,所述S4中深度学习模型在训练时的损失函数为:

10.根据权利要求9所述的基于深度学习的海豚声音生成方法,其特征在于,所述第k个训练参数的表达式为:

...

【技术特征摘要】

1.一种基于深度学习的海豚声音生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于深度学习的海豚声音生成方法,其特征在于,所述s2包括以下分步骤:

3.根据权利要求1所述的基于深度学习的海豚声音生成方法,其特征在于,所述s3包括以下分步骤:

4.根据权利要求1所述的基于深度学习的海豚声音生成方法,其特征在于,所述s4中深度学习模型包括:奇异值特征处理网络、时频特征处理网络、特征拼接单元、第一lstm单元、concat层、第二lstm单元和多个输出单元;

5.根据权利要求4所述的基于深度学习的海豚声音生成方法,其特征在于,所述奇异值特征处理网络和时频特征处理网络结构相同,均包括:第一卷积块、第...

【专利技术属性】
技术研发人员:冯子仪尹晓峰张培珍
申请(专利权)人:广东海洋大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1