一种基于水下目标及环境信息特征的声音生成方法技术

技术编号:25525427 阅读:36 留言:0更新日期:2020-09-04 17:14
一种基于水下目标及环境信息特征的声音生成方法,它属于水声信号生成研究领域。本发明专利技术解决了利用传统特征提取方法构造出的水下目标声音信号特征字典和环境声音信号特征字典进行水声信号生成时会导致生成的水声信号的效果差,以及现有TTS声音生成模型在水声信号生成上的应用受到限制的问题。本发明专利技术结合听觉注意机制的特点,对水下目标声音信号和环境声音信号进行特征提取时将其特征显著化,提高水下目标声音信号和环境声音信号特征字典的特征准确度。将特征字典作为声音生成模型的发声字典,嵌入声音生成模型,提升了生成的水声信号的效果,本发明专利技术使TTS的应用领域从对人类语音的生成扩展到对水声信号的生成。本发明专利技术方法可以应用于水声信号的生成。

【技术实现步骤摘要】
一种基于水下目标及环境信息特征的声音生成方法
本专利技术属于水声信号生成研究领域,具体涉及一种基于水下目标及环境信息特征的声音生成方法。
技术介绍
目前的语音特征提取方法虽然或多或少的在语音音频特征提取上能达到很好的效果,但是其音频数据集都是语音类的,即人说话的语音音频,区分人说话的语音和其他非语音类的背景噪声还是比较容易做到的。但是针对于水声信号,这种声音并非人类语音,这种水声信号可能来自于舰艇的螺旋桨发出的声音,也可能来自于马达声或者环境噪声。传统的语音特征提取方法在进行特征提取的时候难以区分水下目标辐射噪声与其他噪声的特征。因此,要想良好的区分感兴趣的水声信号和其他噪声信号,普通的语音特征提取方法很难实现。传统的音频特征字典的构建过程主要有两步:特征提取过程和字典生成过程。可想而知,如果采集到的掺杂着水声信号和其他背景噪声的音频数据集,即使传统的特征提取方法可以构造出这样的水下目标声音信号特征字典和水下环境声音信号特征字典,但是生成的声音在进行分类或者识别实验上的准确率肯定大打折扣,毕竟传统的特征提取方法无法良好区分信号辐射噪声和其他噪声,因此利用传统特征提取方法构造出的水下目标声音信号特征字典和水下环境声音信号特征字典进行水声信号生成时,会导致生成的水声信号的效果较差。同时,虽然现有TTS声音生成模型在语音生成上表现出了有效的成果,但是由于现有TTS声音生成模型发音字典采用的是音素字典,导致生成的声音仅限于人类的语音,从而使得现有TTS声音生成模型在水声信号生成上的应用受到限制,因此,无法利用现有TTS声音生成模型进行水声信号的生成。
技术实现思路
本专利技术的目的是为解决利用传统特征提取方法构造出的水下目标声音信号特征字典和水下环境声音信号特征字典进行水声信号生成时会导致生成的水声信号的效果差,以及现有TTS声音生成模型在水声信号生成上的应用受到限制的问题,而提出了一种基于水下目标及环境信息特征的声音生成方法。本专利技术为解决上述技术问题采取的技术方案是:一种基于水下目标及环境信息特征的声音生成方法,该方法包括以下步骤:步骤一、对于水下目标S1,采集该水下目标的一条声音信号样本后,对采集的声音信号样本按频率通道进行并行处理,构建出基于频率通道处理的听觉显著图;步骤二、按时域对采集的声音信号样本和构建的听觉显著图进行分帧处理,得到多组声音信号和听觉显著图,每组内的声音信号和听觉显著图的时间长度相同;将分帧后的声音信号和听觉显著图输入卷积神经网络模型,提取出每一帧声音信号对应的多通道特征;并将各帧声音信号所对应的多通道特征按照时间顺序进行线性组合,生成采集的声音信号样本的特征矩阵;步骤三、再采集水下目标S1的M-1条声音信号样本,并对采集好的各条声音信号样本分别进行步骤一和步骤二的处理,得到每条声音信号样本对应的特征矩阵;将水下目标S1的全部声音信号样本所对应的特征矩阵按通道进行叠加,得到水下目标S1对应的特征矩阵;步骤四、对于其它水下目标和水下环境条件,重复步骤一至步骤三的过程,获得其它各水下目标所对应的特征矩阵,以及各水下环境条件所对应的特征矩阵;步骤五、分别建立各水下目标特征单词与对应特征矩阵的映射关系,以及各水下环境特征单词与对应特征矩阵的映射关系,根据全部的映射关系组成特征字典;步骤六、建立声音生成模型,所述声音生成模型包括编码器、解码器和后处理网络;对于待生成的某目标在某环境下的水声信号,根据待生成水声信号对应的水下目标特征单词和水下环境特征单词,分别从特征字典中找出与水下目标特征单词和水下环境特征单词对应的特征矩阵;将水下目标特征单词和水下环境特征单词输入编码器,编码器结合找出的特征矩阵,从待生成水声信号对应的水下目标特征单词和水下环境特征单词中提取高层特征,并对提取出的高层特征进行处理,获得编码器的最终表示;再将编码器的最终表示输入解码器,解码器输出梅尔标度谱图;梅尔标度谱图再输入后处理网络,通过后处理网络生成水声信号的波形。本专利技术的有益效果是:本专利技术提出了一种基于水下目标及环境信息特征的声音生成方法,本专利技术结合听觉注意机制的特点,利用听觉显著性计算模型生成的水下目标声音信号和水下环境声音信号听觉显著图作为听觉注意力的先验知识,在对水下目标声音信号和水下环境声音信号进行特征提取时将其特征显著化,从而提高水下目标声音信号和水下环境声音信号特征字典的特征准确度。将特征字典作为声音生成模型的发声字典,嵌入声音生成模型,提升了生成的水声信号的效果。本专利技术结合水下目标和水下环境特征,生成某目标在某环境下的声音信号的声音生成模型,将特征字典作为声音生成模型的发声字典,嵌入声音生成模型,根据待生成水声信号的水下目标特征单词和水下环境特征单词从特征字典中找出相应的特征矩阵,将特征矩阵输入到基于SEQ2FEA的编码器中提取出高层特征再转化为最终表征输入到解码器,基于因果卷积的解码器得到输入特征对应的mel输出,通过mel输出预测声码器发声参数,生成水声信号波形。本专利技术的声音生成模型可以有效应用于水声信号生成,使TTS的应用领域从对人类语音的生成扩展到对水声信号的生成。附图说明图1是基于频率通道处理的听觉显著性计算模型图;图2是对水下目标声音信号和水下环境声音信号进行特征提取的原理图;图3是卷积神经网络结构图;图4是水下目标声音信号和水下环境信号进行特征字典生成的流程图;图5是特征字典结构图;图6是SEQ2FEA网络的结构图;图7是SEQ2FEA网络的多组多尺度一维卷积滤波器进行特征提取的示意图;图8是基于水下目标-环境特征的声音生成模型的架构图;图9是基于SEQ2FEA网络的编码器结构图;图10是解码器结构图;图11是后处理网络结构图;图12是dropout示意图;图13是90%功率150m条件下的声音信号时频图;图14是90%功率150m条件下的声音信号听觉显著图;图15是选择8马力100m声音信号来构建的特征字典图;图16是选择8马力350m声音信号来构建的特征字典图;图17是选择90%功率150m声音信号来构建的特征字典图;图18是选择大船打捞浮标声音信号来构建的特征字典图;图19是50power条件下的声音信号时频图;图20是50power条件下的声音信号听觉显著图;图21是选择0power声音信号来构建的特征字典图;图22是选择80power声音信号来构建的特征字典图;图23是选择work0声音信号来构建的特征字典图;图24是选择work80声音信号来构建的特征字典图。具体实施方式具体实施方式一:本实施方式所述的一种基于水下目标及环境信息特征的声音生成方法,所述方法具体包括以下步骤:步骤一、对于水下目标S1,采集该水下目标的一条声音信号样本后(声音信号样本包本文档来自技高网
...

【技术保护点】
1.一种基于水下目标及环境信息特征的声音生成方法,其特征在于,该方法包括以下步骤:/n步骤一、对于水下目标S1,采集该水下目标的一条声音信号样本后,对采集的声音信号样本按频率通道进行并行处理,构建出基于频率通道处理的听觉显著图;/n步骤二、按时域对采集的声音信号样本和构建的听觉显著图进行分帧处理,得到多组声音信号和听觉显著图,每组内的声音信号和听觉显著图的时间长度相同;/n将分帧后的声音信号和听觉显著图输入卷积神经网络模型,提取出每一帧声音信号对应的多通道特征;并将各帧声音信号所对应的多通道特征按照时间顺序进行线性组合,生成采集的声音信号样本的特征矩阵;/n步骤三、再采集水下目标S1的M-1条声音信号样本,并对采集好的各条声音信号样本分别进行步骤一和步骤二的处理,得到每条声音信号样本对应的特征矩阵;/n将水下目标S1的全部声音信号样本所对应的特征矩阵按通道进行叠加,得到水下目标S1对应的特征矩阵;/n步骤四、对于其它水下目标和水下环境条件,重复步骤一至步骤三的过程,获得其它各水下目标所对应的特征矩阵,以及各水下环境条件所对应的特征矩阵;/n步骤五、分别建立各水下目标特征单词与对应特征矩阵的映射关系,以及各水下环境特征单词与对应特征矩阵的映射关系,根据全部的映射关系组成特征字典;/n步骤六、建立声音生成模型,所述声音生成模型包括编码器、解码器和后处理网络;/n对于待生成的某目标在某环境下的水声信号,根据待生成水声信号对应的水下目标特征单词和水下环境特征单词,分别从特征字典中找出与水下目标特征单词和水下环境特征单词对应的特征矩阵;/n将水下目标特征单词和水下环境特征单词输入编码器,编码器结合找出的特征矩阵,从待生成水声信号对应的水下目标特征单词和水下环境特征单词中提取高层特征,并对提取出的高层特征进行处理,获得编码器的最终表示;/n再将编码器的最终表示输入解码器,解码器输出梅尔标度谱图;梅尔标度谱图再输入后处理网络,通过后处理网络生成水声信号的波形。/n...

【技术特征摘要】
1.一种基于水下目标及环境信息特征的声音生成方法,其特征在于,该方法包括以下步骤:
步骤一、对于水下目标S1,采集该水下目标的一条声音信号样本后,对采集的声音信号样本按频率通道进行并行处理,构建出基于频率通道处理的听觉显著图;
步骤二、按时域对采集的声音信号样本和构建的听觉显著图进行分帧处理,得到多组声音信号和听觉显著图,每组内的声音信号和听觉显著图的时间长度相同;
将分帧后的声音信号和听觉显著图输入卷积神经网络模型,提取出每一帧声音信号对应的多通道特征;并将各帧声音信号所对应的多通道特征按照时间顺序进行线性组合,生成采集的声音信号样本的特征矩阵;
步骤三、再采集水下目标S1的M-1条声音信号样本,并对采集好的各条声音信号样本分别进行步骤一和步骤二的处理,得到每条声音信号样本对应的特征矩阵;
将水下目标S1的全部声音信号样本所对应的特征矩阵按通道进行叠加,得到水下目标S1对应的特征矩阵;
步骤四、对于其它水下目标和水下环境条件,重复步骤一至步骤三的过程,获得其它各水下目标所对应的特征矩阵,以及各水下环境条件所对应的特征矩阵;
步骤五、分别建立各水下目标特征单词与对应特征矩阵的映射关系,以及各水下环境特征单词与对应特征矩阵的映射关系,根据全部的映射关系组成特征字典;
步骤六、建立声音生成模型,所述声音生成模型包括编码器、解码器和后处理网络;
对于待生成的某目标在某环境下的水声信号,根据待生成水声信号对应的水下目标特征单词和水下环境特征单词,分别从特征字典中找出与水下目标特征单词和水下环境特征单词对应的特征矩阵;
将水下目标特征单词和水下环境特征单词输入编码器,编码器结合找出的特征矩阵,从待生成水声信号对应的水下目标特征单词和水下环境特征单词中提取高层特征,并对提取出的高层特征进行处理,获得编码器的最终表示;
再将编码器的最终表示输入解码器,解码器输出梅尔标度谱图;梅尔标度谱图再输入后处理网络,通过后处理网络生成水声信号的波形。


2.根据权利要求1所述的一种基于水下目标及环境信息特征的声音生成方法,其特征在于,所述步骤一中,对采集的声音信号样本按频率通道进行并行处理,构建出基于频率通道处理的听觉显著图,其具体过程为:
将采集的声音信号样本与由64个Gammatone滤波器叠加成的带通滤波器进行卷积,得到64个频率通道的声音信号响应;
再将每个频率通道的声音信号响应通过8个一维高斯平滑滤波器进行任意方向的卷积,获得卷积结果;对卷积结果进行向下采样得到每个频率通道的声音信号响应在8个尺度上的表示Fi,i=1,2,…,8,再利用Fi计算每个频率通道的声音信号响应在不同尺度上的听觉显著度;
将每个频率通道的声音信号响应在不同尺度上的听觉显著度进行放大并归一化,得到归...

【专利技术属性】
技术研发人员:王红滨沙忠澄何鸣王念滨周连科张毅何茜茜
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1