【技术实现步骤摘要】
一种基于水下目标及环境信息特征的声音生成方法
本专利技术属于水声信号生成研究领域,具体涉及一种基于水下目标及环境信息特征的声音生成方法。
技术介绍
目前的语音特征提取方法虽然或多或少的在语音音频特征提取上能达到很好的效果,但是其音频数据集都是语音类的,即人说话的语音音频,区分人说话的语音和其他非语音类的背景噪声还是比较容易做到的。但是针对于水声信号,这种声音并非人类语音,这种水声信号可能来自于舰艇的螺旋桨发出的声音,也可能来自于马达声或者环境噪声。传统的语音特征提取方法在进行特征提取的时候难以区分水下目标辐射噪声与其他噪声的特征。因此,要想良好的区分感兴趣的水声信号和其他噪声信号,普通的语音特征提取方法很难实现。传统的音频特征字典的构建过程主要有两步:特征提取过程和字典生成过程。可想而知,如果采集到的掺杂着水声信号和其他背景噪声的音频数据集,即使传统的特征提取方法可以构造出这样的水下目标声音信号特征字典和水下环境声音信号特征字典,但是生成的声音在进行分类或者识别实验上的准确率肯定大打折扣,毕竟传统的特征提取方法无法良好区分信号辐射噪声和其他噪声,因此利用传统特征提取方法构造出的水下目标声音信号特征字典和水下环境声音信号特征字典进行水声信号生成时,会导致生成的水声信号的效果较差。同时,虽然现有TTS声音生成模型在语音生成上表现出了有效的成果,但是由于现有TTS声音生成模型发音字典采用的是音素字典,导致生成的声音仅限于人类的语音,从而使得现有TTS声音生成模型在水声信号生成上的应用受到限制,因此,无法利用 ...
【技术保护点】
1.一种基于水下目标及环境信息特征的声音生成方法,其特征在于,该方法包括以下步骤:/n步骤一、对于水下目标S1,采集该水下目标的一条声音信号样本后,对采集的声音信号样本按频率通道进行并行处理,构建出基于频率通道处理的听觉显著图;/n步骤二、按时域对采集的声音信号样本和构建的听觉显著图进行分帧处理,得到多组声音信号和听觉显著图,每组内的声音信号和听觉显著图的时间长度相同;/n将分帧后的声音信号和听觉显著图输入卷积神经网络模型,提取出每一帧声音信号对应的多通道特征;并将各帧声音信号所对应的多通道特征按照时间顺序进行线性组合,生成采集的声音信号样本的特征矩阵;/n步骤三、再采集水下目标S1的M-1条声音信号样本,并对采集好的各条声音信号样本分别进行步骤一和步骤二的处理,得到每条声音信号样本对应的特征矩阵;/n将水下目标S1的全部声音信号样本所对应的特征矩阵按通道进行叠加,得到水下目标S1对应的特征矩阵;/n步骤四、对于其它水下目标和水下环境条件,重复步骤一至步骤三的过程,获得其它各水下目标所对应的特征矩阵,以及各水下环境条件所对应的特征矩阵;/n步骤五、分别建立各水下目标特征单词与对应特征矩 ...
【技术特征摘要】
1.一种基于水下目标及环境信息特征的声音生成方法,其特征在于,该方法包括以下步骤:
步骤一、对于水下目标S1,采集该水下目标的一条声音信号样本后,对采集的声音信号样本按频率通道进行并行处理,构建出基于频率通道处理的听觉显著图;
步骤二、按时域对采集的声音信号样本和构建的听觉显著图进行分帧处理,得到多组声音信号和听觉显著图,每组内的声音信号和听觉显著图的时间长度相同;
将分帧后的声音信号和听觉显著图输入卷积神经网络模型,提取出每一帧声音信号对应的多通道特征;并将各帧声音信号所对应的多通道特征按照时间顺序进行线性组合,生成采集的声音信号样本的特征矩阵;
步骤三、再采集水下目标S1的M-1条声音信号样本,并对采集好的各条声音信号样本分别进行步骤一和步骤二的处理,得到每条声音信号样本对应的特征矩阵;
将水下目标S1的全部声音信号样本所对应的特征矩阵按通道进行叠加,得到水下目标S1对应的特征矩阵;
步骤四、对于其它水下目标和水下环境条件,重复步骤一至步骤三的过程,获得其它各水下目标所对应的特征矩阵,以及各水下环境条件所对应的特征矩阵;
步骤五、分别建立各水下目标特征单词与对应特征矩阵的映射关系,以及各水下环境特征单词与对应特征矩阵的映射关系,根据全部的映射关系组成特征字典;
步骤六、建立声音生成模型,所述声音生成模型包括编码器、解码器和后处理网络;
对于待生成的某目标在某环境下的水声信号,根据待生成水声信号对应的水下目标特征单词和水下环境特征单词,分别从特征字典中找出与水下目标特征单词和水下环境特征单词对应的特征矩阵;
将水下目标特征单词和水下环境特征单词输入编码器,编码器结合找出的特征矩阵,从待生成水声信号对应的水下目标特征单词和水下环境特征单词中提取高层特征,并对提取出的高层特征进行处理,获得编码器的最终表示;
再将编码器的最终表示输入解码器,解码器输出梅尔标度谱图;梅尔标度谱图再输入后处理网络,通过后处理网络生成水声信号的波形。
2.根据权利要求1所述的一种基于水下目标及环境信息特征的声音生成方法,其特征在于,所述步骤一中,对采集的声音信号样本按频率通道进行并行处理,构建出基于频率通道处理的听觉显著图,其具体过程为:
将采集的声音信号样本与由64个Gammatone滤波器叠加成的带通滤波器进行卷积,得到64个频率通道的声音信号响应;
再将每个频率通道的声音信号响应通过8个一维高斯平滑滤波器进行任意方向的卷积,获得卷积结果;对卷积结果进行向下采样得到每个频率通道的声音信号响应在8个尺度上的表示Fi,i=1,2,…,8,再利用Fi计算每个频率通道的声音信号响应在不同尺度上的听觉显著度;
将每个频率通道的声音信号响应在不同尺度上的听觉显著度进行放大并归一化,得到归...
【专利技术属性】
技术研发人员:王红滨,沙忠澄,何鸣,王念滨,周连科,张毅,何茜茜,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。