语音信号处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26306147 阅读:19 留言:0更新日期:2020-11-10 20:04
本公开提供了一种语音信号处理方法、装置、电子设备及存储介质,属于信号处理技术领域。方法包括:响应于对第一语音信号进行目标操作,对第一类型的第一语音信号进行频谱处理,得到第一语音信号对应的语谱图;调用目标音频转换模型,目标音频转换模型为通过第一音频转换模型和第二音频转换模型进行对抗训练得到的;根据语谱图,通过目标音频转换模型,将第一语音信号转换为第二类型的第二语音信号;对第二语音信号执行目标操作。通过上述方法,使待处理的语音信号可以符合目标操作要求的语音信号,从而简化了语音信号的处理流程,提高了语音信号处理的效率。

【技术实现步骤摘要】
语音信号处理方法、装置、电子设备及存储介质
本公开涉及信号处理
,特别涉及一种语音信号处理方法、装置、电子设备及存储介质。
技术介绍
随着信号处理技术的发展,通过对语音信号进行处理来获取信息已经成为重要的信息获取方式。其中,语音识别成为了一种重要的语音信号处理方式。在相关技术中,电子设备进行语音识别时,常通过语音识别模型对语音信号进行识别。其中,语音识别模型为根据目标类型的语音信号进行训练得到的语音识别模型,在进行语音识别时,通常需要通过语音识别模型识别相应目标类型的语音信号。例如,在对语音信号进行识别时,当该语音信号为近场类型的语音信号时,调用识别近场语音信号的语音识别模型;当该语音信号为远场类型的语音信号时,调用识别远场语音信号的语音识别模型。上述相关技术中,语音识别模型为根据目标类型的语音信号进行训练得到的语音识别模型。因此,在进行语音识别的过程中,只能对目标类型的语音信号进行语音识别,当待识别的语音信号的类型为其他类型时,需要再次训练其他类型对应的语音识别模型,工作量大,操作繁琐,导致语音信号处理的效率低。
技术实现思路
本公开实施例提供了一种语音信号处理方法、装置、电子设备及存储介质,能够提高语音信号处理的效率。所述技术方案如下:一方面,提供了一种语音信号处理方法,所述方法包括:响应于对第一语音信号进行目标操作,对所述第一语音信号进行频谱处理,得到所述第一语音信号对应的语谱图,所述第一语音信号为第一类型的语音信号;调用目标音频转换模型,所述目标音频转换模型为通过第一音频转换模型和第二音频转换模型进行对抗训练得到的,所述第一音频转换模型用于将所述第一类型的语音信号转换为所述第二类型的语音信号,所述第二音频转换模型用于将所述第二类型的语音信号转换为所述第一类型的语音信号;根据所述语谱图,通过所述目标音频转换模型,将所述第一语音信号转换为所述第二类型的第二语音信号;对所述第二语音信号执行所述目标操作。在一种可能的实现方式中,所述目标操作为训练所述第一类型对应的第一语音识别模型;所述对所述第二语音信号执行所述目标操作,包括:根据所述第一语音信号和所述第二语音信号进行模型泛化训练,得到所述第一语音识别模型。在另一种可能的实现方式中,所述目标操作为语音识别;所述对所述第二语音信号执行所述目标操作,包括:调用所述第二类型对应的第二语音识别模型,对所述第二语音信号进行语音识别,得到语音识别结果;将所述语音识别结果作为所述第一语音信号的语音识别结果。在另一种可能的实现方式中,所述对所述第一语音信号进行频谱处理,得到所述第一语音信号对应的语谱图,包括:对所述第一语音信号进行分帧处理,得到第三语音信号;对所述第三语音信号进行傅里叶变换,确定所述第三语音信号对应的频率点;根据所述频率点,生成所述第一语音信号对应的语谱图。在另一种可能的实现方式中,所述对所述第三语音信号进行傅里叶变换,确定所述第三语音信号对应的频率点,包括:对所述第三语音信号进行傅里叶变换,得到所述第三语音信号对应的频率特征点;从所述第三语音信号对应的频率特征点中选择目标频率特征点;对所述目标频率特征点的幅值进行频谱运算,得到所述第三语音信号对应的频率点。在另一种可能的实现方式中,所述调用目标音频转换模型之前,所述方法还包括:获取第一样本语音信号,所述第一样本语音信号为所述第一类型的语音信号;调用所述第一音频转换模型,将所述第一样本语音信号转换为所述第二类型的第二样本语音信号,调用所述第二音频转换模型,将所述第二样本语音信号转换为所述第一类型的第三样本语音信号;获取第四样本语音信号,所述第四样本语音信号为所述第二类型的语音信号;调用所述第二音频转换模型,将所述第四样本语音信号转换为所述第一类型的第五样本语音信号,调用所述第一音频转换模型,将所述第五样本语音信号转换为所述第二类型的第六样本语音信号;根据所述第一样本语音信号和所述第三样本语音信号,以及,所述第四样本语音信号和所述第六样本语音信号,进行模型训练,得到所述目标音频转换模型。在另一种可能的实现方式中,所述根据所述第一样本语音信号和所述第三样本语音信号,以及,所述第四样本语音信号和所述第六样本语音信号,进行模型训练,得到所述目标音频转换模型,包括:根据所述第一样本语音信号、所述第三样本语音信号和第一转换损失函数,确定所述第一音频转换模型的第一转换损失值;根据所述第四样本语音信号、所述第六样本语音信号和第二转换损失函数,确定所述第二音频转换模型的第二转换损失值;根据用于训练所述目标音频转换模型的损失函数,确定所述目标音频转换模型的模型损失值;根据所述第一转换损失值、所述第二转换损失值和所述模型损失值,确定目标损失值;根据所述目标损失值,进行模型训练,得到所述目标音频转换模型。在另一种可能的实现方式中,所述根据所述第一转换损失值、所述第二转换损失值和所述模型损失值,确定目标损失值,包括:将所述第一转换损失值、所述第二转换损失值和所述模型损失值进行加权求和,得到所述目标损失值。在另一种可能的实现方式中,所述根据所述第一样本语音信号、所述第三样本语音信号和转换损失函数,确定所述第一音频转换模型的第一转换损失值,包括:确定所述第一样本语音信号和所述第三样本语音信号之间的转换差值;将所述转换差值带入所述第一音频转换模型的转换损失函数中,得到所述第一转换损失值。另一方面,提供了一种语音信号处理装置,所述装置包括:频谱处理模块,被配置为响应于对第一语音信号进行目标操作,对所述第一语音信号进行频谱处理,得到所述第一语音信号对应的语谱图,所述第一语音信号为第一类型的语音信号;模型调用模块,被配置为调用目标音频转换模型,所述目标音频转换模型为通过第一音频转换模型和第二音频转换模型进行对抗训练得到的,所述第一音频转换模型用于将所述第一类型的语音信号转换为所述第二类型的语音信号,所述第二音频转换模型用于将所述第二类型的语音信号转换为所述第一类型的语音信号;语音转换模块,被配置为根据所述语谱图,通过所述目标音频转换模型,将所述第一语音信号转换为所述第二类型的第二语音信号;操作执行模块,被配置为对所述第二语音信号执行所述目标操作。在一种可能的实现方式中,所述目标操作为训练所述第一类型对应的第一语音识别模型;所述操作执行模块包括:泛化训练单元,被配置为根据所述第一语音信号和所述第二语音信号进行模型泛化训练,得到所述第一语音识别模型。在另一种可能的实现方式中,所述目标操作为语音识别;所述操作执行模块包括:语音识别单元,被配置为调用所述第二类型对应的第二语音识别模型,对所述第二语音信号进行语音识别,得到语音识别结果;将所述语音识别结果作为所述第一语音信号的语音识别结果。...

【技术保护点】
1.一种语音信号处理方法,其特征在于,所述方法包括:/n响应于对第一语音信号进行目标操作,对所述第一语音信号进行频谱处理,得到所述第一语音信号对应的语谱图,所述第一语音信号为第一类型的语音信号;/n调用目标音频转换模型,所述目标音频转换模型为通过第一音频转换模型和第二音频转换模型进行对抗训练得到的,所述第一音频转换模型用于将所述第一类型的语音信号转换为所述第二类型的语音信号,所述第二音频转换模型用于将所述第二类型的语音信号转换为所述第一类型的语音信号;/n根据所述语谱图,通过所述目标音频转换模型,将所述第一语音信号转换为所述第二类型的第二语音信号;/n对所述第二语音信号执行所述目标操作。/n

【技术特征摘要】
1.一种语音信号处理方法,其特征在于,所述方法包括:
响应于对第一语音信号进行目标操作,对所述第一语音信号进行频谱处理,得到所述第一语音信号对应的语谱图,所述第一语音信号为第一类型的语音信号;
调用目标音频转换模型,所述目标音频转换模型为通过第一音频转换模型和第二音频转换模型进行对抗训练得到的,所述第一音频转换模型用于将所述第一类型的语音信号转换为所述第二类型的语音信号,所述第二音频转换模型用于将所述第二类型的语音信号转换为所述第一类型的语音信号;
根据所述语谱图,通过所述目标音频转换模型,将所述第一语音信号转换为所述第二类型的第二语音信号;
对所述第二语音信号执行所述目标操作。


2.根据权利要求1所述的方法,其特征在于,所述目标操作为训练所述第一类型对应的第一语音识别模型;
所述对所述第二语音信号执行所述目标操作,包括:
根据所述第一语音信号和所述第二语音信号进行模型泛化训练,得到所述第一语音识别模型。


3.根据权利要求1所述的方法,其特征在于,所述目标操作为语音识别;
所述对所述第二语音信号执行所述目标操作,包括:
调用所述第二类型对应的第二语音识别模型,对所述第二语音信号进行语音识别,得到语音识别结果;
将所述语音识别结果作为所述第一语音信号的语音识别结果。


4.根据权利要求1所述的方法,其特征在于,所述对所述第一语音信号进行频谱处理,得到所述第一语音信号对应的语谱图,包括:
对所述第一语音信号进行分帧处理,得到第三语音信号;
对所述第三语音信号进行傅里叶变换,确定所述第三语音信号对应的频率点;
根据所述频率点,生成所述第一语音信号对应的语谱图。


5.根据权利要求4所述的方法,其特征在于,所述对所述第三语音信号进行傅里叶变换,确定所述第三语音信号对应的频率点,包括:
对所述第三语音信号进行傅里叶变换,得到所述第三语音信号对应的频率特征点;
从所述第三语音信号对应的频率特征点中选择目标频率特征点;
对所述目标频率特征点的幅值进行频谱运算,得到所述第三语音信号对应的频率点。


6.根据权利要求1所述的方法,其特征在于,所述调用目标音频转换模型之前,所述方法还包括:
获取第一样本语音信号,所述第一样本语音信号为所述第一类型的语音信号;调用所述第一音频转换模型,将所述第一样本语音信号转换为所述第二类型的第二样本语音信号,调用所述第二音频转换模型,将所述第二样本语音信号转换为所述第一类型的第三样本语音信号;
获取第四样本语音信号,所述第四样本语音信号为所述第二类型的语音信号;调用所述第二音频转换模型,将所述第四样本语音信号转换为所述第一类型的第五样本语音信号,调用所述第一音频转换模型,将所述第五样本语音信号转换为所述第二类型的第六样本语音信号;
根据所述第一样本语音信号和所述...

【专利技术属性】
技术研发人员:王超陈孝良冯大航
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1