语音重采样方法及装置制造方法及图纸

技术编号:29706473 阅读:28 留言:0更新日期:2021-08-17 14:36
本发明专利技术提供一种语音重采样方法及装置,方法包括将电台语音转换成非电台语音,以及将非电台语音转换为电台语音,其中将电台语音转换成非电台语音,包括步骤:对第一采样率电台语音进行短时傅里叶变换,获得N个具有第一频谱宽度的第一频谱;将N个第一频谱输入到SSGAN深度学习网络进行信道转换,获得N个具有第二频谱宽度的第二频谱;对N个第二频谱进行相位恢复,再进行傅里叶逆变换,得到第二采样率的非电台语音音频文件,第二采样率大于第一采样率。采用洗数据方式,实现8k电台语音转换为16k非电台语音,采样率更高,声音更清晰识别率更高,同时可实现非电台语音转换为电台语音,减少标定数据的成本。

【技术实现步骤摘要】
语音重采样方法及装置
本专利技术涉及电台语音转换识别
,尤其涉及一种语音重采样方法及装置。
技术介绍
相同的声音若由不同信道采集后,声音差距很大。比如,现有开源语音训练数据是采用麦克风录制,采样率为16K或44.1K;而电台语音数据是通过电台录制,采用率为8K。因此,相同的声音,通过麦克风、电台录制,声色完全不一样,区别巨大。现有的语音识别模型都采用麦克风或者手机录制的数据进行训练产生,对电台产生的语音识别率非常低;若是重新电台语音数据做标定训练。但标定语音数据成本太高,100小时的标定都要上几十万,训练需要上千小时的数据。
技术实现思路
针对上述现有技术不足,本申请提供一种语音重采样方法及装置,用于电台语音和非电台语音的相互转换,采用洗数据方式,实现8k电台语音转换为16k非电台语音,采样率更高,声音更清晰识别率更高,同时可实现非电台语音转换为电台语音,减少标定数据的成本。为了实现本专利技术的目的,拟采用以下方案:一种语音重采样方法,包括将电台语音转换成非电台语音;将电台语音转换成非电台语音,包括步骤:对第一采样率电台语音进行短时傅里叶变换,获得N个具有第一频谱宽度的第一频谱;将N个第一频谱输入到SSGAN深度学习网络进行信道转换,获得N个具有第二频谱宽度的第二频谱;对N个第二频谱进行相位恢复,再进行傅里叶逆变换,得到第二采样率的非电台语音音频文件,第二采样率大于第一采样率。进一步,SSGAN深度学习网络包括依次设置多个第一RESCNN残差网络块、上采样模块、多个第二RESCNN残差网络块;多个第一RESCNN残差网络块用于对具有第一频谱宽度的第一频谱进行转换,获得具有第一频谱宽度的第一转换频谱;上采样模块用于对第一转换频谱进行上采处理获得具有第二频谱宽度的中间转换频谱;多个第二RESCNN残差网络块用于对中间转换频谱进行转换,获得具有第二频谱宽度的第二频谱。第一RESCNN残差网络块有3个,第二RESCNN残差网络块有14个,第一RESCNN残差网络块和第二RESCNN残差网络块均包括3层CNN+Normalization网络。进一步,语音重采样方法,还包括将非电台语音转电台语音;将非电台语音转电台语音,包括步骤:通过声卡一播发非电台语音,并经声卡一的音频输出通道传输给无线发射电台,以使无线发射电台发送语音;通过声卡二的音频输入通道采集由无线接收电台接收的从无线发射电台发送的语音,完成重采样。一种语音重采样装置,包括:傅里叶变换模块,用于对第一采样率电台语音进行短时傅里叶变换,获得N个具有第一频谱宽度的第一频谱;信道转换模块,用于将N个第一频谱输入到SSGAN深度学习网络进行信道转换,获得N个具有第二频谱宽度的第二频谱;相位恢复模块,用于对N个第二频谱进行相位恢复;傅里叶逆变换模块,用于对相位恢复后的第二频谱进行傅里叶逆变换,得到第二采样率的非电台语音音频文件。进一步,信道转换模块包括SSGAN深度学习网络,SSGAN深度学习网络包括依次设置多个第一RESCNN残差网络块、上采样模块、多个第二RESCNN残差网络块;多个第一RESCNN残差网络块用于对具有第一频谱宽度的第一频谱进行转换,获得具有第一频谱宽度的第一转换频谱;上采样模块用于对第一转换频谱进行上采处理获得具有第二频谱宽度的中间转换频谱;多个第二RESCNN残差网络块用于对中间转换频谱进行转换,获得具有第二频谱宽度的第二频谱。第一RESCNN残差网络块有3个,第二RESCNN残差网络块有14个,第一RESCNN残差网络块和第二RESCNN残差网络块均包括3层CNN+Normalization网络。进一步,语音重采样装置,还包括:PC机以及与PC机分别连接的声卡一、声卡二,用于将非电台语音转换为电台语音;PC机,用于在声卡一播发非电台语音;声卡一,用于通过其音频输出通道将播发的非电台语音传输给无线发射电台,以使无线发射电台发送语音;声卡二,用于将无线接收电台收到的接收语音通过音频输入通道进行采集;PC机,还用于对声卡二采集的语音进行保存。一种电子设备,包括:至少一个处理器和存储器;其中,存储器存储有计算机执行指令;在至少一个处理器执行存储器存储的计算机执行指令时,使得至少一个处理器执行语音重采样方法。一种计算机可读存储介质,其上存储有计算机程序,在计算机程序被处理器运行时控制存储介质所在设备执行语音重采样方法。本专利技术的有益效果:1、本申请的应用,可以将低采样率电台语音转换为高采样率非电台语音,如8K电台语音转为16K麦克风语音,从而让电台的语音听得更清晰、也使得电台的语音识别率变高;本申请的应用,还可以实现非电台语音转电台语音,可以减少标定数据的成本;2、传统方式8k采样率语音无法还原为16k,在8-16k频段的信息已经缺失了,本申请通过短时傅里叶变换、SSGAN网络进行信道转换、相位恢复、傅里叶逆变换,实现电台语音向非电台语音的转换,在8-16k频段的信息不会缺失,Pesq增益10.928db;3、本通过的SSGAN网络采用多个第一RESCNN残差网络块、上采样模块、及多个第二RESCNN残差网络块的组合,且每个第一/第二RESCNN残差网络块包括3层CNN+Normalization网络,通过此种方式进行信道转换,Pesq增益(10.928db)、识别率提升0.513%。附图说明本文描述的附图只是为了说明所选实施例,而不是所有可能的实施方案,更不是意图限制本专利技术的范围。图1示出了本申请实施例的电台语音转非电台语音流程图。图2示出了本申请实施例的SSGAN深度学习网络进行信道转换的流程图。图3示出了本申请实施例的第一RESCNN残差网络块结构示意图。图4示出了本申请实施例的第二RESCNN残差网络块结构示意。图5示出了本申请实施例的非电台语音转电台语音流程图。图6示出了本申请实施例的电台语音转非电台语音装置结构图。图7示出了本申请实施例的非电台语音转电台语音装置结构图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面结合附图对本专利技术的实施方式进行详细说明,但本专利技术所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。本实例的一个方面,提供一种语音重采样方法,包括将电台语音转为非电台语音,和/或,将非电台语音转为电台语音。非电台语音为麦克风语音,也可以是对讲机语音等。如图1所示,为本实例的语音重采样方法,用于将电台语音转换成非电台语音的步骤:首先,对8K采样率电台语音进行短时傅里叶变换,获得N*128频谱图;然后,将N*128频谱图输入到SSGAN深度学习网络进行信道转换,获得N*256的频谱图;然后,对N*256的频谱图进行相本文档来自技高网...

【技术保护点】
1.一种语音重采样方法,其特征在于,包括将电台语音转换成非电台语音;/n所述将电台语音转换成非电台语音,包括步骤:/n对第一采样率电台语音进行短时傅里叶变换,获得N个具有第一频谱宽度的第一频谱;/n将N个第一频谱输入到SSGAN深度学习网络进行信道转换,获得N个具有第二频谱宽度的第二频谱;/n对N个第二频谱进行相位恢复,再进行傅里叶逆变换,得到第二采样率的非电台语音音频文件,所述第二采样率大于第一采样率。/n

【技术特征摘要】
1.一种语音重采样方法,其特征在于,包括将电台语音转换成非电台语音;
所述将电台语音转换成非电台语音,包括步骤:
对第一采样率电台语音进行短时傅里叶变换,获得N个具有第一频谱宽度的第一频谱;
将N个第一频谱输入到SSGAN深度学习网络进行信道转换,获得N个具有第二频谱宽度的第二频谱;
对N个第二频谱进行相位恢复,再进行傅里叶逆变换,得到第二采样率的非电台语音音频文件,所述第二采样率大于第一采样率。


2.根据权利要求1所述的语音重采样方法,其特征在于:所述SSGAN深度学习网络,包括依次设置多个第一RESCNN残差网络块、上采样模块、多个第二RESCNN残差网络块;
多个第一RESCNN残差网络块用于对具有第一频谱宽度的第一频谱进行转换,获得具有第一频谱宽度的第一转换频谱;
上采样模块用于对第一转换频谱进行上采处理获得具有第二频谱宽度的中间转换频谱;
多个第二RESCNN残差网络块用于对中间转换频谱进行转换,获得具有第二频谱宽度的第二频谱。


3.根据权利要求2所述的语音重采样方法,其特征在于,其特征在于,第一RESCNN残差网络块有3个,第二RESCNN残差网络块有14个,第一RESCNN残差网络块和第二RESCNN残差网络块均包括3层CNN+Normalization网络。


4.根据权利要求1所述的语音重采样方法,其特征在于,还包括将非电台语音转电台语音;
所述将非电台语音转电台语音,包括步骤:
通过声卡一播发非电台语音,并经声卡一的音频输出通道传输给无线发射电台,以使无线发射电台发送语音;
通过声卡二的音频输入通道采集由无线接收电台接收的从无线发射电台发送的语音,完成重采样。


5.一种语音重采样装置,其特征在于,包括:
傅里叶变换模块,用于对第一采样率电台语音进行短时傅里叶变换,获得N个具有第一频谱宽度的第一频谱;
信道转换模块,用于将N个第一频谱输入到SSGAN深度学习网络进行信道转换,获得N个具有第二频谱宽度的第二频谱;

【专利技术属性】
技术研发人员:陈英爽鲍捷吕春
申请(专利权)人:成都傅立叶电子科技有限公司深圳市特发信息股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1