语音重采样方法及装置制造方法及图纸

技术编号：29706473 阅读：28 留言：0更新日期：2021-08-17 14:36

本发明专利技术提供一种语音重采样方法及装置，方法包括将电台语音转换成非电台语音，以及将非电台语音转换为电台语音，其中将电台语音转换成非电台语音，包括步骤：对第一采样率电台语音进行短时傅里叶变换，获得N个具有第一频谱宽度的第一频谱；将N个第一频谱输入到SSGAN深度学习网络进行信道转换，获得N个具有第二频谱宽度的第二频谱；对N个第二频谱进行相位恢复，再进行傅里叶逆变换，得到第二采样率的非电台语音音频文件，第二采样率大于第一采样率。采用洗数据方式，实现8k电台语音转换为16k非电台语音，采样率更高，声音更清晰识别率更高，同时可实现非电台语音转换为电台语音，减少标定数据的成本。

全部详细技术资料下载

【技术实现步骤摘要】
语音重采样方法及装置
本专利技术涉及电台语音转换识别
，尤其涉及一种语音重采样方法及装置。
技术介绍
相同的声音若由不同信道采集后，声音差距很大。比如，现有开源语音训练数据是采用麦克风录制，采样率为16K或44.1K；而电台语音数据是通过电台录制，采用率为8K。因此，相同的声音，通过麦克风、电台录制，声色完全不一样，区别巨大。现有的语音识别模型都采用麦克风或者手机录制的数据进行训练产生，对电台产生的语音识别率非常低；若是重新电台语音数据做标定训练。但标定语音数据成本太高，100小时的标定都要上几十万，训练需要上千小时的数据。
技术实现思路
针对上述现有技术不足，本申请提供一种语音重采样方法及装置，用于电台语音和非电台语音的相互转换，采用洗数据方式，实现8k电台语音转换为16k非电台语音，采样率更高，声音更清晰识别率更高，同时可实现非电台语音转换为电台语音，减少标定数据的成本。为了实现本专利技术的目的，拟采用以下方案：一种语音重采样方法，包括将电台语音转换成非电台语音；将电台语音转换成非电台语音，包括步骤：对第一采样率电台语音进行短时傅里叶变换，获得N个具有第一频谱宽度的第一频谱；将N个第一频谱输入到SSGAN深度学习网络进行信道转换，获得N个具有第二频谱宽度的第二频谱；对N个第二频谱进行相位恢复，再进行傅里叶逆变换，得到第二采样率的非电台语音音频文件，第二采样率大于第一采样率。进一步，SSGAN深度学习网络包括依次设置多个第一RESCN...

【技术保护点】
1.一种语音重采样方法，其特征在于，包括将电台语音转换成非电台语音；/n所述将电台语音转换成非电台语音，包括步骤：/n对第一采样率电台语音进行短时傅里叶变换，获得N个具有第一频谱宽度的第一频谱；/n将N个第一频谱输入到SSGAN深度学习网络进行信道转换，获得N个具有第二频谱宽度的第二频谱；/n对N个第二频谱进行相位恢复，再进行傅里叶逆变换，得到第二采样率的非电台语音音频文件，所述第二采样率大于第一采样率。/n

【技术特征摘要】
1.一种语音重采样方法，其特征在于，包括将电台语音转换成非电台语音；
所述将电台语音转换成非电台语音，包括步骤：
对第一采样率电台语音进行短时傅里叶变换，获得N个具有第一频谱宽度的第一频谱；
将N个第一频谱输入到SSGAN深度学习网络进行信道转换，获得N个具有第二频谱宽度的第二频谱；
对N个第二频谱进行相位恢复，再进行傅里叶逆变换，得到第二采样率的非电台语音音频文件，所述第二采样率大于第一采样率。

2.根据权利要求1所述的语音重采样方法，其特征在于：所述SSGAN深度学习网络，包括依次设置多个第一RESCNN残差网络块、上采样模块、多个第二RESCNN残差网络块；
多个第一RESCNN残差网络块用于对具有第一频谱宽度的第一频谱进行转换，获得具有第一频谱宽度的第一转换频谱；
上采样模块用于对第一转换频谱进行上采处理获得具有第二频谱宽度的中间转换频谱；
多个第二RESCNN残差网络块用于对中间转换频谱进行转换，获得具有第二频谱宽度的第二频谱。

3.根据权利要求2所述的语音重采样方法，其特征在于，其特征在于，第一RESCNN残差网络块有3个，第二RESCNN残差网络块有14个，第一RESCNN残差网络块和第二RESCNN残差网络块均包括3层CNN+Normalization网络。

4.根据权利要求1所述的语音重采样方法，其特征在于，还包括将非电台语音转电台语音；
所述将非电台语音转电台语音，包括步骤：
通过声卡一播发非电台语音，并经声卡一的音频输出通道传输给无线发射电台，以使无线发射电台发送语音；
通过声卡二的音频输入通道采集由无线接收电台接收的从无线发射电台发送的语音，完成重采样。

5.一种语音重采样装置，其特征在于，包括：
傅里叶变换模块，用于对第一采样率电台语音进行短时傅里叶变换，获得N个具有第一频谱宽度的第一频谱；
信道转换模块，用于将N个第一频谱输入到SSGAN深度学习网络进行信道转换，获得N个具有第二频谱宽度的第二频谱；

【专利技术属性】
技术研发人员：陈英爽，鲍捷，吕春，
申请(专利权)人：成都傅立叶电子科技有限公司，深圳市特发信息股份有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人