【技术实现步骤摘要】
基于循环帧序列门控循环单元网络的语音超分辨率方法
[0001]本专利技术涉及的是语音超分辨率领域,具体地说是一种在不影响语音内容的情况下将低采样率语音转换为高分辨率语音的研究。本专利技术提出了一种基于循环帧序列门控循环单元网络的语音超分辨率方法,在更小计算体量下获取了更高的语音超分辨率处理性能。
技术介绍
[0002]语音超分辨率(Speech Super
‑
Resolution,SSR)又叫做语音带宽扩展(Speech Bandwith Expansion,BWE),目的是通过一定的技术对语音进行上采样来提高语音的质量。
[0003]随着深度学习在语音方向的应用,人们逐渐发现在某一特定采样率的训练集下训练的神经网络在其他采样率的语音上的效果有所下降,对于一些语音系统一旦经过训练就不能动态的更改语音的采样率来适配不同采样率的语音输入。同时,一些语音合成系统可以选择合成较低分辨率的语音上采样来获得理想语音,这样可以减少训练系统的时间以及计算成本。另一方面,根据研究表明,人们更喜欢听较大频率范围的语音即 ...
【技术保护点】
【技术特征摘要】
1.基于循环帧序列的门控循环单元网络的语音超分辨率方法,其特征是:包括如下步骤:(1)对原始语音信号进行预处理:
①
对原始语音信号进行预加重处理;
②
对预加重处理后的语音信号进行分帧处理;(2)提出构建CFS
‑
GRU模型:
①
分别构建两种使单位时间步特征参数增大和减小上采样率倍的GRU;
②
将两个GRU组合使得时间步和特征参数之间交叉乘上上采样倍率并能够循环输入,构建CFS
‑
GRU模型;(3)完成基于循环帧序列网络的语音超分辨率:
①
经过预加重和分帧处理的语音信号输入CFS
‑
GRU模型;
②
使用SegSNRLoss损失函数并使用分帧处理后的高分辨率语音信号进行监督训练;
③
将训练好的CFS
‑
GRU模型的输出信号帧进行合并得到高分辨率语音,实现语音的超分辨率。2.根据权利要求1所述的基于循环帧序列的门控循环单元网络的语音超分辨率方法,其特征是:在步骤(1)中对原始语音信号进行预加重处理,y(t)=x(t)
‑
αx(t
‑
1),其中,y(t)为预加重后的语音信号,x(t)为原始语音信号,t是时间,α是加权系数,α取值为0.97,对预加重后的语音进行分帧处理,帧长为512,帧移为256。3.根据权利要求1所述的基于循环帧序列的门控循环单元网络的语音超分辨率方法,其特征是:在步骤(...
【专利技术属性】
技术研发人员:关键,柳友德,肖飞扬,芦瑶,兰宇晨,田左,王恺瀚,谢明杰,董喆,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。