一种融合Bi-LSTM和WaveNet的语音转换方法技术

技术编号:21143757 阅读:30 留言:0更新日期:2019-05-18 05:56
本发明专利技术提出了一种融合Bi‑LSTM和WaveNet的语音转换方法,首先提取待转换语音特征,将待转换语音的梅尔频率倒谱系数送入特征转换网络转换,得到转换后的梅尔频率倒谱系数,然后将待转换语音的非周期频率、线性转换后的基音频率和转换后的梅尔频率倒谱系数进行上采样并送入语音生成网络得到预生成语音,将预生成语音的梅尔频率倒谱系数送入后处理网络进行后处理,将后处理的梅尔频率倒谱系数与待转换语音的非周期频率、线性转换后的基音频率再次上采样后送入语音生成网络,生成最终的转换语音。本发明专利技术生成的转换语音相似度更高,自然度更好。

【技术实现步骤摘要】
一种融合Bi-LSTM和WaveNet的语音转换方法
本专利技术属于语音信号处理领域,具体为一种融合Bi-LSTM和WaveNet的语音转换方法。
技术介绍
随着人工智能技术的迅速发展,其应用领域也越来越广泛。语音交互、智能仿声、个性化语音生成等技术逐步受到人们的关注。语音转换(VoiceConversion,VC)作为个性化语音生成的一种重要技术手段,涉及语音信号处理、语音学、模式识别、人工智能等多种学科,是当今语音处理领域的研究难点和热点之一。广义上讲,人们把改变语音中说话人特征的语音处理技术统称为语音转换或语音变换(VoiceTransformation)。在实际研究和应用中,语音转换是指在保持语义内容不变的情况下,改变一个说话人(源说话人)的语音个性特征(如音色、韵律等),使之具有另外一个说话人(目标说话人)的语音个性特征的一种语音处理技术。近年来,随着语音信号处理、机器学习等技术的进步以及海量数据获取能力,大规模计算性能的提高,语音转换技术的研究取得了长足的进步,语音转换的性能也得到不断提升。典型的语音转换技术包括:基于高斯混合模型的语音转换(T.Toda,A.W.Black,andK.Tokuda,“Spectralconversionbasedonmaximumlikelihoodestimationconsideringglobalvarianceofconvertedparameter,”Proc.ofICASSP,pp.9–12,2005),基于频率规整的语音转换(XiaohaiTian,ZhizhengWu,SiuWaLee,NguyenQuyHy,EngSiongChng,MinghuiDong,“Sparserepresentationforfrequencywarpingbasedvoiceconversion”.Proc.oftheICASSP,pp.4235-4239,2015),基于深度神经网络的语音转换(LifaSun,ShiyinKang,KunLi,HelenMeng,“Voiceconversionusingdeepbidirectionallongshort-termmemorybasedrecurrentneuralnetworks,”Proc.ofICASSP,pp.4869–4873,2015)等。这些语音转换网络模型框架主要包括训练阶段和转换阶段两个阶段。训练阶段,通过源说话人和目标说话人的平行语料库获取相应转换函数;转换阶段,将训练阶段得到的转换函数应用于待转换语音,对待转换语音的特征进行转换,最后利用转换后的特征合成转换语音。目前,虽然这些语音转换技术合理有效,也取得了较好的转换效果,但是由于大多数转换最终生成的语音波形,是使用基于确定声学参数的声码器生成的,所以转换语音通常存在过平滑问题,导致转换语音中缺少语音细节信息,并使转换后的语音嗡嗡作响,最终影响了转换语音的效果和质量,使它听起来不像自然语音那样流畅舒服。
技术实现思路
本专利技术的目的在于提出了一种融合Bi-LSTM和WaveNet的语音转换方法,解决现有语音转换方法缺少语音细节信息,转换质量不高的问题。实现本专利技术的技术解决方案为:一种融合Bi-LSTM和WaveNet的语音转换方法,具体步骤为:步骤1、提取源语音和目标语音的语音特征,包括梅尔频率倒谱系数、非周期频率和基音频率,并对源语音特征和目标语音特征进行预处理;步骤2、将预处理后的源语音和目标语音的梅尔频率倒谱系数输入Bi-LSTM1网络模型对Bi-LSTM1网络模型进行训练,得到特征转换网络以及转换后的梅尔频率倒谱系数;步骤3、将预处理后的目标语音梅尔频率倒谱系数进行上采样,将上采样后的目标语音梅尔频率倒谱系数、预处理后的目标语音非周期频率、基音频率以及目标语音一起输入WaveNet网络对WaveNet网络进行训练,得到语音生成网络,同时得到合成的目标语音;步骤4、对步骤2得到的转换后的源语音的梅尔频率倒谱系数进行上采样,并将其与预处理后的源语音的非周期频率、基音频率送入步骤3所得的语音生成网络,得到预转换语音;步骤5、提取预转换语音和经步骤3合成的目标语音的梅尔频率倒谱系数并进行动态时域规整,然后将动态时域规整后的预转换语音和经步骤3合成的目标语音的梅尔频率倒谱系数输入迭代次数可控的Bi-LSTM2网络模型对Bi-LSTM2网络模型进行训练,得到后处理网络;步骤6、提取待转换语音特征,将待转换语音的梅尔频率倒谱系数送入步骤2的特征转换网络转换,得到转换后的梅尔频率倒谱系数,然后将待转换语音的非周期频率、线性转换后的基音频率和转换后的梅尔频率倒谱系数进行上采样并送入步骤3的语音生成网络得到预生成语音,将预生成语音的梅尔频率倒谱系数送入步骤5得到的后处理网络进行后处理,将后处理的梅尔频率倒谱系数与待转换语音的非周期频率、线性转换后的基音频率再次上采样后送入步骤3的语音生成网络,生成最终的转换语音。本专利技术与现有技术相比,其显著优点为:1)本专利技术将双向长短时记忆递归神经网络用于语音特征的转换,能够联系上下文信息,更好地建模特征之间的映射,能够与音频生成模型相结合,使得生成的转换语音相似度更高,自然度更好;2)本专利技术通过对WaveNet增加后处理优化语音生成部分,使得语音生成系统更加稳定和准确,提高了转换系统的稳定性。下面结合附图对本专利技术做进一步详细的描述。附图说明图1是本专利技术融合Bi-LSTM网络和WaveNet网络的语音转换方法流程图。图2是本专利技术的Bi-LSTM网络和WaveNet网络的语音转换方法训练流程图。图3是本专利技术利用Bi-LSTM网络实现语音特征转换的示意图。图4是本专利技术利用条件WaveNet实现语音合成的示意图。图5是本专利技术利用线性插值法得到与语音样点长度一致的特征示意图。具体实施方式一种融合双向长短时记忆递归神经网络(Bidirectional-LongShort-TermMemoryRecurrentNeuralNetworks,简称Bi-LSTM)和波形生成神经网络(简称WaveNet)的语音转换方法,具体步骤为:步骤1、提取源语音和目标语音的语音特征,包括梅尔频率倒谱系数、非周期频率和基音频率,并对源语音特征和目标语音特征进行预处理;步骤2、将预处理后的源语音和目标语音的梅尔频率倒谱系数输入Bi-LSTM1网络模型对Bi-LSTM1网络模型进行训练,得到特征转换网络以及转换后的梅尔频率倒谱系数;步骤3、将预处理后的目标语音梅尔频率倒谱系数进行上采样,将上采样后的目标语音梅尔频率倒谱系数、预处理后的目标语音非周期频率、基音频率以及目标语音一起输入WaveNet网络对WaveNet网络进行训练,得到语音生成网络,同时得到合成的目标语音;步骤4、对步骤2得到的转换后的源语音的梅尔频率倒谱系数进行上采样,并将其与预处理后的源语音的非周期频率、基音频率送入步骤3所得的语音生成网络,得到预转换语音;步骤5、提取预转换语音和经步骤3合成的目标语音的梅尔频率倒谱系数并进行动态时域规整,然后将动态时域规整后的预转换语音和经步骤3合成的目标语音的梅尔频率倒谱系数输入迭代次数可控的Bi-LSTM2网络模型对Bi-LSTM2网络模本文档来自技高网
...

【技术保护点】
1.一种融合Bi‑LSTM和WaveNet的语音转换方法,其特征在于,具体步骤为:步骤1、提取源语音和目标语音的语音特征,包括梅尔频率倒谱系数、非周期频率和基音频率,并对源语音特征和目标语音特征进行预处理;步骤2、将预处理后的源语音和目标语音的梅尔频率倒谱系数输入Bi‑LSTM1网络模型对Bi‑LSTM1网络模型进行训练,得到特征转换网络以及转换后的梅尔频率倒谱系数;步骤3、将预处理后的目标语音梅尔频率倒谱系数进行上采样,将上采样后的目标语音梅尔频率倒谱系数、预处理后的目标语音非周期频率、基音频率以及目标语音一起输入WaveNet网络对WaveNet网络进行训练,得到语音生成网络,同时得到合成的目标语音;步骤4、对步骤2得到的转换后的源语音的梅尔频率倒谱系数进行上采样,并将其与预处理后的源语音的非周期频率、基音频率送入步骤3所得的语音生成网络,得到预转换语音;步骤5、提取预转换语音和经步骤3合成的目标语音的梅尔频率倒谱系数并进行动态时域规整,然后将动态时域规整后的预转换语音和经步骤3合成的目标语音的梅尔频率倒谱系数输入迭代次数可控的Bi‑LSTM2网络模型对Bi‑LSTM2网络模型进行训练,得到后处理网络;步骤6、提取待转换语音特征,将待转换语音的梅尔频率倒谱系数送入步骤2的特征转换网络转换,得到转换后的梅尔频率倒谱系数,然后将待转换语音的非周期频率、线性转换后的基音频率和转换后的梅尔频率倒谱系数进行上采样并送入步骤3的语音生成网络得到预生成语音,将预生成语音的梅尔频率倒谱系数送入步骤5得到的后处理网络进行后处理,将后处理的梅尔频率倒谱系数与待转换语音的非周期频率、线性转换后的基音频率再次上采样后送入步骤3的语音生成网络,生成最终的转换语音。...

【技术特征摘要】
1.一种融合Bi-LSTM和WaveNet的语音转换方法,其特征在于,具体步骤为:步骤1、提取源语音和目标语音的语音特征,包括梅尔频率倒谱系数、非周期频率和基音频率,并对源语音特征和目标语音特征进行预处理;步骤2、将预处理后的源语音和目标语音的梅尔频率倒谱系数输入Bi-LSTM1网络模型对Bi-LSTM1网络模型进行训练,得到特征转换网络以及转换后的梅尔频率倒谱系数;步骤3、将预处理后的目标语音梅尔频率倒谱系数进行上采样,将上采样后的目标语音梅尔频率倒谱系数、预处理后的目标语音非周期频率、基音频率以及目标语音一起输入WaveNet网络对WaveNet网络进行训练,得到语音生成网络,同时得到合成的目标语音;步骤4、对步骤2得到的转换后的源语音的梅尔频率倒谱系数进行上采样,并将其与预处理后的源语音的非周期频率、基音频率送入步骤3所得的语音生成网络,得到预转换语音;步骤5、提取预转换语音和经步骤3合成的目标语音的梅尔频率倒谱系数并进行动态时域规整,然后将动态时域规整后的预转换语音和经步骤3合成的目标语音的梅尔频率倒谱系数输入迭代次数可控的Bi-LSTM2网络模型对Bi-LSTM2网络模型进行训练,得到后处理网络;步骤6、提取待转换语音特征,将待转换语音的梅尔频率倒谱系数送入步骤2的特征转换网络转换,得到转换后的梅尔频率倒谱系数,然后将待转换语音的非周期频率、线性转换后的基音频率和转换后的梅尔频率倒谱系数进行上采样并送入步骤3的语音生成网络得到预生成语音,将预生成语音的梅尔频率倒谱系数送入步骤5得到的后处理网络进行后处理,将后处理的梅尔频率倒谱系数与待转换语音的非周期频率、线性转换后的基音频率再次上采样后送入步骤3的语音生成网络,生成最终的转换语音。2.根据权利要求1所述的融合Bi-LSTM和WaveNet的语音转换方法,其特征在于,步骤1中对源语音特征和目标语音特征进行预处理的具体内容为:对源语音和目标语音的梅尔频率倒谱系数进行动态时域规整,得到对齐后的各自的梅尔频率倒谱系数;对源语音和目标语音的基音频率进行线性转换并上采样;对源语音和目标语音的非周期频率...

【专利技术属性】
技术研发人员:张雄伟苗晓孔孙蒙曹铁勇郑昌艳李莉曾歆
申请(专利权)人:中国人民解放军陆军工程大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1