【技术实现步骤摘要】
一种语音转换方法及相关设备
[0001]本申请主要涉及语音处理
,更具体地说是涉及一种语音转换方法及相关设备。
技术介绍
[0002]随着多媒体通信技术及人工智能(Artificial Intelligence,AI)的发展,语音合成和语音识别技术已成为人机语音通信的关键技术。其中,为了满足个性化声音应用或个人声音保密等应用需求,可以利用由此确定的语音转换技术(Voice conversion,VC),在不改变语言内容的情况下,将一个人的声音转换成另一个人的声音。
[0003]目前,可以利用语音识别模型对样本语音进行语音识别,得到样本语音识别结果后,据此实现声学模型的训练,且利用样本语音的真实声学特征实现声码器的训练,由训练得到声学模型和声码器构成语音转换模型。这样,在语音转换应用场景下,由预训练的声学模型对源语音的语音识别结果进行特征提取,得到目标发声对象的预测声学特征后,输入声码器来合成符合目标发声对象音色的目标语音。
[0004]然而,目前这种语音转换方法中,利用预训练的声码器合成输出的目标语音的误差较大,导致目标语音与目标发声对象实际输出的语音之间的相似度较低。
技术实现思路
[0005]有鉴于此,本申请提供了一种语音转换方法,所述方法包括:
[0006]获取任一发声对象的源语音以及目标发声对象的目标对象标识;
[0007]对所述源语音进行语音识别,得到语音识别结果;
[0008]将所述语音识别结果和所述目标对象标识输入语音转换模型,输出具有与所述 ...
【技术保护点】
【技术特征摘要】
1.一种语音转换方法,其特征在于,包括:获取任一发声对象的源语音以及目标发声对象的目标对象标识;对所述源语音进行语音识别,得到语音识别结果;将所述语音识别结果和所述目标对象标识输入语音转换模型,输出具有与所述目标对象标识对应的目标音色特征和所述源语音的内容的目标语音;其中,所述语音转换模型包括同步训练得到的声学模型和声码器,且用于训练所述声码器的输入信息包括所述声学模型的输出信息。2.根据权利要求1所述的方法,其特征在于,所述语音转换模型预先训练获得,所述训练方法包括:获取训练对象产生的训练语音的训练语音识别结果;其中,所述训练对象包括至少一个发声对象,所述发声对象配置有相应的对象标识;所述训练语音来自训练数据集中相应发声对象产生的语音;将所述训练语音识别结果以及所述对象标识输入声学模型,得到所述训练对象的预测声学特征,记录所述对象标识对应的所述发声对象的音色特征;将所述预测声学特征输入声码器,得到所述训练对象的预测语音;获取所述预测声学特征与所述训练对象的参考声学特征之间的第一误差,以及所述预测语音与所述训练语音之间的第二误差;在反向传播过程中,依据所述第一误差对所述声学模型的第一参数进行更新,依据所述第二误差对所述声码器的第二参数进行更新,对具有更新后的所述声学模型和所述声码器进行训练,得到语音转换模型。3.根据权利要求2所述的方法,其特征在于,所述将所述训练语音识别结果以及所述对象标识输入声学模型,得到所述训练对象的预测声学特征,包括:对所述训练语音识别结果进行特征提取,得到语音编码特征以及所述对象标识对应的音色特征;对所述语音编码特征和所述音色特征进行融合处理,得到所述训练对象的预测声学特征;所述将所述预测声学特征输入声码器,得到所述训练对象的预测语音,包括:将所述语音编码特征和所述预测声学特征输入声码器,得到所述训练对象的预测语音。4.根据权利要求3所述的方法,其特征在于,所述训练方法还包括:所述训练对象为一个指定发声对象,记录所述指定发声对象的对象标识与所述声学模型提取到的音色特征之间的对应关系;所述目标发声对象包括任一指定发声对象;利用所述对应关系,更新所述声学模型的编码嵌入层表征的嵌入音色表,通过查询所述嵌入音色表,获得所述目标对象标识对应的目标音色特征。5.根据权利要求2所述的方法,其特征在于,所述训练方法还包括:调取所述训练语音的参考基频;将所述训练语音的参考基频输入基频处理模型,得到相应发声对象的基频特征;在所述反向传播过程中,依据所述第二误差对所述基频处理模型的第三参数进行更新;
所述将所述预测声学特征输入声码器,得到所述训练对象的预测语音,包括:将所述基频特征和所述预测声学特征输入声码器,得到所述训练对象的预测语音。6.根据权利要求5所述的方法,其特征在于,所述训练方法还包括:将所述训练语音识别结果包含的韵律信息输入基频预测模型,得到所述训练对象包含的所述发声对象各自的预测基频;调取所述对象标识对应的发声对象的基频预测目标值;获取同一发声对象的所述预测基频与所述基频预测目标值之间的第三误差;在所述反向传输过程中,依据所述第三误差对所述基频预测模型的第四参数进行更新。7.根据权利要求2
‑
6任一项所述的方法,其特征在于,所述对更新后的所述声学模型和所述声码器进行训练,得到语音转换模型,包括:对具有更新后的所述声学模型和所述声码器进行训练,直至满足第一训练约束条件,停止对所述声学模型的训练;将下一次训练所述声码器输出的预测语音和相应训练语音输入判别器,依据判别结果对...
【专利技术属性】
技术研发人员:刘皓冬,李栋梁,刘恺,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。