一种语音转换方法及相关设备技术

技术编号:32361675 阅读:18 留言:0更新日期:2022-02-20 03:30
本申请涉及人工智能中的语音处理,在需要将任一源语音转换为具有指定的目标发声对象的目标音色和源语音内容的目标语音的场景下,对源语音进行语音识别,得到语音识别结果后,可以将该语音识别结果和目标发声对象的目标对象标识输入预训练的语音转换模型,由于该语音转换模型是将声学模型和声码器同步联合训练得到的,使得训练声码器的声学特征就是与其同步开始训练的声学模型输出的预测声学特征,从而保证了由此训练得到的声码器的语音合成效果,提高了声码器输出的目标语音的精准度。根据需要,本申请还可能涉及区块链技术,预训练得到的语音转换模型及其训练过程产生的相关数据可以存储于区块链的节点。关数据可以存储于区块链的节点。关数据可以存储于区块链的节点。

【技术实现步骤摘要】
一种语音转换方法及相关设备


[0001]本申请主要涉及语音处理
,更具体地说是涉及一种语音转换方法及相关设备。

技术介绍

[0002]随着多媒体通信技术及人工智能(Artificial Intelligence,AI)的发展,语音合成和语音识别技术已成为人机语音通信的关键技术。其中,为了满足个性化声音应用或个人声音保密等应用需求,可以利用由此确定的语音转换技术(Voice conversion,VC),在不改变语言内容的情况下,将一个人的声音转换成另一个人的声音。
[0003]目前,可以利用语音识别模型对样本语音进行语音识别,得到样本语音识别结果后,据此实现声学模型的训练,且利用样本语音的真实声学特征实现声码器的训练,由训练得到声学模型和声码器构成语音转换模型。这样,在语音转换应用场景下,由预训练的声学模型对源语音的语音识别结果进行特征提取,得到目标发声对象的预测声学特征后,输入声码器来合成符合目标发声对象音色的目标语音。
[0004]然而,目前这种语音转换方法中,利用预训练的声码器合成输出的目标语音的误差较大,导致目标语音与目标发声对象实际输出的语音之间的相似度较低。

技术实现思路

[0005]有鉴于此,本申请提供了一种语音转换方法,所述方法包括:
[0006]获取任一发声对象的源语音以及目标发声对象的目标对象标识;
[0007]对所述源语音进行语音识别,得到语音识别结果;
[0008]将所述语音识别结果和所述目标对象标识输入语音转换模型,输出具有与所述目标对象标识对应的目标音色特征和所述源语音的内容的目标语音;
[0009]其中,所述语音转换模型包括同步训练得到的声学模型和声码器,且用于训练所述声码器的输入信息包括所述声学模型的输出信息。
[0010]在一些实施例中,所述语音转换模型预先训练获得,所述训练方法包括:
[0011]获取训练对象产生的训练语音的训练语音识别结果;其中,所述训练对象包括至少一个发声对象,所述发声对象配置有相应的对象标识;所述训练语音来自训练数据集中相应发声对象产生的语音;
[0012]将所述训练语音识别结果以及所述对象标识输入声学模型,得到所述训练对象的预测声学特征,记录所述对象标识对应的所述发声对象的音色特征;
[0013]将所述预测声学特征输入声码器,得到所述训练对象的预测语音;
[0014]获取所述预测声学特征与所述训练对象的参考声学特征之间的第一误差,以及所述预测语音与所述训练语音之间的第二误差;
[0015]在反向传播过程中,依据所述第一误差对所述声学模型的第一参数进行更新,依据所述第二误差对所述声码器的第二参数进行更新,对更新后的所述声学模型和所述声码
器进行训练,得到语音转换模型。
[0016]在一些实施例中,所述将所述训练语音识别结果以及所述对象标识输入声学模型,得到所述训练对象的预测声学特征,包括:
[0017]对所述训练语音识别结果进行特征提取,得到语音编码特征以及所述对象标识对应的音色特征;
[0018]对所述语音编码特征和所述音色特征进行融合处理,得到所述训练对象的预测声学特征;
[0019]所述将所述预测声学特征输入声码器,得到所述训练对象的预测语音,包括:
[0020]将所述语音编码特征和所述预测声学特征输入声码器,得到所述训练对象的预测语音。
[0021]在一些实施例中,所述训练方法还包括:
[0022]所述训练对象为一个指定发声对象,记录所述指定发声对象的对象标识与所述声学模型提取到的音色特征之间的对应关系;所述目标发声对象包括任一指定发声对象;
[0023]利用所述对应关系,更新所述声学模型的编码嵌入层表征的嵌入音色表,通过查询所述嵌入音色表,获得所述目标对象标识对应的目标音色特征。
[0024]在一些实施例中,所述训练方法还包括:
[0025]调取所述训练语音的参考基频;
[0026]将所述训练语音的参考基频输入基频处理模型,得到相应发声对象的基频特征;
[0027]在所述反向传播过程中,依据所述第二误差对所述基频处理模型的第三参数进行更新;
[0028]所述将所述预测声学特征输入声码器,得到所述训练对象的预测语音,包括:
[0029]将所述基频特征和所述预测声学特征输入声码器,得到所述训练对象的预测语音。
[0030]在一些实施例中,所述训练方法还包括:
[0031]将所述训练语音识别结果包含的韵律信息输入基频预测模型,得到所述训练对象包含的所述发声对象各自的预测基频;
[0032]调取所述对象标识对应的发声对象的基频预测目标值;
[0033]获取同一发声对象的所述预测基频与所述基频预测目标值之间的第三误差;
[0034]在所述反向传输过程中,依据所述第三误差对所述基频预测模型的第四参数进行更新。
[0035]在一些实施例中,所述对更新后的所述声学模型和所述声码器进行训练,得到语音转换模型,包括:
[0036]对更新后的所述声学模型和所述声码器进行训练,直至满足第一训练约束条件,停止对所述声学模型的训练;
[0037]将下一次训练所述声码器输出的预测语音和相应训练语音输入判别器,依据判别结果对该声码器的第二参数进行更新,对具有更新后的第二参数的声码器进行训练,直至满足第二训练约束条件,得到语音转换模型;
[0038]其中,所述第一训练约束条件是针对所述声学模型的训练过程配置的;所述第二训练约束条件是针对所述声码器的训练过程配置的。
[0039]在一些实施例中,所述发声对象的基频预测目标值的获取方法,包括:
[0040]获取训练数据集中同一发声对象产生的多条语音;
[0041]提取所述多条语音各自的参考基频;
[0042]对所述同一发声对象的所述多条语音各自的参考基频进行归一化处理,得到相应发声对象的基频预测目标值。
[0043]在一些实施例中,所述将所述语音识别结果和所述目标对象标识输入语音转换模型,输出具有与所述目标对象标识对应的目标音色特征和所述源语音的内容的目标语音,包括:
[0044]将所述语音识别结果和所述目标对象标识输入预训练的所述声学模型,获得目标语音编码特征和目标声学特征;
[0045]将所述语音识别结果包含的韵律信息输入预训练的所述基频预测模型,得到目标预测基频;
[0046]调取所述目标对象标识对应的归一化基频信息,利用所述目标发声对象的归一化基频信息对所述目标预测基频进行反归一化处理,得到所述目标发声对象的预测参考基频;
[0047]将所述预测参考基频输入预训练的所述基频处理模型,得到所述目标发声对象的目标基频特征;
[0048]将所述目标语音编码特征、所述目标声学特征以及所述目标基频特征输入预训练的声码器,输出所述目标发声对象的目标语音;所述目标语音具有与所述目标对象标识对应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音转换方法,其特征在于,包括:获取任一发声对象的源语音以及目标发声对象的目标对象标识;对所述源语音进行语音识别,得到语音识别结果;将所述语音识别结果和所述目标对象标识输入语音转换模型,输出具有与所述目标对象标识对应的目标音色特征和所述源语音的内容的目标语音;其中,所述语音转换模型包括同步训练得到的声学模型和声码器,且用于训练所述声码器的输入信息包括所述声学模型的输出信息。2.根据权利要求1所述的方法,其特征在于,所述语音转换模型预先训练获得,所述训练方法包括:获取训练对象产生的训练语音的训练语音识别结果;其中,所述训练对象包括至少一个发声对象,所述发声对象配置有相应的对象标识;所述训练语音来自训练数据集中相应发声对象产生的语音;将所述训练语音识别结果以及所述对象标识输入声学模型,得到所述训练对象的预测声学特征,记录所述对象标识对应的所述发声对象的音色特征;将所述预测声学特征输入声码器,得到所述训练对象的预测语音;获取所述预测声学特征与所述训练对象的参考声学特征之间的第一误差,以及所述预测语音与所述训练语音之间的第二误差;在反向传播过程中,依据所述第一误差对所述声学模型的第一参数进行更新,依据所述第二误差对所述声码器的第二参数进行更新,对具有更新后的所述声学模型和所述声码器进行训练,得到语音转换模型。3.根据权利要求2所述的方法,其特征在于,所述将所述训练语音识别结果以及所述对象标识输入声学模型,得到所述训练对象的预测声学特征,包括:对所述训练语音识别结果进行特征提取,得到语音编码特征以及所述对象标识对应的音色特征;对所述语音编码特征和所述音色特征进行融合处理,得到所述训练对象的预测声学特征;所述将所述预测声学特征输入声码器,得到所述训练对象的预测语音,包括:将所述语音编码特征和所述预测声学特征输入声码器,得到所述训练对象的预测语音。4.根据权利要求3所述的方法,其特征在于,所述训练方法还包括:所述训练对象为一个指定发声对象,记录所述指定发声对象的对象标识与所述声学模型提取到的音色特征之间的对应关系;所述目标发声对象包括任一指定发声对象;利用所述对应关系,更新所述声学模型的编码嵌入层表征的嵌入音色表,通过查询所述嵌入音色表,获得所述目标对象标识对应的目标音色特征。5.根据权利要求2所述的方法,其特征在于,所述训练方法还包括:调取所述训练语音的参考基频;将所述训练语音的参考基频输入基频处理模型,得到相应发声对象的基频特征;在所述反向传播过程中,依据所述第二误差对所述基频处理模型的第三参数进行更新;
所述将所述预测声学特征输入声码器,得到所述训练对象的预测语音,包括:将所述基频特征和所述预测声学特征输入声码器,得到所述训练对象的预测语音。6.根据权利要求5所述的方法,其特征在于,所述训练方法还包括:将所述训练语音识别结果包含的韵律信息输入基频预测模型,得到所述训练对象包含的所述发声对象各自的预测基频;调取所述对象标识对应的发声对象的基频预测目标值;获取同一发声对象的所述预测基频与所述基频预测目标值之间的第三误差;在所述反向传输过程中,依据所述第三误差对所述基频预测模型的第四参数进行更新。7.根据权利要求2

6任一项所述的方法,其特征在于,所述对更新后的所述声学模型和所述声码器进行训练,得到语音转换模型,包括:对具有更新后的所述声学模型和所述声码器进行训练,直至满足第一训练约束条件,停止对所述声学模型的训练;将下一次训练所述声码器输出的预测语音和相应训练语音输入判别器,依据判别结果对...

【专利技术属性】
技术研发人员:刘皓冬李栋梁刘恺
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1