语音克隆方法、训练方法、装置和介质制造方法及图纸

技术编号:32327338 阅读:22 留言:0更新日期:2022-02-16 18:34
本发明专利技术实施例提供了一种语音克隆方法、训练方法、装置和介质,其中的语音克隆方法具体包括:接收文本和克隆对象的原始音频;确定所述原始音频对应的声纹特征;将所述文本和所述声纹特征输入声学模型,以得到对应的声学特征;其中,所述声学模型为根据训练样本对应的声纹特征得到;根据所述声学特征,确定对应的目标音频。本发明专利技术实施例能够降低克隆对象的音频数据量,以及能够提高语音克隆的处理效率和适用范围。适用范围。适用范围。

【技术实现步骤摘要】
语音克隆方法、训练方法、装置和介质


[0001]本专利技术实施例涉及语音处理
,特别是涉及一种语音克隆方法、训练方法、装置和介质。

技术介绍

[0002]语音克隆技术,指的是使用克隆对象的少量音频,来完成对克隆对象的声音的克隆。通常,语音克隆技术能够根据输入的任意文本,生成逼近克隆对象的声音的目标音频。
[0003]传统的语音克隆方法通常包括:首先,训练多人的语音克隆模型;其次,采集克隆对象的音频;对克隆对象的音频,进行降噪、特征提取、时长切分等一系列操作,以得到对应的处理结果;接着利用上述处理结果,对多人的语音克隆模型进行自适应训练,以对多人的语音克隆模型进行调整,以及得到克隆对象的语音克隆模型,该克隆对象的语音克隆模型用于对该克隆对象进行声音克隆。
[0004]在实际应用中,上述自适应训练对克隆对象的音频数据量有一定的要求,通常要求克隆对象的音频为几十到上百句,这增加了克隆对象的音频的获取难度。而且,自适应训练需要额外的训练时间,这影响了处理效率。此外,自适应训练对设备性能有一定的要求,这影响了语音克隆方法的使用范围,例如,目前语音克隆方法仅仅能够适用于服务端。

技术实现思路

[0005]如何降低克隆对象的音频数据量,如何提高语音克隆的处理效率和适用范围,是本领域技术人员需要解决的技术问题。鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音克隆方法、装置和介质。
[0006]为了解决上述问题,本专利技术公开了一种训练方法,包括
[0007]确定训练样本对应的声纹特征;
[0008]根据所述训练样本对应的声纹特征,训练声学模型。
[0009]为了解决上述问题,本专利技术公开了一种语音克隆方法,包括:
[0010]接收文本和克隆对象的原始音频;
[0011]确定所述原始音频对应的声纹特征;
[0012]将所述文本和所述声纹特征输入声学模型,以得到对应的声学特征;其中,所述声学模型为根据训练样本对应的声纹特征得到;
[0013]根据所述声学特征,确定对应的目标音频。
[0014]另一方面,本专利技术实施例公开了一种训练装置,包括:
[0015]声纹确定模块,用于确定训练样本对应的声纹特征;
[0016]声学训练模块,用于根据所述训练样本对应的声纹特征,训练声学模型。
[0017]另一方面,本专利技术实施例公开了一种语音克隆装置,包括:
[0018]接收模块,用于接收文本和克隆对象的原始音频;
[0019]声纹确定模块,用于确定所述原始音频对应的声纹特征;
[0020]声学确定模块,用于将所述文本和所述声纹特征输入声学模型,以得到对应的声学特征;其中,所述声学模型为根据训练样本对应的声纹特征得到;
[0021]音频确定模块,用于根据所述声学特征,确定对应的目标音频。
[0022]再一方面,本专利技术实施例公开了一种用于训练语音克隆模型的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,所述程序被一个或者一个以上处理器执行时,实现前述方法的步骤。
[0023]再一方面,本专利技术实施例公开了一种用于语音克隆的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,所述程序被一个或者一个以上处理器执行时,实现前述方法的步骤。
[0024]本专利技术实施例还公开了一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得装置执行前述的方法。
[0025]本专利技术实施例还公开了一种计算机程序产品,所述计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中,且适于由处理器读取并执行,以使得具有所述处理器的计算机设备执行前述的方法。
[0026]本专利技术实施例包括以下优点:
[0027]本专利技术实施例根据训练样本对应的声纹特征,训练得到声学模型。其中,声学模型可以表征输入(文本和声纹特征等)与输出(声学特征)之间的映射关系,能够得到与输入相匹配的输出。由于声学模型的输入包括声纹特征,因此,本专利技术实施例可以基于声学模型,得到与声纹特征相匹配的声学特征。
[0028]本专利技术实施例的语音克隆过程中,克隆对象的原始音频用于确定声纹特征。由于声纹特征的确定对音频数据量的要求较低,因此,本专利技术实施例能够降低对于克隆对象的原始音频的要求,也即,能够降低克隆对象的音频数据量。在实际应用中,克隆对象录制一句话或多句话,即可实现语音克隆,因此能够提升用户体验。
[0029]并且,本专利技术实施例的语音克隆流程的原理具体为:根据原始音频对应的声纹特征、以及声学模型表征的输入(包含声纹特征)与声学特征之间的映射关系,实现语音克隆。由于可以节省原始音频对应的自适应训练,故本专利技术实施例的语音克隆流程可以节省自适应训练的时间,能够提高处理效率;并且,本专利技术实施例的语音克隆流程可以降低对于设备性能的要求,既能够适用于服务端,又能够适用于客户端,因此能够增加适用范围。
附图说明
[0030]图1是本专利技术实施例的一种训练方法的步骤流程图;
[0031]图2是本专利技术实施例的一种声学模型的训练流程的示意;
[0032]图3是本专利技术实施例的一种语音克隆模型的结构示意图;
[0033]图4是本专利技术实施例的一种语音克隆方法的步骤流程图;
[0034]图5是本专利技术实施例的一种声学模型的使用流程的示意;
[0035]图6是本专利技术实施例的一种语音克隆装置的结构框图;
[0036]图7是本专利技术实施例的一种训练装置的结构框图;
[0037]图8是本专利技术实施例的一种用于语音克隆的装置1300的框图;及
[0038]图9是本专利技术实施例的一种服务端的结构示意图。
具体实施方式
[0039]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。
[0040]本专利技术实施例可以应用于语音克隆场景。语音克隆场景,可用于根据输入的任意文本和克隆对象的少量音频,生成逼近克隆对象的声音的目标音频。
[0041]针对如何降低克隆对象的音频数据量、如何提高语音克隆的处理效率和适用范围的技术问题,本专利技术实施例提供了一种语音克隆方法,该方法具体包括:接收文本和克隆对象的原始音频;确定该原始音频对应的声纹特征;将该文本和该声纹特征输入声学模型,以得到对应的声学特征;其中,该声学模型可以为根据训练样本对应的声纹特征得到;根据该声学特征,确定对应的目标音频。
[0042]本专利技术实施例在声学模型的训练过程和语音克隆过程中使用了声纹特征。声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明,声纹不仅具有特定性,而且有相对稳定性的特点,因此能够表征用户的身份。
[0043]本专利技术实施例根据训练样本对应的声纹特征,训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音克隆方法,其特征在于,所述方法包括:接收文本和克隆对象的原始音频;确定所述原始音频对应的声纹特征;将所述文本和所述声纹特征输入声学模型,以得到对应的声学特征;其中,所述声学模型为根据训练样本对应的声纹特征得到;根据所述声学特征,确定对应的目标音频。2.根据权利要求1所述的方法,其特征在于,所述声学模型包括:时长预测模块、韵律预测模块和声学预测模块;在训练所述声学模型的反向传播过程中,根据所述时长预测模块、所述韵律预测模块和所述声学预测模块对应的第一融合误差,对所述时长预测模块、所述韵律预测模块和所述声学预测模块的参数进行更新;其中,所述第一融合误差为对所述时长预测模块对应的第一误差、所述韵律预测模块对应的第二误差和所述声学预测模块对应的第三误差进行融合得到。3.根据权利要求1所述的方法,其特征在于,所述声学模型包括:时长预测模块、韵律预测模块和声学预测模块;在训练所述声学模型的反向传播过程中,根据所述时长预测模块、所述韵律预测模块、所述声学预测模块、以及声纹误差对应的第二融合误差,对所述时长预测模块、所述韵律预测模块和所述声学预测模块的参数进行更新;其中,所述声纹误差表征基于所述声学预测模块的输出得到的预测声纹特征、与训练样本对应的声纹特征之间的误差;所述第二融合误差为对所述时长预测模块对应的第一误差、所述韵律预测模块对应的第二误差、所述声学预测模块对应的第三误差、以及所述声纹误差进行融合得到。4.一种训练方法,其特征在于,所述方法包括:确定训练样本对应的声纹特征;根据所述训练样本对应的声纹特征,训练声学模型。5.根据权利要求4所述的方法,其特征在于,所述声学模型包括:时长预测模块、韵律预测模块和声学预测模块;所述训练声学模型,包括:根据所述训练样本对应的声纹特征,确定所述时长预测模块对应的第一误差,确定所述韵律预测模块对应的第二误差,以及,确定所述声学预测模块对应的第三误差;对所述第一误差、所述第二误差和所述第三误差进行融合,得到对应的第一融合误差,以在反向传播过程中,根据所述第一融合误差对所述时长预测模块、所述韵律预测模块和所述声学预测模块的参数进行更新。6.根据权利要求4所述的方法,其特征在于,所述声学模型包括:时长预测模块、韵律预测模块和声学预测模块;所述训练声学模型,包括:根据所述训练样本对应的声纹特征,确定所述时长预测模块对应的第一误差,确定所述韵律预测模块对应的第二误差,以及,确定所述声学预测模块对应的第三误差;针对所述声学预测模块输出的预测声学特征,确定对应的预测声纹特征;根据所述声纹特征和所述预测声纹特征,确定第四误差;
对所述第一误差、所述第二误差、所述第三误差和所述第四误差进行融合,得到对应的第二融合误差,以在反向传播过程中,根据所述第二融合误差对所述时长预测模块、所述韵律预测模块和所述声学预测模块的参数进行更新。7.根据权利要求4至6中任一...

【专利技术属性】
技术研发人员:方鹏刘恺
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1