【技术实现步骤摘要】
语音克隆方法、训练方法、装置和介质
[0001]本专利技术实施例涉及语音处理
,特别是涉及一种语音克隆方法、训练方法、装置和介质。
技术介绍
[0002]语音克隆技术,指的是使用克隆对象的少量音频,来完成对克隆对象的声音的克隆。通常,语音克隆技术能够根据输入的任意文本,生成逼近克隆对象的声音的目标音频。
[0003]传统的语音克隆方法通常包括:首先,训练多人的语音克隆模型;其次,采集克隆对象的音频;对克隆对象的音频,进行降噪、特征提取、时长切分等一系列操作,以得到对应的处理结果;接着利用上述处理结果,对多人的语音克隆模型进行自适应训练,以对多人的语音克隆模型进行调整,以及得到克隆对象的语音克隆模型,该克隆对象的语音克隆模型用于对该克隆对象进行声音克隆。
[0004]在实际应用中,上述自适应训练对克隆对象的音频数据量有一定的要求,通常要求克隆对象的音频为几十到上百句,这增加了克隆对象的音频的获取难度。而且,自适应训练需要额外的训练时间,这影响了处理效率。此外,自适应训练对设备性能有一定的要求,这影响了语音克隆方法的使用范围,例如,目前语音克隆方法仅仅能够适用于服务端。
技术实现思路
[0005]如何降低克隆对象的音频数据量,如何提高语音克隆的处理效率和适用范围,是本领域技术人员需要解决的技术问题。鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音克隆方法、装置和介质。
[0006]为了解决上述问题,本专利技术公开了一种训练方法,包括 ...
【技术保护点】
【技术特征摘要】
1.一种语音克隆方法,其特征在于,所述方法包括:接收文本和克隆对象的原始音频;确定所述原始音频对应的声纹特征;将所述文本和所述声纹特征输入声学模型,以得到对应的声学特征;其中,所述声学模型为根据训练样本对应的声纹特征得到;根据所述声学特征,确定对应的目标音频。2.根据权利要求1所述的方法,其特征在于,所述声学模型包括:时长预测模块、韵律预测模块和声学预测模块;在训练所述声学模型的反向传播过程中,根据所述时长预测模块、所述韵律预测模块和所述声学预测模块对应的第一融合误差,对所述时长预测模块、所述韵律预测模块和所述声学预测模块的参数进行更新;其中,所述第一融合误差为对所述时长预测模块对应的第一误差、所述韵律预测模块对应的第二误差和所述声学预测模块对应的第三误差进行融合得到。3.根据权利要求1所述的方法,其特征在于,所述声学模型包括:时长预测模块、韵律预测模块和声学预测模块;在训练所述声学模型的反向传播过程中,根据所述时长预测模块、所述韵律预测模块、所述声学预测模块、以及声纹误差对应的第二融合误差,对所述时长预测模块、所述韵律预测模块和所述声学预测模块的参数进行更新;其中,所述声纹误差表征基于所述声学预测模块的输出得到的预测声纹特征、与训练样本对应的声纹特征之间的误差;所述第二融合误差为对所述时长预测模块对应的第一误差、所述韵律预测模块对应的第二误差、所述声学预测模块对应的第三误差、以及所述声纹误差进行融合得到。4.一种训练方法,其特征在于,所述方法包括:确定训练样本对应的声纹特征;根据所述训练样本对应的声纹特征,训练声学模型。5.根据权利要求4所述的方法,其特征在于,所述声学模型包括:时长预测模块、韵律预测模块和声学预测模块;所述训练声学模型,包括:根据所述训练样本对应的声纹特征,确定所述时长预测模块对应的第一误差,确定所述韵律预测模块对应的第二误差,以及,确定所述声学预测模块对应的第三误差;对所述第一误差、所述第二误差和所述第三误差进行融合,得到对应的第一融合误差,以在反向传播过程中,根据所述第一融合误差对所述时长预测模块、所述韵律预测模块和所述声学预测模块的参数进行更新。6.根据权利要求4所述的方法,其特征在于,所述声学模型包括:时长预测模块、韵律预测模块和声学预测模块;所述训练声学模型,包括:根据所述训练样本对应的声纹特征,确定所述时长预测模块对应的第一误差,确定所述韵律预测模块对应的第二误差,以及,确定所述声学预测模块对应的第三误差;针对所述声学预测模块输出的预测声学特征,确定对应的预测声纹特征;根据所述声纹特征和所述预测声纹特征,确定第四误差;
对所述第一误差、所述第二误差、所述第三误差和所述第四误差进行融合,得到对应的第二融合误差,以在反向传播过程中,根据所述第二融合误差对所述时长预测模块、所述韵律预测模块和所述声学预测模块的参数进行更新。7.根据权利要求4至6中任一...
【专利技术属性】
技术研发人员:方鹏,刘恺,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。