一种风格迁移合成方法、装置及电子设备制造方法及图纸

技术编号:32668789 阅读:16 留言:0更新日期:2022-03-17 11:22
本公开提供了一种风格迁移合成方法、装置及电子设备。涉及人工智能技术领域,尤其涉及深度学习、语音合成、风格迁移技术领域,具体涉及一种语音风格迁移合成方法、装置及电子设备。具体实现方案为:将目标文本和目标音频片段输入至预先经过样本文本和样本音频片段训练得到的语音合成模型;针对目标音频片段中每个音频单元,叠加粗粒度音频特征和细粒度音频特征,得到音频单元的叠加音频特征;提取目标文本中每个发音单元的发音特征;针对目标文本中的每个发音单元,融合发音单元的发音特征以及目标叠加音频特征,得到发音单元的融合特征;根据融合特征,合成音频片段。能够合成在整体和细节上具有目标风格的音频片段。体和细节上具有目标风格的音频片段。体和细节上具有目标风格的音频片段。

【技术实现步骤摘要】
一种风格迁移合成方法、装置及电子设备


[0001]本公开涉及人工智能
,尤其涉及深度学习、语音合成、风格迁移
,具体涉及一种语音风格迁移合成方法、装置及电子设备。

技术介绍

[0002]出于各种实际需求,如为实现语音聊天软件中提供的变声功能、隐藏说话人的真实身份等,需要根据给定的一个音频片段以及文本,合成得到具有与该音频片段具有相同语音风格且语音内容为该文本的音频片段,由于该过程可以视为将音频片段的语音风格迁移至文本,因此该过程称为风格迁移合成。

技术实现思路

[0003]本公开提供了一种风格迁移合成方法、装置及电子设备。
[0004]根据本公开的第一方面,提供了一种风格迁移合成方法,包括:
[0005]将目标文本和具有目标语音风格的目标音频片段输入至预先经过样本文本和样本音频片段训练得到的语音合成模型;
[0006]通过所述语音合成模型的风格抽取子模型,针对所述目标音频片段中每个音频单元,叠加用于表征所述目标音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;
[0007]通过所述语音合成模型的内容编码子模型,提取所述目标文本中每个发音单元的发音特征;
[0008]通过所述语音合成模型的内容风格交叉注意力子模型,针对所述目标文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;
[0009]通过所述语音合成模型的声谱解码子模型,根据所述目标文本中每个发音单元的所述融合特征,合成具有所述目标语音风格且语音内容为所述目标文本的音频片段。
[0010]根据本公开的第二方面,提供了一种语音合成模型的训练方法,包括:
[0011]将样本音频片段、样本文本输入至原始模型,其中,所述样本文本为所述样本音频片段的语音内容;
[0012]通过所述原始模型,针对所述样本音频片段中每个音频单元,叠加用于表征所述样本音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;
[0013]通过所述原始模型,提取所述样本文本中每个发音单元的发音特征;
[0014]通过所述原始模型,针对所述样本文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;
[0015]通过所述原始模型,根据所述样本文本中每个发音单元的所述融合特征转换为预
测声谱特征;
[0016]根据所述预测声谱特征与所述样本音频片段的真实声谱特征之间的差异,调整所述原始模型的模型参数;
[0017]获取新的样本音频片段和新的样本文本,返回执行所述将样本音频片段、样本文本输入至原始模型的步骤,直至达到第一收敛条件,将经过调整的原始模型作为语音合成模型。
[0018]根据本公开的第三方面,提供了一种风格迁移合成装置,包括:
[0019]第一输入模块,用于将目标文本和具有目标语音风格的目标音频片段输入至预先经过样本文本和样本音频片段训练得到的语音合成模型;
[0020]风格抽取模块,用于通过所述语音合成模型的风格抽取子模型,针对所述目标音频片段中每个音频单元,叠加用于表征所述目标音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;
[0021]内容编码模块,用于通过所述语音合成模型的内容编码子模型,提取所述目标文本中每个发音单元的发音特征;
[0022]内容风格交叉注意力模块,用于通过所述语音合成模型的内容风格交叉注意力子模型,针对所述目标文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;
[0023]声谱解码模块,用于通过所述语音合成模型的声谱解码子模型,根据所述目标文本中每个发音单元的所述融合特征,合成具有所述目标语音风格且语音内容为所述目标文本的音频片段。
[0024]根据本公开的第四方面,提供了一种语音合成模型的训练装置,包括:
[0025]第二输入模块,用于将样本音频片段、样本文本输入至原始模型,其中,所述样本文本为所述样本音频片段的语音内容;
[0026]第一原始模块,用于通过所述原始模型,针对所述样本音频片段中每个音频单元,叠加用于表征所述样本音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;
[0027]第二原始模块,用于通过所述原始模型,提取所述样本文本中每个发音单元的发音特征;
[0028]第三原始模块,用于通过所述原始模型,针对所述样本文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;
[0029]第四原始模块,用于通过所述原始模型,根据所述样本文本中每个发音单元的所述融合特征转换为预测声谱特征;
[0030]参数调整模块,用于根据所述预测声谱特征与所述样本音频片段的真实声谱特征之间的差异,调整所述原始模型的模型参数;
[0031]获取模块,用于获取新的样本音频片段和新的样本文本,返回执行所述将样本音频片段、样本文本输入至原始模型的步骤,直至达到第一收敛条件,将经过调整的原始模型作为语音合成模型。
[0032]根据本公开的第五方面,提供了一种电子设备,包括:
[0033]至少一个处理器;以及
[0034]与所述至少一个处理器通信连接的存储器;其中,
[0035]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面或第二方面中任一项所述的方法。
[0036]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述第一方面或第二方面中任一项所述的方法。
[0037]根据本公开提供的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述第一方面或第二方面中任一项所述的方法。
[0038]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0039]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0040]图1是根据本公开提供的风格迁移合成方法的一种流程示意图;
[0041]图2是根据本公开提供的风格迁移合成方法中使用的语音合成模型的一种结构示意图;
[0042]图3本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种风格迁移合成方法,包括:将目标文本和具有目标语音风格的目标音频片段输入至预先经过样本文本和样本音频片段训练得到的语音合成模型;通过所述语音合成模型的风格抽取子模型,针对所述目标音频片段中每个音频单元,叠加用于表征所述目标音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;通过所述语音合成模型的内容编码子模型,提取所述目标文本中每个发音单元的发音特征;通过所述语音合成模型的内容风格交叉注意力子模型,针对所述目标文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;通过所述语音合成模型的声谱解码子模型,根据所述目标文本中每个发音单元的所述融合特征,合成具有所述目标语音风格且语音内容为所述目标文本的音频片段。2.根据权利要求1所述的方法,其中,所述通过所述语音合成模型的风格抽取子模型,针对所述目标音频片段中每个音频单元,叠加用于表征所述目标音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征,包括:通过所述语音合成模型的风格抽取模块,提取所述目标音频片段中所有音频帧的平均音频特征,作为粗粒度音频特征;通过所述风格抽取模块,针对所述目标音频片段中的每个音频单元,提取所述音频单元中所有音频帧的平均音频特征,作为所述音频单元的细粒度音频特征;通过所述风格抽取模块,针对所述目标音频片段中的每个音频单元,将所述音频单元的所述细粒度音频特征与所述粗粒度音频特征相加,得到所述音频单元的叠加音频特征。3.根据权利要求1所述的放法,其中,所述通过所述语音合成模型的内容风格交叉注意力子模型,针对目标文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,包括:将目标文本中每个发音单元的发音特征输入至所述语音合成模型中内容风格交叉注意力子模型的自注意力子网络,得到所述子注意力子网络输出的经过调整的发音特征;通过所述内容交叉子模型的交叉注意力子网络,针对所述目标文本中的每个发音单元,融合所述发音单元的经过调整的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述所述目标叠加音频特征为与经过调整的发音特征匹配的叠加音频特征。4.根据权利要求1所述的方法,其中,所述通过所述语音合成模型的声谱解码子模型,根据所述目标文本中每个发音单元的所述融合特征,合成具有所述目标语音风格且语音内容为所述目标文本的音频片段,包括:将所述目标文本中每个发音单元的所述融合特征、所述粗粒度音频特征输入至所述语音合成模型的声谱解码子模型,得到所述声谱解码子网络输出的声谱特征;将所述声谱特征转换为具有所述目标语音风格且语音内容为所述目标文本的音频片段。5.一种语音合成模型的训练方法,包括:
将样本音频片段、样本文本输入至原始模型,其中,所述样本文本为所述样本音频片段的语音内容;通过所述原始模型,针对所述样本音频片段中每个音频单元,叠加用于表征所述样本音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;通过所述原始模型,提取所述样本文本中每个发音单元的发音特征;通过所述原始模型,针对所述样本文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;通过所述原始模型,根据所述样本文本中每个发音单元的所述融合特征转换为预测声谱特征;根据所述预测声谱特征与所述样本音频片段的真实声谱特征之间的差异,调整所述原始模型的模型参数;获取新的样本音频片段和新的样本文本,返回执行所述将样本音频片段、样本文本输入至原始模型的步骤,直至达到第一收敛条件,将经过调整的原始模型作为语音合成模型。6.根据权利要求5所述的方法,还包括:从所有叠加音频特征中抽取部分叠加音频特征,作为筛选后音频特征;所述目标叠加音频特征为与所述发音特征匹配的筛选后音频特征。7.根据权利要求6所述的方法,其中,所述样本音频片段初始为第一样本人员的音频片段;所述获取新的样本音频片段,包括:若未达到第二收敛条件,从第一样本数据集中获取新的样本音频片段,所述第一样本数据集中包括所述第一样本人员的音频片段;若达到所述第二收敛条件,从第二样本数据集中获取新的样本音频片段和新的样本文本,所述第二样本数据集中包括多个样本人员的音频片段。8.一种风格迁移合成装置,包括:第一输入模块,用于将目标文本和具有目标语音风格的目标音频片段输入至预先经过样本文本和样本音频片段训练得到的语音合成模型;风格抽取模块,用于通过所述语音合成模型的风格抽取子模型,针对所述目标音频片段中每个音频单元,叠加用于表征所述目标音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;内容编码模块,用于通过所述语音合成模型的内容编码子模型,提取所述目标文本中每个发音单元的发音特征;内容风格交叉注意力模块,用于通过所述语音合成模型的...

【专利技术属性】
技术研发人员:赵情恩
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1