【技术实现步骤摘要】
一种风格迁移合成方法、装置及电子设备
[0001]本公开涉及人工智能
,尤其涉及深度学习、语音合成、风格迁移
,具体涉及一种语音风格迁移合成方法、装置及电子设备。
技术介绍
[0002]出于各种实际需求,如为实现语音聊天软件中提供的变声功能、隐藏说话人的真实身份等,需要根据给定的一个音频片段以及文本,合成得到具有与该音频片段具有相同语音风格且语音内容为该文本的音频片段,由于该过程可以视为将音频片段的语音风格迁移至文本,因此该过程称为风格迁移合成。
技术实现思路
[0003]本公开提供了一种风格迁移合成方法、装置及电子设备。
[0004]根据本公开的第一方面,提供了一种风格迁移合成方法,包括:
[0005]将目标文本和具有目标语音风格的目标音频片段输入至预先经过样本文本和样本音频片段训练得到的语音合成模型;
[0006]通过所述语音合成模型的风格抽取子模型,针对所述目标音频片段中每个音频单元,叠加用于表征所述目标音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;
[0007]通过所述语音合成模型的内容编码子模型,提取所述目标文本中每个发音单元的发音特征;
[0008]通过所述语音合成模型的内容风格交叉注意力子模型,针对所述目标文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;
[0009]通 ...
【技术保护点】
【技术特征摘要】
1.一种风格迁移合成方法,包括:将目标文本和具有目标语音风格的目标音频片段输入至预先经过样本文本和样本音频片段训练得到的语音合成模型;通过所述语音合成模型的风格抽取子模型,针对所述目标音频片段中每个音频单元,叠加用于表征所述目标音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;通过所述语音合成模型的内容编码子模型,提取所述目标文本中每个发音单元的发音特征;通过所述语音合成模型的内容风格交叉注意力子模型,针对所述目标文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;通过所述语音合成模型的声谱解码子模型,根据所述目标文本中每个发音单元的所述融合特征,合成具有所述目标语音风格且语音内容为所述目标文本的音频片段。2.根据权利要求1所述的方法,其中,所述通过所述语音合成模型的风格抽取子模型,针对所述目标音频片段中每个音频单元,叠加用于表征所述目标音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征,包括:通过所述语音合成模型的风格抽取模块,提取所述目标音频片段中所有音频帧的平均音频特征,作为粗粒度音频特征;通过所述风格抽取模块,针对所述目标音频片段中的每个音频单元,提取所述音频单元中所有音频帧的平均音频特征,作为所述音频单元的细粒度音频特征;通过所述风格抽取模块,针对所述目标音频片段中的每个音频单元,将所述音频单元的所述细粒度音频特征与所述粗粒度音频特征相加,得到所述音频单元的叠加音频特征。3.根据权利要求1所述的放法,其中,所述通过所述语音合成模型的内容风格交叉注意力子模型,针对目标文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,包括:将目标文本中每个发音单元的发音特征输入至所述语音合成模型中内容风格交叉注意力子模型的自注意力子网络,得到所述子注意力子网络输出的经过调整的发音特征;通过所述内容交叉子模型的交叉注意力子网络,针对所述目标文本中的每个发音单元,融合所述发音单元的经过调整的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述所述目标叠加音频特征为与经过调整的发音特征匹配的叠加音频特征。4.根据权利要求1所述的方法,其中,所述通过所述语音合成模型的声谱解码子模型,根据所述目标文本中每个发音单元的所述融合特征,合成具有所述目标语音风格且语音内容为所述目标文本的音频片段,包括:将所述目标文本中每个发音单元的所述融合特征、所述粗粒度音频特征输入至所述语音合成模型的声谱解码子模型,得到所述声谱解码子网络输出的声谱特征;将所述声谱特征转换为具有所述目标语音风格且语音内容为所述目标文本的音频片段。5.一种语音合成模型的训练方法,包括:
将样本音频片段、样本文本输入至原始模型,其中,所述样本文本为所述样本音频片段的语音内容;通过所述原始模型,针对所述样本音频片段中每个音频单元,叠加用于表征所述样本音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;通过所述原始模型,提取所述样本文本中每个发音单元的发音特征;通过所述原始模型,针对所述样本文本中的每个发音单元,融合所述发音单元的发音特征以及目标叠加音频特征,得到所述发音单元的融合特征,其中,所述目标叠加音频特征为与所述发音特征匹配的叠加音频特征;通过所述原始模型,根据所述样本文本中每个发音单元的所述融合特征转换为预测声谱特征;根据所述预测声谱特征与所述样本音频片段的真实声谱特征之间的差异,调整所述原始模型的模型参数;获取新的样本音频片段和新的样本文本,返回执行所述将样本音频片段、样本文本输入至原始模型的步骤,直至达到第一收敛条件,将经过调整的原始模型作为语音合成模型。6.根据权利要求5所述的方法,还包括:从所有叠加音频特征中抽取部分叠加音频特征,作为筛选后音频特征;所述目标叠加音频特征为与所述发音特征匹配的筛选后音频特征。7.根据权利要求6所述的方法,其中,所述样本音频片段初始为第一样本人员的音频片段;所述获取新的样本音频片段,包括:若未达到第二收敛条件,从第一样本数据集中获取新的样本音频片段,所述第一样本数据集中包括所述第一样本人员的音频片段;若达到所述第二收敛条件,从第二样本数据集中获取新的样本音频片段和新的样本文本,所述第二样本数据集中包括多个样本人员的音频片段。8.一种风格迁移合成装置,包括:第一输入模块,用于将目标文本和具有目标语音风格的目标音频片段输入至预先经过样本文本和样本音频片段训练得到的语音合成模型;风格抽取模块,用于通过所述语音合成模型的风格抽取子模型,针对所述目标音频片段中每个音频单元,叠加用于表征所述目标音频片段的粗粒度音频特征和用于表征所述音频单元的细粒度音频特征,得到所述音频单元的叠加音频特征;内容编码模块,用于通过所述语音合成模型的内容编码子模型,提取所述目标文本中每个发音单元的发音特征;内容风格交叉注意力模块,用于通过所述语音合成模型的...
【专利技术属性】
技术研发人员:赵情恩,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。