非平行语料声音转换数据增强模型训练方法及装置制造方法及图纸

技术编号:22886076 阅读:25 留言:0更新日期:2019-12-21 08:03
本申请公开一种非平行语料声音转换数据增强模型训练方法,包括:为所述数据增强模型配置顺序连接的声学注意力层、文本注意力层和解码器模块;所述声学注意力层包括第一GRU层和第一注意力层,所述文本注意力层包括第二GRU层和第二注意力层;将样本源文本序列编码为嵌入序列;将样本目标声学特征序列输入至所述第一GRU层;将所述嵌入序列输入至所述第一注意力层和第二注意力层,以训练所述增强模型。本申请通过声学注意力层和文本注意力层保留了源语音中包含的持续时间和语言上下文,从而确保了训练得到的增强模型的准确性,能够更好的用于音频与文本之间的对齐,有助于提升语音转换的效果。

Training method and device of data enhancement model for voice conversion of non parallel corpus

【技术实现步骤摘要】
非平行语料声音转换数据增强模型训练方法及装置
本申请涉及语音转换
,尤其涉及一种非平行语料声音转换数据增强模型训练方法及装置。
技术介绍
语音转换(VC)是一种旨在转换一个说话者的语音音频以使其听起来好像是由另一个说话者说出而不改变语言内容的技术。VC具有应用于各种任务的巨大潜力,例如,计算机辅助语音修剪系统的定制反馈,为语言障碍科目开发个性化助教,用各种人的声音进行电影配音等。基于数据条件的VC技术有两种主要类型:平行VC和非平行VC。平行VC技术需要源和目标说话者的平行话语对的可用性。这些技术专注于开发源话语和目标话语的映射函数。在传统的VC方法中,话语通过动态时间规整(DTW)算法来对齐。该映射可以通过多种声学模型学习,如高斯混合模型(GMM),深度神经网络(DNNs),递归神经网络(RNNs)和序列到序列(Seq2Seq)模型。非平行VC不需要不同说话者的平行训练数据。大致有两类非平行VC方法。第一类包含将非平行VC问题转换为平行VC问题的方法。有的使用Tacotron生成标准语音,然后用于训练序列到序列的VC模型。有的使用连接单元选择TTS系统来生成参考语音,该参考语音充当非平行源和目标语音数据集之间的桥梁。使用TTS系统创建数据是基于合成语音包含足够的声学成分以用作参考的假设。基于CycleGAN的VC模型也属于这一类。第二类涉及语言和说话者信息的分离以及具有相同内容但不同说话者特征的语音重建。识别合成模型涉及提取语言,说话者无关表示的ASR模型,以及生成变换语音的合成模型。最近还提出了基于自动编码器和变分自动编码器的模型。CycleGAN利用循环生成式对抗网络来进行非平行预料的声音转换。音频与文本对齐不准确,导致生成的音频效果不好。
技术实现思路
本申请实施例提供一种非平行语料声音转换数据增强模型训练方法、装置、非平行语料声音转换数据增强方法和语音转换方法,用于至少解决上述技术问题之一。第一方面,本申请实施例提供一种非平行语料声音转换数据增强模型训练方法,包括:为所述数据增强模型配置顺序连接的声学注意力层、文本注意力层和解码器模块;所述声学注意力层包括第一GRU层和第一注意力层,所述文本注意力层包括第二GRU层和第二注意力层;将样本源文本序列编码为嵌入序列;将样本目标声学特征序列输入至所述第一GRU层;将所述嵌入序列输入至所述第一注意力层和第二注意力层,以训练所述增强模型。第二方面,本申请实施例提供一种非平行语料声音转换数据增强方法,采用本申请任一实施例中所述的非平行语料声音转换数据增强模型,所述方法包括:将源语音数据输入至所述第一GRU层和所述第二GRU层,将目标语音数据输入至所述解码器模块,以实现所述源语音数据与所述目标语音数据之间的对齐。第三方面,本申请实施例提供一种语音转换方法,包括:采用本申请任一实施例中所述的非平行语料声音转换数据增强方法生成平行语音数据;将所述平行语音数据输入至预先训练好的平行语音转换模型。第四方面,本申请实施例提供一种非平行语料声音转换数据增强模型训练装置,包括:配置模块,用于为所述数据增强模型配置顺序连接的声学注意力层、文本注意力层和解码器模块;所述声学注意力层包括第一GRU层和第一注意力层,所述文本注意力层包括第二GRU层和第二注意力层;编码器模块,用于将样本源文本序列编码为嵌入序列;训练模块,用于将样本目标声学特征序列输入至所述第一GRU层;将所述嵌入序列输入至所述第一注意力层和第二注意力层,以训练所述增强模型。第五方面,本申请实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本申请上述任一项非平行语料声音转换数据增强模型训练方法或者非平行语料声音转换数据增强方法或者语音转换方法。第六方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请上述任一项非平行语料声音转换数据增强模型训练方法或者非平行语料声音转换数据增强方法或者语音转换方法。第七方面,本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项非平行语料声音转换数据增强模型训练方法或者非平行语料声音转换数据增强方法或者语音转换方法。本申请实施例的有益效果在于:本申请提出了一种端到端的数据增强方法,用于生成高质量的精确时间对齐的平行语音。使用增强数据构建了直接的帧到帧VC模型,转换后的语音取得了良好的成绩。具体地,通过声学注意力层和文本注意力层保留了源语音中包含的持续时间和语言上下文,从而确保了训练得到的增强模型的准确性,能够更好的用于音频与文本之间的对齐,有助于提升语音转换的效果。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请的非平行语料声音转换数据增强模型训练方法的一实施例的流程图;图2为本申请的非平行语料声音转换数据增强模型训练装置的一实施例的示意图;图3为本申请的电子设备的一实施例的结构示意图;图4为现有技术中的典型Tacotron的结构示意图;图5为现有技术中的CycleGAN语音转换的示意图;图6为本申请的数据增强程序的一实施例的结构示意图;图7为本申请的使用精确时间对齐的增强平行语音的语音转换网络示意图;图8a和图8b示出了自然语音和精准时间对其的增强的平行语音的梅尔谱图;图9a至9c为不同注意力模型的注意力对齐示意图;图10a至10c示出了转换后的梅谱图的低频部分的示例;图11为为本申请应用于不同系统的平均意见得分示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境本文档来自技高网
...

【技术保护点】
1.一种非平行语料声音转换数据增强模型训练方法,包括:/n为所述数据增强模型配置顺序连接的声学注意力层、文本注意力层和解码器模块;所述声学注意力层包括第一GRU层和第一注意力层,所述文本注意力层包括第二GRU层和第二注意力层;/n将样本源文本序列编码为嵌入序列;/n将样本目标声学特征序列输入至所述第一GRU层;将所述嵌入序列输入至所述第一注意力层和第二注意力层,以训练所述增强模型。/n

【技术特征摘要】
1.一种非平行语料声音转换数据增强模型训练方法,包括:
为所述数据增强模型配置顺序连接的声学注意力层、文本注意力层和解码器模块;所述声学注意力层包括第一GRU层和第一注意力层,所述文本注意力层包括第二GRU层和第二注意力层;
将样本源文本序列编码为嵌入序列;
将样本目标声学特征序列输入至所述第一GRU层;将所述嵌入序列输入至所述第一注意力层和第二注意力层,以训练所述增强模型。


2.根据权利要求1所述的方法,其中,还包括:
向所述第一GRU层、所述第二GRU层和所述解码器模块所述输入全局条件,所述全局条件为说话者身份特征信息。


3.根据权利要求1所述的方法,其中,所述解码器模块包括CBHG子模块和BLSTM子模块。


4.一种非平行语料声音转换数据增强方法,采用权利要求1-3中任一项所述的模型,所述方法包括:
将源语音数据输入至所述第一GRU层和所述第二GRU层,将目标语音数据输入至所述解码器模块,以实现所述源语音数据与所述目标语音数据之间的对齐。


5.一种数据转换方法,包括:
采用权利要求4所述的方法生成平行语音数据;
将所述平行语音数据输入至预先训练好的平行语音转换模型。

【专利技术属性】
技术研发人员:俞凯李沐阳陈博陈宽吴松泽刘知峻
申请(专利权)人:苏州思必驰信息科技有限公司上海交通大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1