基于双说话人嵌入的跨语言语音合成方法及系统技术方案

技术编号:38221222 阅读:12 留言:0更新日期:2023-07-25 17:52
本发明专利技术实施例提供一种基于双说话人嵌入的跨语言语音合成方法。该方法包括:将文本以及本土语言说话人嵌入输入至txt2vec声学模型,通过文本编码器确定文本的音素序列编码,通过解码器从音素序列编码以及本土语言说话人嵌入确定矢量量化声学特征以及辅助特征;将目标语言说话人嵌入、矢量量化声学特征以及辅助特征输入至vec2wav声码器,提取目标语言说话人嵌入的X

【技术实现步骤摘要】
基于双说话人嵌入的跨语言语音合成方法及系统


[0001]本专利技术涉及智能语音领域,尤其涉及一种基于双说话人嵌入的跨语言语音合成方法及系统。

技术介绍

[0002]随着技术的发展,TTS(Text To Speech,文本转语音)模型在合成高保真度和丰富韵律的语音方面取得了巨大进展。然而,在多语言TTS场景中,跨语言合成的语音效果仍然不能令人满意,因为这种场景下合成的语音很难准确地保留说话人的音色并消除他们第一语言中的重音。更具体地说,跨语言合成(从本土语言跨越到非本土语言的语音合成)很难在保持说话人相似性的同时获得非母语的母语性,其中,母语性是指语音与母语的接近程度(也就是合成语音口音重,说出的感觉不够地道)。
[0003]为了解决上述问题,现有技术中会采用领域对抗训练方法,使得语音合成模型能够传递不同语言的不同说话人的声音特征;也会使用最小化互信息的方法来保持跨语言合成过程中的说话人一致性;还会使用损失函数来鼓励语音合成模型学习与语言无关的说话人表示。
[0004]在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:
[0005]现有技术这些方法通常依赖于融合谱图作为声学特征,它在时间轴和频率轴上高度相关,并包含丰富的说话人相关信息。然而丰富的说话人相关信息在跨语言合成时,很难将说话人信息和语言信息完全解耦,也就使得跨语言合成时很难在保持说话人相似性的同时获得非母语语言的自然度。

技术实现思路

[0006]为了至少解决现有技术中跨语言合成时很难在保持说话人相似性的同时获得非母语语言的自然度的问题。
[0007]第一方面,本专利技术实施例提供一种基于双说话人嵌入的跨语言语音合成方法,包括:
[0008]将文本以及本土语言说话人嵌入输入至txt2vec声学模型,在所述txt2vec声学模型中,通过文本编码器确定所述文本的音素序列编码,通过解码器从所述音素序列编码以及所述本土语言说话人嵌入确定本土语言说话人发音风格的矢量量化声学特征以及辅助特征;
[0009]将作为非本土语言的目标语言说话人嵌入、所述矢量量化声学特征以及辅助特征输入至vec2wav声码器,在所述vec2wav声码器中,提取所述目标语言说话人嵌入的X

vector特征,将所述X

vector特征、所述矢量量化声学特征以及辅助特征输入至特征编码器,得到在本土语言说话人发音风格基础上模拟目标语言说话人音色的跨语言声学特征;
[0010]利用生成器确定所述跨语言声学特征的跨语言合成语音。
[0011]第二方面,本专利技术实施例提供一种基于双说话人嵌入的跨语言语音合成系统,包
括:
[0012]发音风格特征确定程序模块,用于将文本以及本土语言说话人嵌入输入至txt2vec声学模型,在所述txt2vec声学模型中,通过文本编码器确定所述文本的音素序列编码,通过解码器从所述音素序列编码以及所述本土语言说话人嵌入确定本土语言说话人发音风格的矢量量化声学特征以及辅助特征;
[0013]音色特征确定程序模块,用于将作为非本土语言的目标语言说话人嵌入、所述矢量量化声学特征以及辅助特征输入至vec2wav声码器,在所述vec2wav声码器中,提取所述目标语言说话人嵌入的X

vector特征,将所述X

vector特征、所述矢量量化声学特征以及辅助特征输入至特征编码器,得到在本土语言说话人发音风格基础上模拟目标语言说话人音色的跨语言声学特征;
[0014]语音合成程序模块,用于利用生成器确定所述跨语言声学特征的跨语言合成语音。
[0015]第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的基于双说话人嵌入的跨语言语音合成方法的步骤。
[0016]第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例的基于双说话人嵌入的跨语言语音合成方法的步骤。
[0017]本专利技术实施例的有益效果在于:本方法构建了基于VQTTS的跨语言TTS模型,它由双说话人嵌入组成,分别对语言说话风格和说话人音色进行独立建模。VQ特征具有较少的说话人相关特征。利用这一发现,从而实现了具有高原生性和与目标说话人相似音色的跨语言语音合成。通过实验表明,本方法在语内和跨语合成的语音效果都优于现有技术。
附图说明
[0018]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本专利技术一实施例提供的一种基于双说话人嵌入的跨语言语音合成方法的流程图;
[0020]图2是本专利技术一实施例提供的一种基于双说话人嵌入的跨语言语音合成方法的DSE

TTS框架图;
[0021]图3是本专利技术一实施例提供的一种基于双说话人嵌入的跨语言语音合成方法的训练数据集信息示意图;
[0022]图4是本专利技术一实施例提供的一种基于双说话人嵌入的跨语言语音合成方法的不同声学特征的说话人分类精度示意图;
[0023]图5是本专利技术一实施例提供的一种基于双说话人嵌入的跨语言语音合成方法的本土语言MOS和ASR语内合成数据示意图;
[0024]图6是本专利技术一实施例提供的一种基于双说话人嵌入的跨语言语音合成方法的中英文跨语言语音合成数据图;
[0025]图7是本专利技术一实施例提供的一种基于双说话人嵌入的跨语言语音合成系统的结构示意图;
[0026]图8为本专利技术一实施例提供的一种基于双说话人嵌入的跨语言语音合成的电子设备的实施例的结构示意图。
具体实施方式
[0027]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]如图1所示为本专利技术一实施例提供的一种基于双说话人嵌入的跨语言语音合成方法的流程图,包括如下步骤:
[0029]S11:将文本以及本土语言说话人嵌入输入至txt2vec声学模型,在所述txt2vec声学模型中,通过文本编码器确定所述文本的音素序列编码,通过解码器从所述音素序列编码以及所述本土语言说话人嵌入确定本土语言说话人发音风格的矢量量化声学特征以及辅助特征;
[0030]S12:将作为非本土语言的目标语言说话人嵌入、所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双说话人嵌入的跨语言语音合成方法,包括:将文本以及本土语言说话人嵌入输入至txt2vec声学模型,在所述txt2vec声学模型中,通过文本编码器确定所述文本的音素序列编码,通过解码器从所述音素序列编码以及所述本土语言说话人嵌入确定本土语言说话人发音风格的矢量量化声学特征以及辅助特征;将作为非本土语言的目标语言说话人嵌入、所述矢量量化声学特征以及辅助特征输入至vec2wav声码器,在所述vec2wav声码器中,提取所述目标语言说话人嵌入的X

vector特征,将所述X

vector特征、所述矢量量化声学特征以及辅助特征输入至特征编码器,得到在本土语言说话人发音风格基础上模拟目标语言说话人音色的跨语言声学特征;利用生成器确定所述跨语言声学特征的跨语言合成语音。2.根据权利要求1所述的方法,其中,在所述通过文本编码器确定所述文本的音素序列编码之后,所述方法还包括:利用长度调节器对所述音素序列以及所述本土语言说话人嵌入进行对齐,以保留本土语言说话人在说出所述文本的音调和重音。3.根据权利要求1所述的方法,其中,所述通过解码器从所述音素序列编码以及所述本土语言说话人嵌入确定本土语言说话人发音风格的矢量量化声学特征以及辅助特征包括:将所述音素序列编码量化为多个语音帧,利用辅助控制器在所述本土语言说话人嵌入中单独预测所述多个语音帧各自的码本索引,以构建本土语言高保真语音;通过解码器从所述本土语言高保真语音中确定本土语言说话人发音风格的矢量量化声学特征以及辅助特征,其中,所述辅助特征包括:预测语音帧的码本索引概率。4.根据权利要求1所述的方法,其中,所述txt2vec声学模型以及所述vec2wav声码器由包括本土语言说话人嵌入以及非本土语言的目标语言说话人嵌入的训练数据集预训练获得。5.一种基于双说话人嵌入的跨语言语音合成系统,包括:发音风格特征确定程序模块,用于将文本以及本土语言说话人嵌入输入至txt2vec声学模型,在所述txt2vec声学模型中,通过文本编码器确定所述文本的...

【专利技术属性】
技术研发人员:俞凯刘森
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1