一种基于对比文本-音频对的文本韵律生成方法和系统技术方案

技术编号:37526483 阅读:14 留言:0更新日期:2023-05-12 15:51
本发明专利技术公开了一种基于对比文本

【技术实现步骤摘要】
一种基于对比文本

音频对的文本韵律生成方法和系统


[0001]本专利技术涉及语音合成领域,尤其涉及一种基于对比文本

音频对的文本韵律生成方法和系统。

技术介绍

[0002]当下,学习文本表征以实现富有表现力的语音合成任务已经引发了广泛关注,成为一项重要的人工智能任务,该任务旨在将文本上下文与其韵律特征联系起来,为语音合成任务提供涉及韵律的文本表征信息,从而提高合成语音质量。
[0003]富有韵律的语音合成现有技术主要包括,1)使用参考编码器和风格词符,2)使用额外的预测器预测韵律属性,3)使用变分自编码器进行建模,4)使用先验知识提供更好的文本表征,5)从文本空间中预训练学习语义信息,6)通过填补空缺的语音(韵律)进行预训练。
[0004]第一种方法由于训练中的真实的语音在推理中不可用,而产生的训练和推理不一致问题;第二、三、四方法,在合成语音的表现力方面有较为明显的进步;第五种方法虽然学习了文本空间的语义信息,但忽略了语音空间中韵律的变化;第六种方法在关注语音空间的同时学习了大量的音素信息,模型训练过程慢,语音合成速度慢。

技术实现思路

[0005]为了克服现有技术虽然能够学习到很多文本信息,但难以充分学习韵律相关的文本表征信息的缺陷,提供了一种基于对比文本

音频对的文本韵律生成方法和系统,通过对比文本

音频对预训练,可以充分地从文本上下文中学习到韵律相关的文本表征信息,而忽略语义信息,为语音合成模型提供丰富的韵律相关的文本表征信息,提高合成音频的质量。
[0006]本专利技术所采用的具体技术方案是:
[0007]第一方面,本专利技术提出了一种基于对比文本

音频对的文本韵律生成方法,包括如下步骤:
[0008]步骤1,获取原始语音音频和对应的文本组合,提取文本中的音素序列和字节对编码序列;以及,获取原始语音音频的梅尔谱图;
[0009]步骤2,从原始语音音频的梅尔谱图中切取所有选定词符的梅尔谱图;
[0010]步骤3,利用文本编码器对所有含有选定词符的音素序列和字节对编码序列进行编码,获取音素级别文本特征编码和单词级别文本特征编码,通过下标获得选定词符文本特征;
[0011]步骤4,利用韵律编码器对切取的选定词符的梅尔谱图进行编码,获取选定词符韵律特征;
[0012]步骤5,计算原始语音音频和对应的文本组合中的所有选定词符文本特征和选定词符韵律特征的余弦相似度,得到余弦相似度矩阵;
[0013]步骤6,利用原始语音音频和文本的一一对应关系,根据余弦相似度矩阵计算对称
交叉熵损失函数,对文本编码器和韵律编码器分别进行音素级别和单词级别的对比训练;
[0014]步骤7,针对给定文本,首先提取文本中的音素序列和字节对编码序列,再利用训练后的文本编码器对音素序列和字节对编码序列进行编码,获取音素级别文本特征编码和/或单词级别文本特征编码,生成文本对应的韵律。
[0015]进一步的,所述的文本编码器包括音素嵌入层、字节对编码嵌入层、前馈神经网络块、字节

单词转换器、单词

音素转换器、音素

单词转换器;
[0016]所述的音素嵌入层和字节对编码嵌入层分别以音素序列和字节对编码序列为输入,音素嵌入结果和字节对编码嵌入结果分别通过两个独立的前馈神经网络块提取特征,生成语音习惯特征和字节对编码特征;
[0017]所述的字节对编码特征依次由字节

单词转换器、单词

音素转换器转换为音素级别字节对特征;所述的音素级别字节对特征与语音习惯特征经过第三个独立的前馈神经网络块融合并提取特征,生成音素级别文本特征编码;
[0018]所述的音素级别文本特征编码由音素

单词转换器转换为单词级别文本特征编码。
[0019]进一步的,所述的独立的前馈神经网络块结构相同,参数不共享。
[0020]进一步的,所述的韵律编码器包括依次连接的M1个特征提取模块、M2个残差块和一个一维注意力池化层;所述的特征提取模块由一维卷积、层标准化和ReLU激活函数构成,所述的残差块由若干特征提取模块构成。
[0021]进一步的,步骤5中,所述的余弦相似度矩阵计算方法包括:
[0022]5.1)将步骤3得到的选定词符文本特征和步骤4得到的选定词符韵律特征通过层标准化后再线性投影到多模态嵌入空间,分别得到选定词符文本模态嵌入向量和选定词符音频模态嵌入向量;
[0023]5.2)对于一个包含N个文本

音频对的训练批,将N个选定词符文本模态嵌入向量和N个选定词符音频模态嵌入向量两两组合,将计算出的N2个余弦相似度构成相似度矩阵,计算公式如下:
[0024][0025]其中,C
ph/word
表示维度为N
×
N的余弦相似度矩阵,T
ph/word
表示选定词符文本模态嵌入向量,下标ph表示音素级别,下标word表示单词级别,S表示选定词符音频模态嵌入向量,上角标T表示转置。
[0026]进一步的,步骤6中,余弦相似度矩阵中的对角线元素为正样本余弦相似度,其余元素为负样本余弦相似度,计算对称交叉熵损失函数:
[0027][0028]其中,L
ph/word
表示音素/单词级别的对称交叉熵损失;是可学习的缩放参数,L
text
表示余弦相似度矩阵中沿文本维度的交叉熵损失函数,L
speech
表示余弦相似度矩阵中沿音频维度的交叉熵损失函数。
[0029]第二方面,本专利技术提出了一种基于对比文本

音频对的文本韵律生成系统,包括:
[0030]语音音频预处理模块,其用于从原始语音音频和对应的文本组合中获取原始语音音频的梅尔谱图,从原始语音音频的梅尔谱图中切取所有选定词符的梅尔谱图;
[0031]文本预处理模块,其用于从原始语音音频和对应的文本组合中提取文本中的音素序列和字节对编码序列;
[0032]文本编码器模块,其用于对所有含有选定词符的音素序列和字节对编码序列进行编码,获取音素级别文本特征编码和单词级别文本特征编码,通过下标获得选定词符文本特征;
[0033]韵律编码器模块,其用于对切取的选定词符的梅尔谱图进行编码,获取选定词符韵律特征;
[0034]多尺度对比学习训练模块,其用于计算原始语音音频和对应的文本组合中的所有选定词符文本特征和选定词符韵律特征的余弦相似度,得到余弦相似度矩阵;利用原始语音音频和文本的一一对应关系,根据余弦相似度矩阵计算对称交叉熵损失函数,对文本编码器和韵律编码器分别进行音素级别和单词级别的对比训练。
[0035]与现有技术相比,本专利技术具备的有益效果是:
[0036](1)本专利技术利用对比本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比文本

音频对的文本韵律生成方法,其特征在于,包括如下步骤:步骤1,获取原始语音音频和对应的文本组合,提取文本中的音素序列和字节对编码序列;以及,获取原始语音音频的梅尔谱图;步骤2,从原始语音音频的梅尔谱图中切取所有选定词符的梅尔谱图;步骤3,利用文本编码器对所有含有选定词符的音素序列和字节对编码序列进行编码,获取音素级别文本特征编码和单词级别文本特征编码,通过下标获得选定词符文本特征;步骤4,利用韵律编码器对切取的选定词符的梅尔谱图进行编码,获取选定词符韵律特征;步骤5,计算原始语音音频和对应的文本组合中的所有选定词符文本特征和选定词符韵律特征的余弦相似度,得到余弦相似度矩阵;步骤6,利用原始语音音频和文本的一一对应关系,根据余弦相似度矩阵计算对称交叉熵损失函数,对文本编码器和韵律编码器分别进行音素级别和单词级别的对比训练;步骤7,针对给定文本,首先提取文本中的音素序列和字节对编码序列,再利用训练后的文本编码器对音素序列和字节对编码序列进行编码,获取音素级别文本特征编码和/或单词级别文本特征编码,生成文本对应的韵律。2.根据权利要求1所述的一种基于对比文本

音频对的文本韵律生成方法,其特征在于,所述的文本编码器包括音素嵌入层、字节对编码嵌入层、前馈神经网络块、字节

单词转换器、单词

音素转换器、音素

单词转换器;所述的音素嵌入层和字节对编码嵌入层分别以音素序列和字节对编码序列为输入,音素嵌入结果和字节对编码嵌入结果分别通过两个独立的前馈神经网络块提取特征,生成语音习惯特征和字节对编码特征;所述的字节对编码特征依次由字节

单词转换器、单词

音素转换器转换为音素级别字节对特征;所述的音素级别字节对特征与语音习惯特征经过第三个独立的前馈神经网络块融合并提取特征,生成音素级别文本特征编码;所述的音素级别文本特征编码由音素

单词转换器转换为单词级别文本特征编码。3.根据权利要求1所述的一种基于对比文本

音频对的文本韵律生成方法,其特征在于,所述的独立的前馈神经网络块结构相同,参数不共享。4.根据权利要求1所述的一种基于对比文本

音频对的文本韵律生成方法,其特征在于,所述的韵律编码器包括依次连接的M1个特征提取模块、M2个残差块和一个一维注意力池化层;所述的特征提取模块由一维卷积、层标准化和ReLU激活函数构成,所述的残差块由若干特征提取模块构成。5.根据权利要求1所述的一种基于对比文本

音频对的文本韵律生成方法,其特征在于,步骤5中,所述的余弦相似度矩阵计算方法包括:5.1)将步骤3得到的选定词符文本特征和步骤4得到的选定词符韵律特征通过层标准化后再线性投影到多模态嵌入空间,分别得到选定词符文本模态嵌入向量和选定词符音频模态嵌入向量;5.2)对于一个包含N个文本

音频对的训练批,将N个选定词符文本模态嵌入向量和N个选定词符音频模态嵌入向量两两组合,将计算出的N2个余弦相似度构成相似度矩阵,计算公式如下:
;其中,C
ph/word
表示维度为N
×
N的余弦相似度矩阵,T
ph/word
表示选定词符文本模态嵌入向量,下标ph表示音素级别,下标word表示单词级别,S表示选定词符音频模态嵌入向量,上角标T表示转置。6.根据权利要求1所述的一种...

【专利技术属性】
技术研发人员:黄俊杰姜伟昊王志辉李烈锋孙清陈梓铭
申请(专利权)人:杭州东上智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1