基于自监督学习和互信息解耦技术的语音合成方法技术

技术编号:36254584 阅读:74 留言:0更新日期:2023-01-07 09:49
本发明专利技术公开基于自监督学习和互信息解耦技术的语音合成方法,主要包括数据预处理;采用HUBERT和wav2vec模型作为预训练的大模型,并采用大量的无标签方式对齐进行训练;设计说话人分类和风格分类两个任务作为下游任务,固定训练模型的权重参数,用于得到任务相关的特征表示;利用互信息对T

【技术实现步骤摘要】
基于自监督学习和互信息解耦技术的语音合成方法


[0001]本专利技术是语音合成领域,涉及基于自监督学习和互信息解耦技术的语音合成方法,具体涉及到利用自监督预训练的方法对多话者和多风格语音合成系统进行优化。

技术介绍

[0002]语音合成,又称文语转换(Text To Speech,TTS),是一种可以将任意输入文本转换成相应语音的技术。传统的语音合成系统通常包括前端和后端两个模块。前端模块主要是对输入文本进行分析,提取后端模块所需要的语言学信息,对于中文合成系统而言,前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果,通过一定的方法生成语音波形,后端系统一般分为基于统计参数建模的语音合成(或称参数合成)以及基于单元挑选和波形拼接的语音合成(或称拼接合成)。目前随着端到端技术的提出和日趋成熟,单说话人语音合成系统,已经能够合成与人类发音具有相似自然度的语音,但是在实际应用场景中,单说话人语音合成系统已经无法满足人们的日常需求。
[0003]例如,在电子书朗读中,往往需要合成不同角色,不同情感或风格的音频。现有的语音合成方法,往往需要大量的数据集训练才能合成高质量的目标风格和目标说话人的音频,此外对于不同的风格和角色也不能做到很好的分离,尤其是在只有少量的参考音频进行微调的情况下,合成音频的质量更无法得到保障。
[0004]在过去的几年中,深度神经网络模型虽然在语音的多种任务上都取得了突破性进展,但却依旧受制于模型训练时所需的大量标注数据。自监督预训练方法的出现在一定程度上缓解了这一问题。该方法先使用大规模无监督数据进行预训练,随后将训练好的模型在小规模标注数据上进行微调。已有研究表明,使用自监督预训练可以提升多种语音任务的性能。

技术实现思路

[0005]本专利技术为解决
技术介绍
中提出的技术问题,提出基于自监督学习和互信息解耦技术的语音合成方法,主要设计了以下四个方面:
[0006]1)采用自监督训练的方式对大模型进行训练,用于提取通用的语音表征,语音表征通过一个可学习的注意力机制模块进行学习。
[0007]2)设计说话人识别和风格识别两个下游任务,用于将通用的语音表征表示转换为任务相关的语音表征。
[0008]3)上述两个下游任务在训练的时候,添加互信息作为约束,用于对说话人表征和风格表征进行解耦。
[0009]4)最后,将说话人表征和风格表征运用到端到端语音合成模型中,用于实现多说话人和多风格的语音合成系统。
[0010]步骤一,数据预处理:文本需要进行前端处理,通常以字符作为输入,而文本与音
频成对的数据可以作为训练数据。同时,预处理还需进行梅尔谱特征的提取。
[0011]对于文本的预处理通常采用python的自然语言处理工具包NLTK,来进行分词和汉字转拼音等操作,对于梅尔谱特征的提取可以直接采用python的常用音频处理工具包librosa,经过分帧,加窗和预加重等过程,从音频中提取梅尔谱特征。
[0012]步骤二,针对大模型采用自监督学习的方式进行训练。采用HUBERT和wav2vec等模型作为预训练的大模型,并采用大量的无标签方式对齐进行训练。
[0013]步骤三,设计说话人分类和风格分类两个任务作为下游任务,固定步骤二所训练模型的权重参数,用于得到任务相关的特征表示。
[0014]1)步骤二中的大模型包含N层的神经网络,N层网络的输出[P1,P2,

,P
N
]都会用来学习最后的任务相关特征表示;
[0015]2)设计注意力机制模块,其为可以学习的神经网络层,用于将N层神经网络的输出进行加权,得到暂时的通用特征表示P
F
,如下公式所示:
[0016]P
F
=Atten(P1,P2,

,P
N
)
[0017]其中,Atten是为可学习的网络层,用来学习权重,对[P1,P2,

,P
N
]进行加权;
[0018]3)说话人分类和风格分类都选取较为简单的网络,采用线性层加激活函数用来预测属于哪一种说话人或哪一种风格类别的概率,并学习到初步的任务相关的特征T
speaker
和T
style

[0019]步骤四,利用互信息对T
speaker
和T
style
进行解耦,互信息反映了两个变量的相关性,假设有两个随机变量X、Y,两个变量之间的互信息MI(X;Y)可以通过计算联合概率分布P
X,Y
和两个边缘概率分布的乘积P
X
P
Y
的KL散度来计算;
[0020]在整个下游任务的训练中,需要约束MI(X;Y)越来越小;
[0021]在神经网络中,对于两个高维的变量可以采用以下步骤来估算其互信息:
[0022]1)初始化一个随机权重M;
[0023]2)随机采取部分成对的随机变量(E
i
,E

i
),i=1,2,

,b.b为采样的大小;
[0024]3)对E

i
变量的内部元素进行随机的顺序打乱;
[0025]4)计算两个变量之间的损失,如下公式:
[0026][0027]5)根据计算的更新M,
[0028]6)重复2)

5)步骤,直到M收敛。
[0029]步骤五,将学习好的T
speaker
和T
style
添加到端到端语音合成模型中,端到端语音合成模型采用encoder

attention

decoder结构。其中,端到端模型也先经过大规模数据的预训练,预训练时T
speaker
和T
style
都为全为0的向量,最后再在多说话人和多风格数据集上进行finetune,便可得到最终的模型。
[0030]有益效果:
[0031]本专利技术提出了一种基于自监督学习语音合成模型,采用自监督的方式对语音领域的大模型进行无监督训练,并采用说话人识别和风格分类两个任务作为下游任务,同时采用互信息技术进行解耦,得到鲁棒的说话人表示和风格表示,最终将其运用在端到端语音合成模型中,实现高质量的多话者多风格语音合成系统。
[0032]本专利技术提升多说话人和多风格语音合成的质量,同时提高合成模型对于少量数据的快速适应能力。
附图说明
[0033]图1基于自监督学习的上下游任务;
[0034]图2端到端多说话人多风格语音合成模型。
[0035]图3梅尔谱特征图。
具体实施方式
[0036]以下结合实施例和附图来对本专利技术做进一步的说明。
[0037]本专利技术提出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于自监督学习和互信息解耦技术的语音合成方法,其特征在于,包括如下四个步骤:步骤一,数据预处理:文本需要进行前端处理,通常以字符作为输入,而文本与音频成对的数据可以作为训练数据;预处理还需进行梅尔谱特征的提取;步骤二,针对大模型采用自监督学习的方式进行训练:采用HUBERT和wav2vec模型作为预训练大模型,并采用大量的无标签方式对齐进行训练;步骤三,设计说话人分类和风格分类两个任务作为下游任务,固定步骤二所训练模型的权重参数,用于得到任务相关的特征表示:(1)步骤二中的大模型包含N层的神经网络,N层网络的输出[P1,P2,

,P
N
]都用来学习最后的任务相关特征表示;(2)设计注意力机制模块,其为可以学习的神经网络层,用于将N层神经网络的输出进行加权,得到暂时的通用特征表示P
F
,如下公式所示:P
F
=Atten(P1,P2,

,P
N
)其中,Atten是为可学习的网络层,用来学习权重,对[P1,P2,

,P
N
]进行加权;(3)说话人分类和风格分类采用线性层加激活函数用来预测属于哪一种说话人或哪一种风格类别的概率,并学习到初步的任务相关的特征T
speaker
和T
style
;步骤四,利用互信息对T
speaker
和T
style
进行解耦,互信息反映两个变量的相关性,假设两个随机变量X、Y,两个变量之间的互信息MI(X;Y)可以通过计算联合概率分布P

【专利技术属性】
技术研发人员:王龙标贡诚张句王宇光关昊天
申请(专利权)人:慧言科技天津有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1