训练数据有限情形下的非平行文本语音转换方法技术

技术编号:20946054 阅读:21 留言:0更新日期:2019-04-24 03:02
本发明专利技术公开了一种目标说话人训练数据有限情形下的多说话人对多说话人的非平行文本语音转换系统。在目标说话人训练数据有限情形下,通过对提取瓶颈特征的深度神经网络的训练过程进行干预与优化,从其他说话人特征空间自适应得到目标说话人的特征,解决了由于目标说话人不充分训练而导致特征空间分布不足的问题,完成非平行文本条件下基于瓶颈特征和变分自编码模型的多说话人对多说话人的语音转换。本发明专利技术的优势有三个方面:1)解除对平行文本的依赖,并且训练过程不需要任何对齐操作;2)可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多转换;3)当目标说话人的训练数据有限时,可以完成非平行文本条件下的多对多转换,一定程度上实现语音转换技术从闭集走向开集,为实际的语音人机交互提供技术支撑。

Non-parallel Text Speech Conversion Method with Limited Training Data

The invention discloses a non-parallel text voice conversion system for multi-speaker and multi-speaker in the case of limited target speaker training data. In the case of limited training data of target speaker, the training process of deep neural network for extracting bottleneck features is intervened and optimized. The feature space of target speaker is adaptively acquired from other speaker's feature space. The problem of insufficient distribution of feature space caused by insufficient training of target speaker is solved, and the bottleneck feature based on non-parallel text condition is completed. Variational self-coding model for multi-speaker voice conversion. The advantages of the present invention are as follows: 1) relieving dependence on parallel text, and training process does not require any alignment operation; 2) integrating the transformation system of multiple source and target speakers into a transformation model, that is, realizing multi-to-multi conversion; 3) when the training data of target speakers is limited, multi-to-multi conversion under non-parallel text conditions can be completed; To a certain extent, voice conversion technology has been realized from closed set to open set, which provides technical support for the actual human-computer interaction of voice.

【技术实现步骤摘要】
训练数据有限情形下的非平行文本语音转换方法
:本专利技术涉及信号处理、机器学习及语音信号处理领域,特别涉及一种在训练数据有限情形下的非平行文本语音转换系统实现方法。
技术介绍
:语音转换技术经过多年的研究,已经涌现了很多的经典转换方法,其中包括高斯混合模型(GaussianMixedModel,GMM)、频率弯折、深度神经网络(DNN)以及基于单元选择的方法等。但是这些语音转换方法大多需要使用平行语料库进行训练,建立源语音和目标语音频谱特征之间的转换规则。一种基于变分自编码器(VAE)模型的语音转换方法,直接利用说话人的身份标签建立语音转换系统,这种语音转换系统在模型训练时不需要对源说话人和目标说话人的语音帧进行对齐,可以解除对平行文本的依赖。但是基于VAE的语音转换模型并不能解决目标语音训练语料不充分问题,即在进行decoder过程中,并不能有效得到表征目标语音个性特征的类别标签yn,无法完成转换任务。在实际的语音人机交互中,常常无法获得目标说话人的充分训练语料,因此,有限语料下的转换问题是面向应用中亟需解决的问题。公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
技术实现思路
:本专利技术的目的在于提供一种训练数据有限情形下的非平行文本语音转换方法,从而克服上述现有技术中的缺陷。为实现上述目的,本专利技术提供了一种训练数据有限情形下的非平行文本语音转换方法,其特征在于,该方法包括以下步骤:1训练部分:1.1训练语料通过AHOcoder分析/合成模型提取出不同说话人不同语句MFCC特征参数X和语音基频logf0;1.2对1.1中每帧的语音特征X进行一次差分和二次差分,并与原特征拼接在一起得到特征Xt=(X,ΔX,Δ2X),然后将拼接后的特征与前后各一帧形成联合特征参数xn=(Xt-1,Xt,Xt+1);1.3将1.2中的联合特征xn作为说话人识别任务的DNN网络的训练输入数据,DNN模型的输出为说话人Bottleneck特征bn。当说话人训练数据不充分时,对DNN的训练过程进行干预与优化,对mini-batch错误率进行监控,设定一定的阈值。为了补充目标说话人的特征空间,对于错分到目标说话人一类的帧,通过改变标签将其归为目标说话人。然后继续DNN训练,待DNN模型训练至收敛后,提取每一帧的Bottleneck特征bn作为VAE网络训练过程中decoder的监督信息,进行VAE模型训练;1.4对于VAE模型的训练,将1.2中的xn和1.3中DNN模型的输出的bn作为VAE模型的输入,按照VAE模型训练方法进行模型训练。待VAE模型训练至收敛后,将VAE隐含空间z各帧的采样特征zn提取出来作为目标说话人Bottleneck特征映射网络(BP网络)的训练数据;1.5对于训练Bottleneck特征映射网络,将1.4中得到的zn和说话人标签特征yn组成联合特征(zn,yn)输入BP网络,并以DNN网络输出的Bottleneck特征bn作为BP网络的监督数据进行训练,通过最小化网络的输出误差,从而得到Bottleneck特征映射网络;1.6将以上训练好的DNN特征提取网络,VAE模型,Bottleneck特征映射网络组成语音转换系统。2转换阶段:2.1源说话人的任意测试语音先通过AHOcoder分析/合成模型提取出源说话人语音的MFCC特征参数Xsrc和logf0特征参数;2.2将源说话人语音特征参数Xsrc输入VAE语音转换模型,通过VAE模型encoder过程得到隐含空间z各帧的采样特征zn,并将zn和目标说话人标签yn组成联合特征(zn,yn)输入Bottleneck特征映射网络(BP网络),训练得到目标说话人Bottleneck特征bn,将bn和zn通过VAE模型decoder重构出转换后的语音特征参数Xtar;2.3将转换阶段2.1中提取的源说话人对数基频logf0利用对数域线性变换转换得到目标说话人语音基频,将2.2中转换后的Xtar还原为梅尔倒谱形式的语音频谱特征参数xn;2.4将2.3中说话人语音频谱特征参数xn和目标说话人语音基频通过AHOcoder模型合成转换后的说话人语音。本专利技术进一步限定的技术方案为:优选地,上述技术方案中,步骤训练部分的1.1中提取出的特征参数使用AHOcoder语音分析模型提取语音特征参数MFCC和对数基频logf0。其中MFCC特征参数为19维语音频谱特征,并将MFCC频谱特征和它的一次差分、二次差分拼接在一起形成每帧57维的频谱特征Xt=(X,ΔX,Δ2X),然后将前后相邻两帧拼接,从而得到171维的频谱特征xn=(Xt-1,Xt,Xt+1),同时每一帧特征参数都对应到所属说话人的标签特征,即yn。优选地,上述技术方案中,步骤训练部分的1.3中当说话人训练数据不充分时,为了能从源说话人的特征空间中自适应出一定的目标说话人个性特征进行特征空间的补充,可以通过对DNN网络的训练过程进行干预与优化,在基于说话人识别任务的DNN网络中,在其Bottleneck层自适应出一定的目标说话人的个性特征空间。基于说话人识别任务的DNN网络训练过程的干预及Bottleneck层自适应训练具体步骤如下:1.3.1准备DNN网络训练数据xn,其中选取目标说话人的少量语句,其他说话人的充分语句,DNN网络softmax输出层节点数为参与训练的说话人的总人数;1.3.2逐层预训练DNN网络之后,进行整个DNN网络的调参优化训练,在训练过程中对每个mini_batch的误差率进行监控,当误差率低于阈值30%时暂时停止DNN网络的调参训练,保存现有的网络结构和参数;1.3.3对训练数据进行一次说话人识别分类统计,并筛选出错分到目标说话人类别的所有帧,将这些帧的标签替换为目标说话人的标签;1.3.4通过随机梯度下降算法依据最小化帧误差的准则进行权值调整,继续DNN网络的训练至梯度收敛。1.3.5然后将xn逐帧输入达到收敛后的DNN网络,并将每一帧对应的Bottleneck层的激活值逐帧提取出来,即得到对应的Bottleneck特征bn。优选地,上述技术方案中,该方法分为说话人语音训练、说话人语音转换两个步骤:1首先训练步骤包括:1.1获取训练语料,本处采用的语音库为CMUARCTIC。分为两组,一组是以男性bdl进行不充分训练,awb、rms、clb和slt进行充分训练,另一组是以女性slt进行不充分训练,而其他四个说话人awb、rms、clb、bdl进行充分训练。对于充分训练的说话人每人100条语音作为训练语料,而不充分训练的说话人每人5条语音作为训练语料;1.2使用AHOcoder语音分析模型提取语音特征参数MFCC和对数基频logf0。其中MFCC特征参数为19维语音频谱特征,并将MFCC频谱特征和它的一次差分、二次差分拼接在一起形成每帧57维的频谱特征Xt=(X,ΔX,Δ2X),然后将前后相邻两帧拼接,从而得到171维的频谱特征xn=(Xt-1,Xt,Xt+1),同时每一帧特征参数都对应到所属说话人的标签特征,即yn。1.3将1.2中的特征xn参数作为DNN网络即Bottleneck特征提本文档来自技高网...

【技术保护点】
1.一种训练数据有限情形下的非平行文本语音转换系统,其特征在于,该方法包括以下步骤:1训练部分:1.1训练语料通过AHOcoder分析/合成模型提取出不同说话人的不同语句的梅尔频率倒谱系数Mel‑Frequency Cepstral Coefficients,MFCC和对数基频log f0;1.2对1.1中说话人每帧的MFCC语音特征X进行一次差分和二次差分,并与原特征进行拼接得到特征Xt=(X,ΔX,Δ

【技术特征摘要】
1.一种训练数据有限情形下的非平行文本语音转换系统,其特征在于,该方法包括以下步骤:1训练部分:1.1训练语料通过AHOcoder分析/合成模型提取出不同说话人的不同语句的梅尔频率倒谱系数Mel-FrequencyCepstralCoefficients,MFCC和对数基频logf0;1.2对1.1中说话人每帧的MFCC语音特征X进行一次差分和二次差分,并与原特征进行拼接得到特征Xt=(X,ΔX,Δ2X),然后将拼接后特征的前后各一帧形成联合特征参数xn=(Xt-1,Xt,Xt+1);1.3将1.2中的联合特征xn作为说话人识别任务的深度神经网络(DeepNeuralNetworks,DNN)训练的输入数据,DNN模型的输出为说话人分类标签。当目标说话人训练数据不充分时,对DNN的训练过程进行干预与优化,补充目标说话人的特征空间。待DNN模型训练至收敛后,提取每一帧的Bottleneck特征bn作为变分自编码器VariationalAutoencoder,VAE模型训练过程中decoder的监督信息;1.4对于VAE模型的训练,将1.2中的输出xn和1.3中DNN模型的输出bn作为VAE模型的输入,按照VAE模型训练方法进行模型训练。待VAE模型训练至收敛后,将VAE隐含空间z各帧的采样特征zn提取出来作为目标说话人Bottleneck特征映射网络BackPropagation网络的训练数据;1.5训练Bottleneck映射网络,将1.4中得到的zn和说话人标签特征yn组成联合特征(zn,yn)输入BP网络,并以DNN网络输出的Bottleneck特征bn作为BP网络的监督数据进行训练,通过随机梯度下降算法优化网络的输出误差,从而得到Bottleneck特征映射网络;1.6将以上训练好的DNN特征提取网络,VAE模型,Bottleneck特征映射网络组成语音转换系统。2转换阶段:2.1源说话人任意测试语音通过AHOcoder分析/合成模型提取源说话人MFCC特征参数Xsrc和对数基频logf0。2.2将源说话人任意测试语音的语音特征参数Xsrc输入VAE语音转换模型,通过VAE模型的encoder过程得到隐层特征zn,并将zn和目标说话人标签yn组成联合特征(zn,yn)输入Bottleneck特征映射网络BP网络,训练得到目标说话人Bottleneck特征bn,将bn和zn通过VAE模型的decoder重构出转换后的语音特征参数Xtar;2.3将转换阶段2.1中提取的源说话人对数基频logf0转换为目标说话人语音对数基频,将转换后的语音特征参数Xtar还原为梅尔频率倒谱形式的语音频谱特征参数xn;2.4将2.3中的语音频谱特征参数xn和目标说话人语音对数基频通过AHOcoder模型合成转换后的说话人语音。2.根据权利要求书1所述的一种在训练数据有限情形下的非平行文本语音转换系统,其特征在于:所述步骤1.1中提取MFCC特征参数和对数基频logf0是利用AHOcoder声音编码器提取得到,然后将MFCC特征参数读取到MATLAB平台进行处理。3.根据权利要求书1所述的一种在训练数据有限情形下的非平行文本语音转换系统,其特征在于:所述步骤训练部分的1.2中提取的特征参数,首先将每一条语音特征参数在MATLAB平台对每一帧语音进行一次差分和二次差分,并将其与原始特征拼接到一起,得Xt=(X,ΔX,Δ2X),并将其前后各一帧拼接到一起得到参与VAE模型训练的联合特征xn=(Xt-1,Xt,Xt+1)。4.根据权利要求书1所述的一种训练数据有限情形下的非平行文本语音转换系统,其特征在于:所述步骤训练部分的1.3中对DNN特征提取网络的训练,当存在说话人训练数据不充分时,由于对目标说话人的不充分训练而使目标说话人的个性特征空间分布不足,所以需要对DNN网络的训练过程进行干预与优化,自适应出目标说话人的特征空间。当目标说话人训练数据有限时,基于说话人识别的DNN网络的Bottleneck层的训练由以下步骤组成:1.3.1将说话人联合特征xn作为DNN网络的训练数据。其中,选取目标说话人的有限语料,其他说话人的充分语料,DNN网络的softmax输出节点数为参加训练的说话人总数;1.3.2逐层预训练DNN网络后,进行整个DNN网络的调参优化训练,在训练过程中对每个mini_batch的误差率进行监控,当误差率低于阈值30%时暂时停止DNN网络的调参训练,保存现有的网络结构和参数;1.3.3对训练数据进行一次说话人识别的分类统计,并筛选出错分到目标说话人类别的所有帧,将这些帧的标签替换为目标说话人的标签;1.3.4继续DNN网络的训练直至梯度收敛。通过对DNN网络训练进行干预后,能从其他说话人的特征空间中自适应出一定的的目标说话人特征,完成特征空间的补充。5.根据权利要求书1所述的一种训练数据有限情形下的非平行文本语音转换系统,其特征在于:在2.3步骤,将源说话人语音基频采用对数域线性变换转换得到目标说话人语音基频,将转换得到的语音特征参数Xtar去掉时域拼接和差分项还原成梅尔倒谱形式,然后再利用AHOcoder声音编码器合成转换后的目标说话人语音。6.根据权利要求书1所述的一种训练数据有限情形下的非平行文本语音转换方法,其特征在于:该方法分为说话人语音训练、说话人语音转换两个步骤:1说话人语音转换训练步骤包括:1.1获取训练语料,本处采用的语音库为CMUARCTIC;分为两组,一组是以男性bdl进行不充分训练,awb、rms、clb和slt进行充分训练,另一组是以女性slt进行不充分训练,而其他四个说话人awb、rms、clb、bdl进行充分训练;对于充分训练的说话人每人100条语音作为训练语料,而不充分训练的说话人每人5条语音作为训练语料;1.2使用AHOcoder语音分析模型提取语音特征参数MFCC和对数基频logf0;其中MFCC特征参数为19维语音频谱特征,并将MFCC频谱特征和它的一次差分、二次差分拼接在一起形成每帧57维的频谱特征Xt=(X,ΔX,Δ2X),然后将前后相邻两帧拼接,从而得到171维的频谱特征xn=(Xt-1,Xt,Xt+1),同时每一帧特征参数都对应到所属说话人的标签特征,即yn;1.3将1.2中的特征xn参数作为DNN网络即Bottleneck特征提取网络的训练数据;DNN网络是一种多层堆栈全连接型人工神经网络;在本方法中,使用的DNN模型采用9层网络,其中输入层节点数为171,对应xn每帧的171维特征,中间隐层数为7层,每层的节点数分别为1200、1200、1200、57、1200、1200,其中节点数较少的隐层为Bottleneck层;利用逐层贪婪预训练法对DNN各层节点之间的连接权值进行无监督的预训练,隐层的激活函数采用ReLu函数;Bottleneck特征是DNN网络作为特征提取的一种运用,这种DNN模型中,中间有一层节点数较少的隐层,即为Bottleneck层,这一层各个节点的激活值通常被看作是输入信号的一种低维表示,所以对于基于不同任务进行训练的DNN模型,其Bottleneck层激活值所表达的信息也会随之变化;DNN模型提取Bottleneck特征和进行说话人识别任务分为两个阶段,可以将DNN网络拆分为两个模块:Analyzer和Classifier;DNN通过Analyzer解析网络从原始的语音频谱特征参数中解析出表示说话人个性特征空间的Bottleneck特征,而后通过Classifier分类网络对Bottleneck特征进行识别分类;通过对DNN的调优训练,不仅得到了最优的分类边界,同时在Bottleneck层也形成了适于特定分类任务的Bottleneck特征空间分布,即Analyzer解析网络将输入数据解析为最适合某种特定分类的特征空间分布;以一个平面的二分类问题为例,DNN网络作为分类器,在其训练过程不受到干预的情况下,...

【专利技术属性】
技术研发人员:李燕萍许吉良
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1