【技术实现步骤摘要】
基于自回归网络的非平行语料语音转换方法及系统
[0001]本专利技术涉及语音转换领域,尤其是涉及了一种保持输入语音内容不变但是音色转换成目标说话人音色的方法及系统。
技术介绍
[0002]语音转换旨在修改原说话人的声音,使得音色接近目标说话人,同时保证转换后语音内容不变。语音转换是人工智能领域一个很重要的研究课题,并具有广泛的应用,例如情感语音转换、歌唱转换、个性化转换等等。
[0003]传统语音转换技术通常需要平行语料,即原说话人和目标说话人讲述相同的内容。基于平行语料的语音转换框架,首先采用动态时间规整技术,获取源语音和目标语音声学特征的映射关系。然后采用转换模型,将源语音的声学特征映射到目标语音的声学特征上。最近,研究者提出基于序列到序列模型(seq2seq)的平行语料的语音转换框架,与传统方法相比,这种方法可以达到更好的自然度和说话人相似度。然而,也存在着发音错误和训练不稳定等问题。
[0004]当平行语料不可获取时,也有研究者提出基于非平行语料的语音转换框架。变分自编码器已成功应用于非平行语料的语音转换任务,但是变分自编码器转换得到的语音存在“过平滑”的问题。为了解决这个问题,研究者提出基于生成对抗网络的平行语料的语音转换框架,采用判别器减少转换语音和真实语音之间的差异。但是,这种方法较难训练,而且判别器学习到的区分能力可能和人的听感存在差异,从而降低转换语音的音质。最近,基于音素后延概率的非平行语料的语音转换框架得到了广泛应用。该语音转换框架主要包括两部分内容:转换模型和声码器。转换模型将 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.基于自回归网络的非平行语料语音转换方法,其特征在于包括如下步骤:S1,音素后延概率抽取,利用预先训练好的说话人无关的语音识别模型,从输入语音中抽取音素后延概率特征,作为文本特征表示;S2,编码阶段,利用卷积神经网络和门控循环单元,捕获音素后延概率特征中的上下文信息,从而获取融合上下文信息的文本特征表示;S3,利用自适应注意力机制,对当前时刻的文本特征和上一时刻的声学特征进行融合,获取增广的特征表示;S4,解码阶段,基于增广的特征表示,采用长短时记忆网络预测目标说话人的声学特征;S5,语音生成,基于预测的目标说话人的声学特征,利用声码器合成语音。2.如权利要求1所述的基于自回归网络的非平行语料语音转换方法,其特征在于所述步骤S1,首先基于大规模语料,训练一套说话人无关的语音识别系统,然后将待测语音输入到语音识别系统中,获取音素后延概率,作为其文本特征表示。3.如权利要求1所述的基于自回归网络的非平行语料语音转换方法,其特征在于所述步骤S2,包括如下步骤:S21,将从语音中抽取的音素后延概率特征标记为X=[x1,x2,
…
,x
N
],其中x
i
表示语音中第i帧的音素后延概率;S22,将X输入到多层感知机中进行特征变换:X1=Dropout(XW1+b1)X2=Dropout(X1W2+b2)其中,W1,W2,b1,b2为可训练参数,Dropout(*)可以有效缓解过拟合问题,在一定程度上达到正则化的效果;S23,将X2输入到多个一维卷积神经网络中,这些卷积神经网络的卷积核大小不同,从而能够提取不同长度的上下文信息,然后将多个卷积神经网络的输出结果堆叠起来,作为融合上下文信息的特征表示,上述操作标记为ConvBank(*),X3=ConvBank(X2);S24,将X3输入到最大池化网络中,获取压缩后的特征表示,上述操作标记为MaxPooling(*),X4=MaxPooling(X3);S25,将X4输入到highway模块,控制输出信息,并缓解过拟合问题,公式如下:H=ReLU(X4W
H
)T=sigmoid(X4W
T
)C=1-TX5=H
⊙
T+X4⊙
C其中W
H
,W
T
为可训练参数,ReLU(*)为线性整流函数,sigmoid(*)将特征映射到(0,1),
⊙
为点乘操作,即矩阵元素按对应位置相乘;S26,将X5输入到双向门控循环单元网络中,进一步捕获文本中的上下文信息,设X5=[f1,f2,
…
,f
N
],其中f
j
表示第j帧的特征表示:表示第j帧的特征表示:
其中表示正向门控循环单元的输出,表示反向门控循环单元的输出,每个方向的门控循环单元,将上一时刻的隐层状态特征以及当前时刻的输入特征f
j
作为输入信息,将正向门控循环单元的输出和反向门控循环单元的输出拼接起来,作为融合上下文信息的特征表示:S27,将编码阶段输出结果标记为R=[r1,r2,
…
,r
技术研发人员:连政,温正棋,
申请(专利权)人:中科极限元杭州智能科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。