当前位置: 首页 > 专利查询>东南大学专利>正文

基于说话人模型对齐的非对称语音库条件下的语音转换方法技术

技术编号:10789405 阅读:180 留言:0更新日期:2014-12-17 17:50
本发明专利技术提出了一种基于说话人模型对齐的非对称语音库条件下的语音转换方法,首先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型,然后利用说话人模型中的参数找到源说话人特征向量和辅助向量之间的转换函数、辅助向量和目标说话人特征向量之间的转换函数,最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数;在语音转换的过程中,使用了说话人模型对齐的方法,并且为了进一步提升语音转换的效果,还采用了将说话人模型对齐与高斯混合模型相融合的方法。实验结果表明:本发明专利技术在频谱失真度和相关度、转换语音的质量和相似度上,都取得了比传统基于INCA的语音转换方法更好的效果。

【技术实现步骤摘要】
基于说话人模型对齐的非对称语音库条件下的语音转换方法
本专利技术涉及一种语音转换技术,尤其是涉及一种非对称语音库条件下的语音转换方法,属于语音信号处理

技术介绍
语音转换指的是改变一个说话人(源说话人)的语音个性特征使之变为另一个说话人(目标说话人)的语音个性特征的一种技术。语音转换技术有着广泛的应用前景,如用于个性化的语音合成、在保密通信领域用于说话人身份的伪装、在医疗领域用作受损语音的恢复、在低比特率语音通信中的接收端用于说话人个性特征的恢复等。为了实现高质量的说话人个性特征转换,国内外学者提出了很多的语音转换方法,如码本映射法、高斯混合模型(Gaussianmixturemodel,GMM)法、人工神经网络法、频率弯折法、隐马尔科夫模型法等。然而,这些方法都是针对对称(相同文本内容)语音库的情况提出来的,但是在实际情况中,对称的语音库很难直接获取。因此许多学者又提出了基于非对称语音库的语音转换方法,如最大似然约束自适应法、最近邻循环迭代(IterativecombinationofaNearestNeighborsearchstepandaConversionstepAlignment,INCA)方法、基于说话人自适应的语音转换方法等。但是这些方法仍然存在着较大的局限性:如最大似然约束自适应法需要预先训练得到参考说话人的转换函数;INCA方法是建立在特征空间中邻近的频谱特征对应着相同音素的假设基础上,而该假设在实际中往往并不十分准确,同时这种训练方法需要较多的训练语句;基于说话人自适应的语音转换方法依赖于第三方说话人训练模型。因此,这些问题都在很大程度上限制了非对称语音库条件下的语音转换技术的实际应用。
技术实现思路
本专利技术的目的是针对非对称语音库情况下的语音转换,提出一种基于说话人模型对齐的非对称语音库条件下的语音转换方法。本专利技术的技术方案为:基于说话人模型对齐的非对称语音库条件下的语音转换方法,该方法针对非对称语音库的情况,通过引入辅助向量来寻找源说话人和目标说话人之间的转换函数,即先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型,然后利用说话人模型中的均值与协方差找到源说话人特征向量和辅助向量之间的转换函数,以及辅助向量和目标说话人特征向量之间的转换函数,最后通过所求得的两个转换函数之间的函数关系找到源说话人和目标说话人之间的转换函数;在语音转换的过程中,使用说话人模型对齐的方法,以及将说话人模型对齐与高斯混合模型相融合的方法,最终通过STRAIGHT语音分析/合成模型对转换后的频谱特征进行合成得到转换语音。基于说话人模型对齐的语音转换方法的具体步骤如下:步骤Ⅰ,模型训练:运用STRAIGHT模型提取源说话人和目标说话人的频谱特征,获得源说话人和目标说话人的特征向量,分别记为x和y;通过期望最大化(Expectationmaximization,EM)方法分别训练得到源说话人模型和目标说话人模型,记为GMMx和GMMy,这里采用高斯混合模型(Gaussianmixturemodel,GMM)对GMMx和GMMy进行建模,具体为:其中,N(·)表示高斯分布,和分别表示GMMx和GMMy模型的第i个高斯分量,M表示高斯分量的个数,和表示第i个高斯分量的均值向量,和表示第i个高斯分量的方差矩阵,ωi和vi表示第i个高斯分量所占的权重,且满足步骤Ⅱ,引入辅助向量并初始化:引入辅助向量序列X′={x′j},其中j表示第j帧,且j=1,2,...,J,J表示帧数,且J≥1;X′用于每一次迭代搜索后的中间序列,并运用EM算法训练得到辅助向量序列的模型,记作GMMx′,具体表达式为:其中,x′表示辅助向量,ωi表示第i个高斯分量所占的权重,且满足GMMx′的参数为并且初始化设定为步骤Ⅲ,说话人模型的相似度计算:GMMx和GMMy不同高斯分量之间的相似度用矩阵D表示如下:其中,dij表示GMMx的第i个高斯分量与GMMy的第j个高斯分量之间的相似度,并采用对称的KLDivergence(KLD)来描述两个高斯分量fi(x)和fj(x)之间的相似度,具体为其中,步骤Ⅳ,最近邻搜索:对GMMx′的每一高斯分量s,通过相似度矩阵D来寻找到GMMy中与其相似度最高的高斯分量σ(s);类似地,对GMMy中的每一高斯分量t,通过D找到其在GMMx′中对应的相似度最高的分量ψ(t);步骤Ⅴ,转换:通过最近邻搜索,分别得到两个均值向量对序列,分别记为和其中,s=1,2,…,M,t=1,2,…,M;和分别表示GMMx′第s个高斯分量的辅助均值向量及其在GMMy中对应的高斯分量σ(s)所对应的均值向量,和分别表示GMMy第t个高斯分量的辅助均值向量及其在GMMx′中对应的高斯分量ψ(t)所对应的均值向量;去除和中重复的序列对,并连接在一起得到一个完整的均值向量对序列{μx′,μy};利用最小二乘估计法计算得到μx′和μy之间的映射函数:fmu(μx′)=Aμx′+b(5)其中,b=μy-Aμx′;将表达式(5)所示的映射函数直接用于辅助向量与目标说话人特征向量之间的转换,则转换函数如下:fmu(x′)=Ax′+b(6)辅助向量x′可以通过下式得到:x′=fmu(x′)(7)进而,得到源说话人特征向量x和辅助向量x′之间的转换函数:x′=fsa(x)=Cx+d(8)其中,C和d均为常数,且d=μx′-Aμx,可见x和x′之间是个简单的线性映射关系;步骤Ⅵ,通过期望最大化方法对辅助向量序列X′重新进行模型训练得到GMMx′,重复步骤Ⅲ~Ⅴ,直到GMMx′和GMMy之间的相似度满足收敛条件其中δ为一取值非常小的经验常数,主要根据经验结合实际情况而定。基于说话人模型对齐的转换方法在一定程度上可以实现源说话人向目标说话人的语音转换,但是一方面,单一的映射转换并不能保证转换函数的准确度;另一方面,转换函数通过模型均值训练得到而并没有充分利用频谱特征的信息,因而很难获得令人满意的转换效果。因此,作为对本专利技术的进一步改进,提出了将说话人模型对齐和GMM相融合的方法,具体操作如下:经过说话人模型的矢量对齐训练,获得了辅助向量序列X′;采用联合概率密度对辅助向量x′和目标说话人特征向量y组成的特征序列对进行GMM建模,如下:其中,αi表示第i个高斯分量所占的权重,且满足μi和Σi分别表示第i个高斯分量的均值矩阵和协方差矩阵;采用最小均方误差法计算得到辅助向量和目标说话人特征向量之间的转换函数:其中,p(i|x′)表示x′属于第i个高斯分量的后验概率,满足其中,αj表示第j个高斯分量所占的权重,且满足bi(x′)和bj(x′)分别表示第i个高斯分量和第j个高斯分量;进而,根据表达式(8)和表达式(10)得到源说话人特征向量与目标说话人特征向量之间的转换函数:y=F(x)=fat(fsa(x))。有益效果:与现有技术相比,本专利技术提供的基于说话人模型对齐的非对称语音库条件下的语音转换方法,优点和效果在于:1)与其他基于非对称语音库的语音转换方法不同,本专利技术不需要任何第三方说话人的信息,仅通过源说话人和目标说话人的语音数据训练得到二者之间的映射关系,方法实际操作简单,在提升转换效果的同时在一定程度上减少了语音转换系统的运算复本文档来自技高网
...
基于说话人模型对齐的非对称语音库条件下的语音转换方法

【技术保护点】
一种基于说话人模型对齐的非对称语音库条件下的语音转换方法,其特征在于:针对非对称语音库的情况,通过引入辅助向量来寻找源说话人和目标说话人之间的转换函数,即先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型,然后利用说话人模型中的均值与协方差找到源说话人特征向量和辅助向量之间的转换函数,以及辅助向量和目标说话人特征向量之间的转换函数,最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数;在语音转换的过程中,使用说话人模型对齐的方法,以及将说话人模型对齐与高斯混合模型相融合的方法,最终通过STRAIGHT语音分析/合成模型对转换后的频谱特征进行合成得到转换语音。

【技术特征摘要】
1.一种基于说话人模型对齐的非对称语音库条件下的语音转换方法,其特征在于:针对非对称语音库的情况,通过引入辅助向量来寻找源说话人和目标说话人之间的转换函数,即先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型,然后利用说话人模型中的均值与协方差找到源说话人特征向量和辅助向量之间的转换函数,以及辅助向量和目标说话人特征向量之间的转换函数,最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数;在语音转换的过程中,使用说话人模型对齐的方法,以及将说话人模型对齐与高斯混合模型相融合的方法,最终通过STRAIGHT语音分析/合成模型对转换后的频谱特征进行合成得到转换语音;所述的说话人模型对齐方法的步骤具体如下:步骤Ⅰ,训练得到说话人模型:运用STRAIGHT模型提取源说话人和目标说话人的频谱特征,获得源说话人和目标说话人的特征向量,分别记为x和y;通过期望最大化方法分别训练得到源说话人模型和目标说话人模型,记为GMMx和GMMy,具体为:其中,p(x)对应着GMMx,p(y)对应着GMMy,N(·)表示高斯分布,和分别表示GMMx和GMMy模型的第i个高斯分量,M表示高斯分量的个数,和表示第i个高斯分量的均值向量,和表示第i个高斯分量的协方差矩阵,ωi和vi表示第i个高斯分量所占的权重,且满足步骤Ⅱ,引入辅助向量并初始化:引入辅助向量序列X'={x'j},其中j表示第j帧,且j=1,2,...,J,J表示帧数,且J≥1;X'用于每一次迭代搜索后的中间序列,并运用期望最大化方法训练得到辅助向量序列的模型,记作GMMx',具体表达式为:其中,x'表示辅助向量,ωi表示第i个高斯分量所占的权重,且满足GMMx'的参数为并且初始化设定为步骤Ⅲ,说话人模型的相似度计算:GMMx和GMMy不同高斯分量之间的相似度用矩阵D表示如下:其中,dij表示GMMx的第i个高斯分量与GMMy的第j个高斯分量之间的相似度,并采用对称的KLDivergence来描述两个高斯分量fi(x)和fj(x)之间的相似度,具体为其中,步骤Ⅳ,最近邻搜索:对GMMx'的每一高斯分量s,通过相似度矩阵D来寻找到GMMy中与其相似...

【专利技术属性】
技术研发人员:宋鹏赵力金赟
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1