基于说话人模型对齐的非对称语音库条件下的语音转换方法技术

技术编号：10789405 阅读：180 留言：0更新日期：2014-12-17 17:50

本发明专利技术提出了一种基于说话人模型对齐的非对称语音库条件下的语音转换方法，首先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型，然后利用说话人模型中的参数找到源说话人特征向量和辅助向量之间的转换函数、辅助向量和目标说话人特征向量之间的转换函数，最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数；在语音转换的过程中，使用了说话人模型对齐的方法，并且为了进一步提升语音转换的效果，还采用了将说话人模型对齐与高斯混合模型相融合的方法。实验结果表明：本发明专利技术在频谱失真度和相关度、转换语音的质量和相似度上，都取得了比传统基于INCA的语音转换方法更好的效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于说话人模型对齐的非对称语音库条件下的语音转换方法
本专利技术涉及一种语音转换技术，尤其是涉及一种非对称语音库条件下的语音转换方法，属于语音信号处理

技术介绍
语音转换指的是改变一个说话人(源说话人)的语音个性特征使之变为另一个说话人(目标说话人)的语音个性特征的一种技术。语音转换技术有着广泛的应用前景，如用于个性化的语音合成、在保密通信领域用于说话人身份的伪装、在医疗领域用作受损语音的恢复、在低比特率语音通信中的接收端用于说话人个性特征的恢复等。为了实现高质量的说话人个性特征转换，国内外学者提出了很多的语音转换方法，如码本映射法、高斯混合模型(Gaussianmixturemodel,GMM)法、人工神经网络法、频率弯折法、隐马尔科夫模型法等。然而，这些方法都是针对对称(相同文本内容)语音库的情况提出来的，但是在实际情况中，对称的语音库很难直接获取。因此许多学者又提出了基于非对称语音库的语音转换方法，如最大似然约束自适应法、最近邻循环迭代(IterativecombinationofaNearestNeighborsearchstepandaConversionstepAlignment,INCA)方法、基于说话人自适应的语音转换方法等。但是这些方法仍然存在着较大的局限性：如最大似然约束自适应法需要预先训练得到参考说话人的转换函数；INCA方法是建立在特征空间中邻近的频谱特征对应着相同音素的假设基础上，而该假设在实际中往往并不十分准确，同时这种训练方法需要较多的训练语句；基于说话人自适应的语音转换方法依赖于第三方说话人训练模型。因此，这些问题...
基于说话人模型对齐的非对称语音库条件下的语音转换方法

【技术保护点】
一种基于说话人模型对齐的非对称语音库条件下的语音转换方法，其特征在于：针对非对称语音库的情况，通过引入辅助向量来寻找源说话人和目标说话人之间的转换函数，即先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型，然后利用说话人模型中的均值与协方差找到源说话人特征向量和辅助向量之间的转换函数，以及辅助向量和目标说话人特征向量之间的转换函数，最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数；在语音转换的过程中，使用说话人模型对齐的方法，以及将说话人模型对齐与高斯混合模型相融合的方法，最终通过STRAIGHT语音分析/合成模型对转换后的频谱特征进行合成得到转换语音。

【技术特征摘要】
1.一种基于说话人模型对齐的非对称语音库条件下的语音转换方法，其特征在于：针对非对称语音库的情况，通过引入辅助向量来寻找源说话人和目标说话人之间的转换函数，即先由源说话人和目标说话人的频谱特征分别训练得到各自的说话人模型，然后利用说话人模型中的均值与协方差找到源说话人特征向量和辅助向量之间的转换函数，以及辅助向量和目标说话人特征向量之间的转换函数，最后利用这两个转换函数求得源说话人和目标说话人之间的转换函数；在语音转换的过程中，使用说话人模型对齐的方法，以及将说话人模型对齐与高斯混合模型相融合的方法，最终通过STRAIGHT语音分析/合成模型对转换后的频谱特征进行合成得到转换语音；所述的说话人模型对齐方法的步骤具体如下：步骤Ⅰ，训练得到说话人模型：运用STRAIGHT模型提取源说话人和目标说话人的频谱特征，获得源说话人和目标说话人的特征向量，分别记为x和y；通过期望最大化方法分别训练得到源说话人模型和目标说话人模型，记为GMMx和GMMy，具体为：其中，p(x)对应着GMMx，p(y)对应着GMMy，N(·)表示高斯分布，和分别表示GMMx和GMMy模型的第i个高斯分量，M表示高斯分量的个数，和表示第i个高斯分量的均值向量，和表示第i个高斯分量的协方差矩阵，ωi和vi表示第i个高斯分量所占的权重，且满足步骤Ⅱ，引入辅助向量并初始化：引入辅助向量序列X'＝{x'j}，其中j表示第j帧，且j＝1,2,...,J，J表示帧数，且J≥1；X'用于每一次迭代搜索后的中间序列，并运用期望最大化方法训练得到辅助向量序列的模型，记作GMMx'，具体表达式为：其中，x'表示辅助向量，ωi表示第i个高斯分量所占的权重，且满足GMMx'的参数为并且初始化设定为步骤Ⅲ，说话人模型的相似度计算：GMMx和GMMy不同高斯分量之间的相似度用矩阵D表示如下：其中，dij表示GMMx的第i个高斯分量与GMMy的第j个高斯分量之间的相似度，并采用对称的KLDivergence来描述两个高斯分量fi(x)和fj(x)之间的相似度，具体为其中，步骤Ⅳ，最近邻搜索：对GMMx'的每一高斯分量s，通过相似度矩阵D来寻找到GMMy中与其相似...

【专利技术属性】
技术研发人员：宋鹏，赵力，金赟，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人