基于高斯过程输出后滤波的语音转换方法技术

技术编号：15507989 阅读：95 留言：0更新日期：2017-06-04 02:27

本发明专利技术公开一种基于高斯过程输出后滤波的语音转换方法，首先进行训练阶段，针对源和目标的平行数据，利用高斯过程建立源与目标之间的映射关系，然后在转换阶段，通过该映射关系得到目标预测特征参数，利用高斯过程对该输出值进行最大似然估计，并建立输出值的方差的高斯分布。再对最大似然估计和方差的高斯分布进行联合最优化，完成对高斯过程输出的后滤波得到目标参数值，实现高质量的语音转换效果。本发明专利技术充分考虑了语音信号特征参数过平滑的问题，构造高斯过程输出后滤波的联合优化函数，提高预测特征参数的准确性，实现说话人个性特征的高质量变换。

Speech conversion method based on Gauss process output post filtering

The invention discloses a conversion method of filtering speech output based on the Gauss process, the first stage of training, parallel data for source and target, establish the mapping relationship between the source and target by Gauss, then in the conversion stage, through the mapping between the obtained target prediction parameters, using the maximum likelihood value of Gauss process estimation of the output, the Gauss distribution and the establishment of the variance of output value. Then, the joint optimization of maximum likelihood estimation and Gauss distribution of variance is used to complete the post filtering of the output of Gauss process to obtain the target parameter value and achieve high quality voice conversion effect. The invention fully considers the speech signal feature parameters over smoothing problems, joint optimization of Gauss function is constructed after the process output filter, improve the prediction accuracy of the characteristic parameters of the high quality, transform the speaker's personality traits.

全部详细技术资料下载

【技术实现步骤摘要】
基于高斯过程输出后滤波的语音转换方法
本专利技术涉及语音转换技术，属于语音识别与合成领域，特别是一种基于高斯过程输出后滤波的语音转换方法。
技术介绍
语音转换技术是语音信号处理领域近年来新兴的研究分支，涵盖了语音识别和语音合成等领域的内容，拟在保持语义内容不变的情况下，通过改变一个特定说话人(被称为源说话人)的话音个性特征，使他(或她)说的话被听者认为是另一个特定说话人(被称为目标说话人)说的话。语音转换的主要任务包括提取代表说话人个性的特征参数并进行数学变换，然后将变换后的参数重构成语音。在这过程中，既要保持重构语音的听觉质量，又要兼顾转换后的个性特征是否准确。经过多年的发展，语音转换领域已经涌现出一些高效实用的算法，其中以高斯混合模型为代表的统计转换方法目前已俨然成为了该领域公认的标准。但是这类算法亦存在某些弊端，例如：由于高斯混合模型自身模型参数的原因，使得转换后的谱参数过于平滑，导致不能准确地得到目标预测参数值，从而不能达到准确的转换效果。针对上述问题，目前已存在一些应对方案。例如，基于最大后验概率的GMM转换算法，考虑采用最大后验概率自适应地构造转换函数，来解决转换后谱参数过平滑的问题；基于最大似然估计的GMM转换算法，考虑通过引入全局方差的概念解决过平滑问题。
技术实现思路
本专利技术要解决的技术问题为：通过高斯过程对源与目标参数进行训练得到映射函数关系，再对高斯过程预测输出值进一步联合优化，得到较为准确的目标预测输出值，实现高质量语音转换。本专利技术采取的技术方案具体为：基于高斯过程输出后滤波的语音转换方法，包括以下步骤：(1)采用语音分析模型对...

【技术保护点】
一种基于高斯过程输出后滤波的语音转换方法，其特征是，包括以下步骤：（1）采用语音分析模型对原始语音进行分析，得到原始语音的参数；（2）从分析得到的参数中提取与音素相关的特征参数集合；（3）对原始语音和目标语音的特征参数集合进行参数对齐操作；（4）将对齐的特征参数集合利用高斯过程进行训练得到原始语音与目标语音的映射关系；（5）输入待转换源语音的特征参数，通过步骤（4）得到的映射关系得到目标语音的特征参数预测值；（6）利用高斯过程对目标语音的特征参数预测值进行最大似然估计，并计算目标语音特征参数预测值的方差的高斯分布；（7）对最大似然估计结果和方差的高斯分布结果进行联合最优化，得到最佳目标语音特征参数预测值，最后用语音合成模型合成目标语音。

【技术特征摘要】
1.一种基于高斯过程输出后滤波的语音转换方法，其特征是，包括以下步骤：（1）采用语音分析模型对原始语音进行分析，得到原始语音的参数；（2）从分析得到的参数中提取与音素相关的特征参数集合；（3）对原始语音和目标语音的特征参数集合进行参数对齐操作；（4）将对齐的特征参数集合利用高斯过程进行训练得到原始语音与目标语音的映射关系；（5）输入待转换源语音的特征参数，通过步骤（4）得到的映射关系得到目标语音的特征参数预测值；（6）利用高斯过程对目标语音的特征参数预测值进行最大似然估计，并计算目标语音特征参数预测值的方差的高斯分布；（7）对最大似然估计结果和方差的高斯分布结果进行联合最优化，得到最佳目标语音特征参数预测值，最后用语音合成模型合成目标语音。2.根据权利要求1所述的基于高斯过程输出后滤波的语音转换方法，其特征是，步骤（1）中，采用语音分析模型对原始语音进行的分析包括：1.1对原始语音进行固定时长的分帧，用自相关法对其基音频率进行估计；1.2在浊音信号部分设置一个最大浊音频率分量，用来划分谐波成分和随机成分的主能量区域；再利用最小二乘算法估计得到离散的谐波幅度值和相位值。3.根据权利要求1所述的基于高斯过程输出后滤波的语音转换方法，其特征是，步骤（2）中，从步骤（1）中得到的参数包括离散的谐波幅度值和相位值，从上述离散的谐波幅度值中提取与音素有关，即适用于语音转换任务的特征参数集合包括：2.1对离散的谐波幅度值求取平方值；2.2根据功率谱密度函数和自相关函数的一一对应关系，得到关于线性预测系数的托普里茨矩阵方程，求解该方程；2.3将线性预测系数转换为目标倒谱系数，并求得原始语音的基音频率；2.4得到包含倒谱系数和基因频率参数的特征参数矩阵。4.根据权利要求1所述的基于高斯过程输出后滤波的语音转换方法，其特征是，步骤（3）中，对原始语音和目标语音的特征参数集合进行参数对齐操作的对其准则为：对于两个不等长的特征参数序列，利...

【专利技术属性】
技术研发人员：徐宁，鲍静益，姚潇，汤一彬，蒋爱民，刘小峰，
申请(专利权)人：河海大学常州校区，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人