基于高斯过程输出后滤波的语音转换方法技术

技术编号:15507989 阅读:95 留言:0更新日期:2017-06-04 02:27
本发明专利技术公开一种基于高斯过程输出后滤波的语音转换方法,首先进行训练阶段,针对源和目标的平行数据,利用高斯过程建立源与目标之间的映射关系,然后在转换阶段,通过该映射关系得到目标预测特征参数,利用高斯过程对该输出值进行最大似然估计,并建立输出值的方差的高斯分布。再对最大似然估计和方差的高斯分布进行联合最优化,完成对高斯过程输出的后滤波得到目标参数值,实现高质量的语音转换效果。本发明专利技术充分考虑了语音信号特征参数过平滑的问题,构造高斯过程输出后滤波的联合优化函数,提高预测特征参数的准确性,实现说话人个性特征的高质量变换。

Speech conversion method based on Gauss process output post filtering

The invention discloses a conversion method of filtering speech output based on the Gauss process, the first stage of training, parallel data for source and target, establish the mapping relationship between the source and target by Gauss, then in the conversion stage, through the mapping between the obtained target prediction parameters, using the maximum likelihood value of Gauss process estimation of the output, the Gauss distribution and the establishment of the variance of output value. Then, the joint optimization of maximum likelihood estimation and Gauss distribution of variance is used to complete the post filtering of the output of Gauss process to obtain the target parameter value and achieve high quality voice conversion effect. The invention fully considers the speech signal feature parameters over smoothing problems, joint optimization of Gauss function is constructed after the process output filter, improve the prediction accuracy of the characteristic parameters of the high quality, transform the speaker's personality traits.

【技术实现步骤摘要】
基于高斯过程输出后滤波的语音转换方法
本专利技术涉及语音转换技术,属于语音识别与合成领域,特别是一种基于高斯过程输出后滤波的语音转换方法。
技术介绍
语音转换技术是语音信号处理领域近年来新兴的研究分支,涵盖了语音识别和语音合成等领域的内容,拟在保持语义内容不变的情况下,通过改变一个特定说话人(被称为源说话人)的话音个性特征,使他(或她)说的话被听者认为是另一个特定说话人(被称为目标说话人)说的话。语音转换的主要任务包括提取代表说话人个性的特征参数并进行数学变换,然后将变换后的参数重构成语音。在这过程中,既要保持重构语音的听觉质量,又要兼顾转换后的个性特征是否准确。经过多年的发展,语音转换领域已经涌现出一些高效实用的算法,其中以高斯混合模型为代表的统计转换方法目前已俨然成为了该领域公认的标准。但是这类算法亦存在某些弊端,例如:由于高斯混合模型自身模型参数的原因,使得转换后的谱参数过于平滑,导致不能准确地得到目标预测参数值,从而不能达到准确的转换效果。针对上述问题,目前已存在一些应对方案。例如,基于最大后验概率的GMM转换算法,考虑采用最大后验概率自适应地构造转换函数,来解决转换后谱参数过平滑的问题;基于最大似然估计的GMM转换算法,考虑通过引入全局方差的概念解决过平滑问题。
技术实现思路
本专利技术要解决的技术问题为:通过高斯过程对源与目标参数进行训练得到映射函数关系,再对高斯过程预测输出值进一步联合优化,得到较为准确的目标预测输出值,实现高质量语音转换。本专利技术采取的技术方案具体为:基于高斯过程输出后滤波的语音转换方法,包括以下步骤:(1)采用语音分析模型对原始语音进行分析,得到原始语音的参数;(2)从上述分析得到的参数中提取与音素相关的特征参数集合;(3)对原始语音和目标语音的特征参数集合进行参数对齐操作;(4)将对齐的特征参数集合利用高斯过程进行训练得到原始语音与目标语音的映射关系;(5)输入待转换源语音的特征参数,通过步骤(4)得到的映射关系得到目标语音的特征参数预测值;(6)利用高斯过程对目标语音的特征参数预测值进行最大似然估计,并计算目标语音特征参数预测值的方差的高斯分布;(7)对最大似然估计结果和方差的高斯分布结果进行联合最优化,得到最佳目标语音特征参数预测值,最后用语音合成模型合成目标语音。本专利技术中,步骤(1)~(4)为训练阶段,步骤(5)~(7)为转换阶段。高斯过程是一个随机过程,可以完全由两个统计参数确定,结构简单,通过高斯过程得到源与目标参数的映射关系,进而可实现语音转换。基于高斯过程的进行语音转换,一方面,高斯过程的非参数特性减少了模型参数的自由度,另一方面高斯过程具有较好的非线性映射能力,从而可以缓解过拟合的问题,避免转换后的谱参数过于平滑。具体的,本专利技术步骤(1)中,采用语音分析模型对原始语音进行的分析包括:1.1对原始语音进行固定时长的分帧,用自相关法对其基音频率进行估计;1.2在浊音信号部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域;再利用最小二乘算法估计得到离散的谐波幅度值和相位值。语音分析模型为现有技术,其可将语音信号模拟为可用于转换的特征参数,本专利技术可采用谐波随机模型,该模型将语音信号模拟为大量基频谐波正弦信号和噪声分量,对基频谐波正弦信号作进一步分析,得到适用于转换的语音信号特征参数。自相关法为现有算法,是语音信号基音频率提取算法中较为经典且具有代表性的方法。步骤(2)中,从步骤(1)中得到的参数包括原始语音的离散的谐波幅度值和相位值,从上述离散的谐波幅度值中提取与音素有关,即适用于语音转换任务的特征参数集合,包括步骤:2.1对离散的谐波幅度值求取平方值;2.2根据功率谱密度函数和自相关函数的一一对应关系,得到关于线性预测系数的托普里茨矩阵方程,求解该矩阵方程得到线性预测系数;2.3将线性预测系数转换为目标倒谱系数,并求得原始语音的基音频率;2.4得到包含原始语音倒谱系数和基因频率参数的特征参数集合。步骤(3)中,对原始语音和目标语音的特征参数集合进行参数对齐操作的对其准则为:对于两个不等长的特征参数序列,利用动态规划的思想将其中一者的时间轴非线性的映射到另一者的时间轴上,从而实现一一对应的匹配关系;在特征参数集合的对齐过程中,通过迭代优化一个预设的累积失真函数,并限制搜索区域,最终获得时间规整函数。搜索区域是根据第i帧源语音信号矢量和第j帧目标语音信号矢量之间的距离测度,规定的一个平行四边形作为限制条件;时间规整函数是关于源与目标语音帧特征矢量之间距离测度最小的规整函数,以保证语音之间存在最大的声学相似特性。步骤(4)中所述得到原始语音与目标语音特征参数映射关系的方法包括以下步骤:4.4从步骤(2)得到的特征参数矩阵中提取原语音参数矩阵中的所有参数将其作为输入,目标参数矩阵中的其中一维数值作为输出,通过高斯过程训练两者之间的映射关系;源与目标的参数类型及数量皆相同,目标参数矩阵与源语音参数矩阵求解过程一致。各维参数是目标语音各帧特征参数中所有同一维组成的数据(即相同维不同帧所组成的数据)。4.2依次选择目标参数矩阵中的其他各维数值作为输出,得到原始语音参数矩阵中参数与目标语音参数矩阵中各维数值之间的映射关系。步骤(5)中,对于待转换源语音,处理过程包括步骤:5.1对待转换源语音依次按步骤(1)、(2)、(3)进行分析处理,得到待转换源语音的特征参数;5.2利用步骤(4)得到的映射关系,将步骤5.1得到的待转换源语音的特征参数,映射为目标语音的特征参数,即得到目标语音的特征参数预测值,进一步得到相应的特征参数矩阵。步骤(6)包括如下步骤:6.1利用高斯过程对步骤5.2所得目标语音特征参数矩阵中的各维特征参数进行最大似然估计;6.2计算步骤6.1所得的目标语音各维特征参数的方差,并求取其方差的高斯分布。步骤(7)包括如下步骤:7.1构建步骤6.1所得最大似然估计值和步骤6.2所得方差的高斯分布的联合函数,并对该联合函数进行最优化,实现对高斯过程预测输出的后滤波,得到最佳目标预测值,重构目标语音的特征参数矩阵;7.2基于上述重构的特征参数矩阵和目标语音的基音频率,利用语音合成模型转换为目标语音。有益效果:本专利技术充分考虑了造成转换后谱参数过于平滑问题的原因,结合高斯过程对转换后的预测谱参数输出值进行进一步联合优化,实现了高斯过程输出的后滤波,可达到高质量的语音转换效果。附图说明图1所示为本专利技术使用高斯过程的映射关系示意图;图2所示为本专利技术的训练阶段流程示意图;图3所示为本专利技术转换阶段流程示意图。具体实施方式以下结合附图和具体实施例进一步描述。参考图1,本专利技术基于高斯过程输出后滤波的高质量语音转换方法,针对源和目标的平行数据,利用高斯过程建立源与目标之间的映射关系,通过该映射关系得到目标预测输出值,利用高斯过程对该输出值进行最大似然估计,并建立输出值的方差的高斯分布。对最大似然估计和方差的高斯分布进行联合最优化,得到目标参数值完成对高斯过程输出的后滤波,实现高质量的语音转换效果;具体包括如下步骤:(1)采用语音分析模型对原始语音进行分析,得到原始语音的参数;(2)从分析得到的参数中提取与音素相关的特征参数集合;(3)对原始语音和目标语音的特征参数集合本文档来自技高网...
基于高斯过程输出后滤波的语音转换方法

【技术保护点】
一种基于高斯过程输出后滤波的语音转换方法,其特征是,包括以下步骤:(1)采用语音分析模型对原始语音进行分析,得到原始语音的参数;(2)从分析得到的参数中提取与音素相关的特征参数集合;(3)对原始语音和目标语音的特征参数集合进行参数对齐操作;(4)将对齐的特征参数集合利用高斯过程进行训练得到原始语音与目标语音的映射关系;(5)输入待转换源语音的特征参数,通过步骤(4)得到的映射关系得到目标语音的特征参数预测值;(6)利用高斯过程对目标语音的特征参数预测值进行最大似然估计,并计算目标语音特征参数预测值的方差的高斯分布;(7)对最大似然估计结果和方差的高斯分布结果进行联合最优化,得到最佳目标语音特征参数预测值,最后用语音合成模型合成目标语音。

【技术特征摘要】
1.一种基于高斯过程输出后滤波的语音转换方法,其特征是,包括以下步骤:(1)采用语音分析模型对原始语音进行分析,得到原始语音的参数;(2)从分析得到的参数中提取与音素相关的特征参数集合;(3)对原始语音和目标语音的特征参数集合进行参数对齐操作;(4)将对齐的特征参数集合利用高斯过程进行训练得到原始语音与目标语音的映射关系;(5)输入待转换源语音的特征参数,通过步骤(4)得到的映射关系得到目标语音的特征参数预测值;(6)利用高斯过程对目标语音的特征参数预测值进行最大似然估计,并计算目标语音特征参数预测值的方差的高斯分布;(7)对最大似然估计结果和方差的高斯分布结果进行联合最优化,得到最佳目标语音特征参数预测值,最后用语音合成模型合成目标语音。2.根据权利要求1所述的基于高斯过程输出后滤波的语音转换方法,其特征是,步骤(1)中,采用语音分析模型对原始语音进行的分析包括:1.1对原始语音进行固定时长的分帧,用自相关法对其基音频率进行估计;1.2在浊音信号部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域;再利用最小二乘算法估计得到离散的谐波幅度值和相位值。3.根据权利要求1所述的基于高斯过程输出后滤波的语音转换方法,其特征是,步骤(2)中,从步骤(1)中得到的参数包括离散的谐波幅度值和相位值,从上述离散的谐波幅度值中提取与音素有关,即适用于语音转换任务的特征参数集合包括:2.1对离散的谐波幅度值求取平方值;2.2根据功率谱密度函数和自相关函数的一一对应关系,得到关于线性预测系数的托普里茨矩阵方程,求解该方程;2.3将线性预测系数转换为目标倒谱系数,并求得原始语音的基音频率;2.4得到包含倒谱系数和基因频率参数的特征参数矩阵。4.根据权利要求1所述的基于高斯过程输出后滤波的语音转换方法,其特征是,步骤(3)中,对原始语音和目标语音的特征参数集合进行参数对齐操作的对其准则为:对于两个不等长的特征参数序列,利...

【专利技术属性】
技术研发人员:徐宁鲍静益姚潇汤一彬蒋爱民刘小峰
申请(专利权)人:河海大学常州校区
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1