基于信号时序特征建模的高质量语音转换方法技术

技术编号:8563592 阅读:311 留言:0更新日期:2013-04-11 05:29
本发明专利技术公开了一种基于信号时序特征建模的高质量语音转换方法,针对源和目标的平行数据,考虑对其时序特征进行建模和跟踪,利用混合式卡尔曼滤波器,并在期望最大化准则下估计模型结构参数,最终利用该模型映射语音的特征参数集合,实现高质量的语音转换效果。本发明专利技术提供的基于信号时序特征的高质量语音转换方法,充分利用了语音信号参数间的强烈相关性,通过模拟参数随时间变化的物理过程,构造了一种新型的混合式卡尔曼滤波器,并将其用于语音转换的参数映射过程,设计了一套特殊的、将卡尔曼滤波器参数与语音信号物理属性相关联的转换算法,实现说话人个性特征的变换。

【技术实现步骤摘要】

本专利技术涉及语音转换技术,是一种结合语音识别和语音合成技术,实现变换一个 说话人的声音,使其听起来像另外某个特定的说话人声音的技术,尤其涉及一种基于信号 时序特征建模的高质量语音转换方法。
技术介绍
语音转换技术是语音信号处理领域近年来新兴的研究分支,涵盖了语音识别和语 音合成等领域的内容,拟在保持语义内容不变的情况下,通过改变一个特定说话人(被称 为源说话人)的话音个性特征,使他(或她)说的话被听者认为是另一个特定说话人(被称 为目标说话人)说的话。语音转换的主要任务包括提取代表说话人个性的特征参数并进行 数学变换,然后将变换后的参数重构成语音。在这过程中,既要保持重构语音的听觉质量, 又要兼顾转换后的个性特征是否准确。经过多年的发展,语音转换领域已经涌现出一些高效实用的算法,其中以高斯混 合模型为代表的统计转换方法目前已俨然成为了该领域公认的标准。但是这类算法亦存在 某些弊端,例如人为假设数据满足独立同分布的条件,并在特征转换的过程中强制转换方 式以逐帧的次序进行。这种忽略了帧间参数相关性的做法虽然极大的简化了问题,降低了 求解难度,但是却违背了语音信号存在强相关性的事实,导致模型描述信号时变特性的能 力下降,最终影响语音转换的效果。针对上述问题,目前已存在一些应对方案。例如,比较典型的是利用“差分特征参 数”的思想。所谓“差分特征参数”是指在进行高斯混合模型建模时,将原先的联合特征矢 量扩展成包含一阶差分的特征矢量。这样一来,帧间参数的渐变特性就被吸收进了新的特 征参数,从而在一定程度上弥补了该模型缺乏对动态特性建模的缺陷。另一方面,为了彻底 避免高斯混合模型固有的独立性假设的缺陷,一些新的语音转换方案开始采用隐马尔可夫 模型作为基本映射模型。该模型的主要特点是可以精确地控制信号的时序特征,并且在物 理层面上与语音信号的产生和转变有着莫大的联系。
技术实现思路
专利技术目的为了克服现有技术中存在的不足,本专利技术提供一种基于信号时序特征 建模的高质量语音转换方法,通过混合式卡尔曼滤波器,给出了模型利用原始数据更新自 身参数的算法;并在平行数据的条件下,将语音信号中包含的语义信息哈说话人个性信息 分别赋予模型的隐层和显层,是一种在保持语义信息不便的条件下,灵活转换说话人个性息的方法。技术方案为实现上述目的,本专利技术采用的技术方案为,针对源和目标的平行数据,考虑 对其时序特征进行建模和跟踪,利用混合式卡尔曼滤波器,并在期望最大化准则下估计模 型结构参数,最终利用该模型映射语音的特征参数集合,实现高质量的语音转换效果;具体包括如下步骤(I)采用语音分析模型对原始语音信号进行分析;(2)从分析得到的参数中提取与音素相关的特征参数集合;(3)对源和目标的特征参数集合进行归一化操作,实现参数集合的对齐;(4)将对齐的参数集合分别用作混合式卡尔曼滤波器的输入和输出,实现模型参数的训练和估计;(5)将训练好的卡尔曼滤波器看作通用的泛函映射函数,基于特征参数映射方法映射任意的语音信号参数;(6)对转换后的特征参数进行反变换操作,即进行参 数内插和相位补偿,最后用语音合成模型合成为高质量的语音;上述步骤中,步骤(I) (4)为训练步骤,步骤(5) (6)为转换步骤;所述混合式卡尔曼滤波器的结构为在经典的卡尔曼滤波器结构上新增一个隐层,所述隐层用于描述时序信号状态之间的渐变效果。所述混合式卡尔曼滤波器,由于隐层能够使得每个时刻的观察变量均有可能处于不同的状态,对每个时刻观察到的变量通过计算状态概率、观测概率以及与之对应的后验概率,获得对不同时刻的观察变量数据底层属性的分类知识;利用获得的分类知识,设计变量转移规则,用以描述信号随时间变化的特征;利用贝叶斯推理,使模型参数的估计存在不确定性,即保留了每种状态的后验概率,从而形成了所谓的混合度。该混合式尔曼滤波器克服了经典卡尔曼滤波器在跟踪快变时序信号时出现的发散式困难,使得结果更加精确。所述步骤(I)中的语音分析模型的工作过程包括如下步骤(al)对语音信号进行固定时长的分帧,用互相关法对基音频率进行估计;(a2)在浊音信号部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域;再利用最小二乘算法估计得到离散的谐波幅度值和相位值;(a3)在清音阶段,利用经典的线性预测分析法对其进行分析,从而得到线性预测系数。与步骤(I)中的语音分析模型相对应的,步骤¢)中的语音合成模型的工作过程包括如下步骤(bl)将浊音部分信号的离散的谐波幅度和相位值用作正弦信号的幅度值和相位值,并进行叠加;运用内插技术和相位补偿技术使得重构信号在时域波形上不产生失真;(b2)将清音部分信号的白噪声信号通过一个全极点滤波器,即可得到近似重构信号;(b3)将浊音部分信号和清音部分信号进行叠加,即得到重构的语音信号。所述步骤(2)包括从离散的谐波幅度值中估计出适用于语音转换任务的线谱频率系数工作过程,该工作过程包括如下步骤(bl)对离散的谐波幅度求取平方;(b2)根据功率谱密度函数和自相关函数的一一对应关系,得到关于线性预测系数的托普里茨矩阵方程,求解该方程;(b3)将线性预测系数转换为目标线谱频率系数。所述步骤(3)中实现参数集合的对齐的对其准则为对于两个不等长的特征参数序列,利用动态规划的思想将其中一者的时间轴非线性的映射到另一者的时间轴上,从而 实现一对应的匹配关系;在现参数集合的对齐的过程中,通过迭代优化一个预设的累积失 真函数,并限制搜索区域,最终获得时间匹配函数。所述步骤(5)中的特征参数映射方法包括如下步骤(Cl)充分利用平行数据的包含相同语义信息和不同说话人个性特征信息的特点, 在假设隐层状态变量代表语义信息的基础上,保证源和目标各自的混合式卡尔曼滤波器的 隐层结构处于共享状态;接着在期望最大化准则下估计观测层变量的统计特性;(c2)在步骤(Cl)的基础上,比较源和目标模型结构的差异性,将这种差异性视为 说话人不同个性的一种体现;(c3)结合卡尔曼滤波器描述时变信号的能力,将这种差异性从源的特征空间映射 到目标的特征空间,从而完成参数的转换过程。有益效果本专利技术提供的基于信号时序特征的高质量语音转换方法,充分利用了 语音信号参数间的强烈相关性,通过模拟参数随时间变化的物理过程,构造了一种新型的 混合式卡尔曼滤波器,并将其用于语音转换的参数映射过程,设计了一套特殊的、将卡尔曼 滤波器参数与语音信号物理屈性相关联的转换算法,实现说话人个性特征的变换。附图说明图1为混合式卡尔曼滤波器结构;图2为本专利技术涉及的系统训练框图3为本专利技术涉及的系统转换框图。具体实施方式下面结合附图对本专利技术作更进一步的说明。,针对源和目标的平行数据,考虑 对其时序特征进行建模和跟踪,利用混合式卡尔曼滤波器,并在期望最大化准则下估计模 型结构参数,最终利用该模型映射语音的特征参数集合,实现高质量的语音转换效果;具体 包括如下步骤(I)采用语音分析模型对原始语音信号进行分析;(2)从分析得到的参数中提取与音素相关的特征参数集合;(3)对源和目标的特征参数集合进行归一化操作,实现参数集合的对齐;(4)将对齐的参数集合分别用作混合式卡尔曼滤波器的输入和输出,实现模型参 数的训练和估计;(5)将训练好的卡尔曼滤波器看作通用本文档来自技高网
...

【技术保护点】
基于信号时序特征建模的高质量语音转换方法,其特征在于:针对源和目标的平行数据,考虑对其时序特征进行建模和跟踪,利用混合式卡尔曼滤波器,并在期望最大化准则下估计模型结构参数,最终利用该模型映射语音的特征参数集合,实现高质量的语音转换效果;具体包括如下步骤:(1)采用语音分析模型对原始语音信号进行分析;(2)从分析得到的参数中提取与音素相关的特征参数集合;(3)对源和目标的特征参数集合进行归一化操作,实现参数集合的对齐;(4)将对齐的参数集合分别用作混合式卡尔曼滤波器的输入和输出,实现模型参数的训练和估计;(5)将训练好的卡尔曼滤波器看作通用的泛函映射函数,基于特征参数映射方法映射任意的语音信号参数;(6)对转换后的特征参数进行反变换操作,即进行参数内插和相位补偿,最后用语音合成模型合成为高质量的语音;上述步骤中,步骤(1)~(4)为训练步骤,步骤(5)~(6)为转换步骤;所述混合式卡尔曼滤波器的结构为在经典的卡尔曼滤波器结构上新增一个隐层,所述隐层用于描述时序信号状态之间的渐变效果。

【技术特征摘要】
1.基于信号时序特征建模的高质量语音转换方法,其特征在于针对源和目标的平行数据,考虑对其时序特征进行建模和跟踪,利用混合式卡尔曼滤波器,并在期望最大化准则下估计模型结构參数,最終利用该模型映射语音的特征參数集合,实现高质量的语音转换效果;具体包括如下步骤 (1)采用语音分析模型对原始语音信号进行分析; (2)从分析得到的參数中提取与音素相关的特征參数集合; (3)对源和目标的特征參数集合进行归一化操作,实现參数集合的对齐; (4)将对齐的參数集合分别用作混合式卡尔曼滤波器的输入和输出,实现模型參数的训练和估计; (5)将训练好的卡尔曼滤波器看作通用的泛函映射函数,基于特征參数映射方法映射任意的语音信号參数; (6)对转换后的特征參数进行反变换操作,即进行參数内插和相位补偿,最后用语音合成模型合成为高质量的语音; 上述步骤中,步骤(I) (4)为训练步骤,步骤(5) (6)为转换步骤;所述混合式卡尔曼滤波器的结构为在经典的卡尔曼滤波器结构上新增ー个隐层,所述隐层用于描述时序信号状态之间的渐变效果。2.根据权利要求1所述的基于信号时序特征建模的高质量语音转换方法,其特征在于所述步骤(I)中的语音分析模型的工作过程包括如下步骤 (al)对语音信号进行固定时长的分帧,用互相关法对基音频率进行估计; (a2)在浊音信号部分设置ー个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域;再利用最小ニ乘算法估计得到离散的谐波幅度值和相位值; (a3)在清音阶段,利用经典的线性预测分析法对其进行分析,从而得到线性预测系数。3.根据权利要求2所述的基于信号时序特征建模的高质量语音转换方法,其特征在于所述步骤(2)包括从离散的谐波幅度值中估计出适用于语音转换任务的线谱频率系数工作过程,该工作过程包括如下步骤 (bl...

【专利技术属性】
技术研发人员:徐宁鲍静益汤一彬
申请(专利权)人:河海大学常州校区
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1