【技术实现步骤摘要】
本专利技术涉及语音转换技术,是一种结合语音识别和语音合成技术,实现变换一个 说话人的声音,使其听起来像另外某个特定的说话人声音的技术,尤其涉及一种基于信号 时序特征建模的高质量语音转换方法。
技术介绍
语音转换技术是语音信号处理领域近年来新兴的研究分支,涵盖了语音识别和语 音合成等领域的内容,拟在保持语义内容不变的情况下,通过改变一个特定说话人(被称 为源说话人)的话音个性特征,使他(或她)说的话被听者认为是另一个特定说话人(被称 为目标说话人)说的话。语音转换的主要任务包括提取代表说话人个性的特征参数并进行 数学变换,然后将变换后的参数重构成语音。在这过程中,既要保持重构语音的听觉质量, 又要兼顾转换后的个性特征是否准确。经过多年的发展,语音转换领域已经涌现出一些高效实用的算法,其中以高斯混 合模型为代表的统计转换方法目前已俨然成为了该领域公认的标准。但是这类算法亦存在 某些弊端,例如人为假设数据满足独立同分布的条件,并在特征转换的过程中强制转换方 式以逐帧的次序进行。这种忽略了帧间参数相关性的做法虽然极大的简化了问题,降低了 求解难度,但是却违背了语音信号存 ...
【技术保护点】
基于信号时序特征建模的高质量语音转换方法,其特征在于:针对源和目标的平行数据,考虑对其时序特征进行建模和跟踪,利用混合式卡尔曼滤波器,并在期望最大化准则下估计模型结构参数,最终利用该模型映射语音的特征参数集合,实现高质量的语音转换效果;具体包括如下步骤:(1)采用语音分析模型对原始语音信号进行分析;(2)从分析得到的参数中提取与音素相关的特征参数集合;(3)对源和目标的特征参数集合进行归一化操作,实现参数集合的对齐;(4)将对齐的参数集合分别用作混合式卡尔曼滤波器的输入和输出,实现模型参数的训练和估计;(5)将训练好的卡尔曼滤波器看作通用的泛函映射函数,基于特征参数映射方法 ...
【技术特征摘要】
1.基于信号时序特征建模的高质量语音转换方法,其特征在于针对源和目标的平行数据,考虑对其时序特征进行建模和跟踪,利用混合式卡尔曼滤波器,并在期望最大化准则下估计模型结构參数,最終利用该模型映射语音的特征參数集合,实现高质量的语音转换效果;具体包括如下步骤 (1)采用语音分析模型对原始语音信号进行分析; (2)从分析得到的參数中提取与音素相关的特征參数集合; (3)对源和目标的特征參数集合进行归一化操作,实现參数集合的对齐; (4)将对齐的參数集合分别用作混合式卡尔曼滤波器的输入和输出,实现模型參数的训练和估计; (5)将训练好的卡尔曼滤波器看作通用的泛函映射函数,基于特征參数映射方法映射任意的语音信号參数; (6)对转换后的特征參数进行反变换操作,即进行參数内插和相位补偿,最后用语音合成模型合成为高质量的语音; 上述步骤中,步骤(I) (4)为训练步骤,步骤(5) (6)为转换步骤;所述混合式卡尔曼滤波器的结构为在经典的卡尔曼滤波器结构上新增ー个隐层,所述隐层用于描述时序信号状态之间的渐变效果。2.根据权利要求1所述的基于信号时序特征建模的高质量语音转换方法,其特征在于所述步骤(I)中的语音分析模型的工作过程包括如下步骤 (al)对语音信号进行固定时长的分帧,用互相关法对基音频率进行估计; (a2)在浊音信号部分设置ー个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域;再利用最小ニ乘算法估计得到离散的谐波幅度值和相位值; (a3)在清音阶段,利用经典的线性预测分析法对其进行分析,从而得到线性预测系数。3.根据权利要求2所述的基于信号时序特征建模的高质量语音转换方法,其特征在于所述步骤(2)包括从离散的谐波幅度值中估计出适用于语音转换任务的线谱频率系数工作过程,该工作过程包括如下步骤 (bl...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。