一种面向多时间尺度韵律特征的语音转换方法技术

技术编号:8534249 阅读:220 留言:0更新日期:2013-04-04 18:13
本发明专利技术公开了一种面向多时间尺度韵律特征的语音转换方法,属于语音信号处理技术领域。该方法首先对语音信号进行多时间尺度下的韵律特征分析与参数化提取,其次基于双隐马尔科夫模型对提取的多时间尺度韵律特征建立转换模型;最后在转换阶段,形成目标说话人的估计特征,得到转换后的语音。本发明专利技术不仅能够实现对韵律特性从整体到局部细致完整的刻画,克服韵律信息表述的模糊性和复杂性,而且通过时序性统计模型的建立,实现多时间尺度的韵律特征转换,增强转换语音的说话人个性信息,同时提高转换语音的可懂度和自然度。

【技术实现步骤摘要】

本专利技术涉及一种语音转换技术,尤其是一种基于双隐马尔科夫模型的多时间尺度韵律特征的语音转换方法,属于语音信号处理

技术介绍
语音转换是语音信号处理领域近年来新兴的研究分支,是在说话人识别和语音合成的研究基础上进行的,同时也是这两个分支内涵的丰富和延拓。语音转换的目标是改变源说话人语音中的个性特征信息,使之具有目标说话人的个性特征,从而使转换后的语音听起来就像是目标说话人的声音,而其中的语义信息保持不变。性能良好的语音转换系统,既要保持重构语音的听觉质量,又要兼顾转换后的目标说话人个性特征是否准确,现有的语音转换算法大多单纯关注频谱特征的准确转换,重建的语音尽管与目标说话人声音个性相似,但存在发音模糊和不连续现象,自然度较差。由于韵律信息的表述具有复杂性和不稳定性,对其建立有效的数学模型和参数提取存在一定的困难与挑战,一直以来对韵律特征转换的研究成果较少。然而,众所周知,韵律特性对语音信号的可懂度和自然度贡献显著,随着和谐人机交互技术的进一步发展,对韵律特性的重视和深入研究在语音转换、情感语音合成和情感识别等情感信息处理领域达成广泛共识。在韵律特性研究方面,传统观点认为韵律特征指的是超音段特征,即语音信号在超音段层次上表现出来的时间演变特性,并且认为这种特性与语音音段在时间轴的排列顺序无关,然而本质上韵律特性与音段类特性之间存在有相关性,因此这种观点存在一定的局限性。相关的文献比如1.PadmalayaPattnaik, Shreela Dash. A study onprosody analysis.1nternational Journal of Computational EngineeringResearch, 2012,2(5):1594-1599.2.Takashi Nose, Takao Kobayash1. Speaker-1ndependent HMM-based voiceconversionusing adaptive quantization of the fundamental frequency. Speech Communication, 2011,53(7) :973_985。另一种观点认为,韵律特征是一类参数的集合,这类参数描述的是语音信号由不同层次成分构成时的组织结构和特有规律,这种观点提取的语音参数着重于描述不同层次语义单元在构成语音信号时的结构特点。相关的文献比如3·K. Sreenivasa Rao. Voice conversion by mapping thespeaker—specificfeatures using pitch synchronous approach. Computer Speech andLanguage, 2010,24(3) : 474-494.4. Raul Fernandez, Rosalind Picard. Recognizing affect from speechprosody usinghierarchical graphical models. Speech Communication,2011,53(9-10):1088-1103。
技术实现思路
本专利技术的所要解决的技术问题是提供,达到增强转换语音中的说话人个性特征的同时提高转换语音的听觉质量与自然度。本专利技术为解决以上技术问题采用如下技术方案,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤步骤A,语音信号预处理对目标说话人和源说话人输入的语音信号,分别依次进行预加重、分帧和加窗处理;步骤B,语音特征矢量提取,所述语音特征矢量包括语音频谱特征和多时间尺度韵律特征,其中所述多时间尺度韵律特征包括短语尺度下的韵律特征、音节尺度下的韵律特征、语句尺度下的韵律特征,具体提取步骤如下对步骤A预处理后的源说话人和目标说话人的语音信号分别进行时域参数分析提取,得到源说话人和目标说话人在音节尺度、语句尺度下的韵律特征;同时对步骤A预处理后的源说话人和目标说话人的语音信号基于谐波加噪声模型进行分解,求取语音信号的谐波成分和噪声成分,然后对谐波加噪声模型的参数进一步降维与量化,最终分别得到源说话人和目标说话人的语音信号的语音频谱特征、短语尺度下的韵律特征;步骤C,根据步骤B得到的源说话人、目标说话人的语音信号的多时间尺度韵律特征,对于每一个时间尺度下的源说话人、目标说话人的韵律特征,分别采用双隐马尔科夫模型进行建模,进行动态特性和统计特性的分析,实现各时间尺度下的韵律特征的转换;步骤D,根据步骤B得到的源说话人、目标说话人的语音信号的语音频谱特征,采用联合高斯混合模型进行建模,实现频谱特征的转换;所述转换阶段包括如下步骤步骤E,输入源说话人新的语音,对源说话人输入的新的语音信号依次进行步骤A所述的语音信号预处理和步骤B所述的语音特征矢量提取操作,得到源说话人新的语音信号的频谱特征和多时间尺度韵律特征;步骤F,对步骤E得到的源说话人新的语音信号的每个时间尺度韵律特征,采用上述步骤C得到的该时间尺度下的双隐马尔科夫模型分别进行语音韵律特征转换;步骤G,对步骤E得到的源说话人新的语音信号的频谱特征,采用上述步骤D得到的高斯混合模型进行语音频谱转换,得到转换后的目标说话人的频谱特征;步骤H,对步骤F和G转换后的语音韵律特征和频谱特征经过谐波加噪声模型进行合成,最终得到转换后的语音。作为本专利技术的面向多时间尺度韵律特征的语音转换方法的进一步优化方案,所述步骤A的预处理步骤中,所述预加重处理的预加重系数为O. 96,分帧处理按20ms分帧,所述加窗处理采用汉明窗进行加窗处理。作为本专利技术的面向多时间尺度韵律特征的语音转换方法的进一步优化方案,步骤B的多时间尺度韵律特征具体提取步骤如下B-1,对短语尺度下的韵律特征,采用矢量量化对经过谐波加噪声模型分解后得到的基频轨迹进行码本量化,结合整个语句中的最大基频,最小基频以及基频平均值—起构成短语尺度下的韵律特征;B-2,对音节尺度下的韵律特征、语句尺度下的韵律特征,i,对音节尺度下的韵律特征,对于语音信号,选用时长结合标注音节的短时均方能量参数RMSs来描述,所述时长采用标注音节的持续采样点数{Ds,s=l,2,…S}来描述,其中s表示语句中S个音节中的第s个音节,s、S均为正整数;考虑到相邻音节之间的动态特性,将当前音节与下一音节参数之间的差值A11=Dp1-Ds作为补充特征,并且加入整句中音节持续时长的平均值AVGd和音节能量的平均值AVGkms构成联合特征;ii,对语句尺度下的韵律特征,采用整个语句的逐帧有效声压级值的量化码本来表征,所述的逐帧有效声压级值根据公式SPLt=20 X log (RMSt/ (2 X 10_5))计算,其中RMSt表示语句中第t帧的短时均方能量。作为本专利技术的面向多时间尺度韵律特征的语音转换方法的进一步优化方案,步骤C所述每一时间尺度下的源说话人、目标说话人的韵律特征的转换,具体实现过程如下第一步,首先采用动态时间规整算法对源说话人的该时间尺度韵律特征参数和目标说话人的该时间尺度韵律特征参数进行对齐操作,所述的源说话人的该时间尺度韵律特征参数用I本文档来自技高网
...

【技术保护点】
一种面向多时间尺度韵律特征的语音转换方法,其特征在于,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:步骤A,语音信号预处理:对目标说话人和源说话人输入的语音信号,分别依次进行预加重、分帧和加窗处理;步骤B,语音特征矢量提取,所述语音特征矢量包括语音频谱特征和多时间尺度韵律特征,其中所述多时间尺度韵律特征包括短语尺度下的韵律特征、音节尺度下的韵律特征、语句尺度下的韵律特征,具体提取步骤如下:对步骤A预处理后的源说话人和目标说话人的语音信号分别进行时域参数分析提取,得到源说话人和目标说话人在音节尺度、语句尺度下的韵律特征;同时对步骤A预处理后的源说话人和目标说话人的语音信号基于谐波加噪声模型进行分解,求取语音信号的谐波成分和噪声成分,然后对谐波加噪声模型的参数进一步降维与量化,最终分别得到源说话人和目标说话人的语音信号的语音频谱特征、短语尺度下的韵律特征;步骤C,根据步骤B得到的源说话人、目标说话人的语音信号的多时间尺度韵律特征,对于每一个时间尺度下的源说话人、目标说话人的韵律特征,分别采用双隐马尔科夫模型进行建模,进行动态特性和统计特性的分析,实现各时间尺度下的韵律特征的转换;步骤D,根据步骤B得到的源说话人、目标说话人的语音信号的语音频谱特征,采用联合高斯混合模型进行建模,实现频谱特征的转换;所述转换阶段包括如下步骤:步骤E,输入源说话人新的语音,对源说话人输入的新的语音信号依次进行步骤A所述的语音信号预处理和步骤B所述的语音特征矢量提取操作,得到源说话人新的语音信号的频谱特征和多时间尺度韵律特征;步骤F,对步骤E得到的源说话人新的语音信号的每个时间尺度韵律特征,采用上述步骤C得到的该时间尺度下的双隐马尔科夫模型分别进行语音韵律特征转换;步骤G,对步骤E得到的源说话人新的语音信号的频谱特征,采用上述步骤D得到的高斯混合模型进行语音频谱转换,得到转换后的目标说话人的频谱特征;步骤H,对步骤F和G转换后的语音韵律特征和频谱特征经过谐波加噪声模型进行合成,最终得到转换后的语音。...

【技术特征摘要】
1.一种面向多时间尺度韵律特征的语音转换方法,其特征在于,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤步骤A,语音信号预处理对目标说话人和源说话人输入的语音信号,分别依次进行预加重、分帧和加窗处理;步骤B,语音特征矢量提取,所述语音特征矢量包括语音频谱特征和多时间尺度韵律特征,其中所述多时间尺度韵律特征包括短语尺度下的韵律特征、音节尺度下的韵律特征、语句尺度下的韵律特征,具体提取步骤如下对步骤A预处理后的源说话人和目标说话人的语音信号分别进行时域参数分析提取, 得到源说话人和目标说话人在音节尺度、语句尺度下的韵律特征;同时对步骤A预处理后的源说话人和目标说话人的语音信号基于谐波加噪声模型进行分解,求取语音信号的谐波成分和噪声成分,然后对谐波加噪声模型的参数进一步降维与量化,最终分别得到源说话人和目标说话人的语音信号的语音频谱特征、短语尺度下的韵律特征;步骤C,根据步骤B得到的源说话人、目标说话人的语音信号的多时间尺度韵律特征, 对于每一个时间尺度下的源说话人、目标说话人的韵律特征,分别采用双隐马尔科夫模型进行建模,进行动态特性和统计特性的分析,实现各时间尺度下的韵律特征的转换;步骤D,根据步骤B得到的源说话人、目标说话人的语音信号的语音频谱特征,采用联合高斯混合模型进行建模,实现频谱特征的转换;所述转换阶段包括如下步骤步骤E,输入源说话人新的语音,对源说话人输入的新的语音信号依次进行步骤A所述的语音信号预处理和步骤B所述的语音特征矢量提取操作,得到源说话人新的语音信号的频谱特征和多时间尺度韵律特征;步骤F,对步骤E得到的源说话人新的语音信号的每个时间尺度韵律特征,采用上述步骤C得到的该时间尺度下的双隐马尔科夫模型分别进行语音韵律特征转换;步骤G,对步骤E得到的源说话人新的语音信号的频谱特征,采用上述步骤D得到的高斯混合模型进行语音频谱转换,得到转换后的目标说话人的频谱特征;步骤H,对步骤F和G转换后的语音韵律特征和频谱特征经过谐波加噪声模型进行合成,最终得到转换后的语音。2.根据权利要求1所述的面向多时间尺度韵律特征的语音转换方法,其特征在于,所述步骤A的预处理步骤中,所述预加重处理的预加重系数为O. 96,分帧处理按20ms分帧,所述加窗处理采用汉明窗进行加窗处理。3.根据权利要求1所述的面向多时间尺度韵律特征的语音转换方法,其特征在于,所述步骤B的多时间尺度韵律特征具体提取步骤如下B-1,对短语尺度下的韵律特征,采用矢量量化对经过谐波加噪声模型分解后得到的基频轨迹进行码本量化,结合整个语句中的最大基频,最小基频& \\以及基频平均值 。一起构成短语尺度下的韵律特征;B-2,对音节尺度下的韵律特征、语句尺度下的韵律特征,i,对音节尺度下的韵律特征,对...

【专利技术属性】
技术研发人员:李燕萍张玲华
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利