一种基于谐波冲激分解的语音转换方法技术

技术编号:19347813 阅读:37 留言:0更新日期:2018-11-07 15:59
本发明专利技术提出一种基于谐波冲激分解的语音转换方法,包括如下步骤:S1,将语音信号分解成谐波信号和冲激信号;S2,将所述谐波信号进行语音转换,形成目标谐波信号;S3,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号。本发明专利技术采用谐波冲激分解模型对语音信号进行分解,将语音信号分解成谐波信号部分和冲激信号部分,仅对谐波信号部分做频谱分解和稀疏表示,不对冲激信号做任何处理,既能够保证信息的完全性、又可以减少信息的丢失,还有利于提高转换后语音的质量,处理过程简单、方便,推广性强,具有较高的应用前景。

A speech conversion method based on harmonic impulse decomposition

The invention proposes a speech conversion method based on harmonic impulse decomposition, which includes the following steps: S1, decomposes speech signal into harmonic signal and impulse signal; S2, converts the harmonic signal into speech signal to form target harmonic signal; S3, superimposes the target harmonic signal and the impulse signal to form the target harmonic signal. Target speech signal. The invention adopts the harmonic impulse decomposition model to decompose the speech signal. The speech signal is decomposed into the harmonic signal part and the impulse signal part. Only the harmonic signal part is decomposed and sparsely expressed. Without any processing of the impulse signal, the information completeness can be guaranteed and the loss of information can be reduced. It is also conducive to improving the quality of the converted speech. The processing process is simple, convenient, and has a strong popularization. It has a high application prospect.

【技术实现步骤摘要】
一种基于谐波冲激分解的语音转换方法
本专利技术属于语音转换
,具体涉及一种基于谐波冲激分解的语音转换方法。
技术介绍
说话人身份特征是语音信号中所包含的一种非常重要的特征信息。语音转换的处理对象就是语音信号中的身份特征信息,它的目的就是要改变源语音中的身份特征,使得转换后的语音听起来就像是特定的目标说话人的声音一样。语音转换技术具有广泛的应用前景,特别是应用于个性化的语音合成领域。
技术实现思路
本专利技术提出一种基于谐波冲激分解的语音转换方法,以提高语音转换后的语音质量,简化语音转换处理过程。为实现本专利技术的目的,本专利技术采用以下技术方案:一种基于谐波冲激分解的语音转换方法,包括如下步骤:S1,将语音信号分解成谐波信号和冲激信号;S2,将所述谐波信号进行语音转换,形成目标谐波信号;S3,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号。进一步地,步骤S1中,将语音信号分解成谐波信号和冲激信号的具体步骤如下:S11,采用STRAIGHT模型对所述语音信号进行建模,得到该语音信号的频谱矢量序列X,X表示成语音信号的语谱图;S12,计算水平方向的幅度谱和垂直方向的幅度谱分别为:其中m表示语谱图的时间点,k表示语谱图的频点;wh用来描述水平方向中值滤波器的长度;wp用来描述垂直方向中值滤波器的长度;median(·)表示中值滤波函数。S13,对语音信号的语谱图X进行标记,得到谐波信号的标记矩阵Mh和冲激信号的标记矩阵Mp,即:S14,计算所述语音信号的谐波信号频谱Xh(m,k)和冲激信号频谱Xp(m,k),即:Xh(m,k)=X(m,k)·Mh(m,k)Xp(m,k)=X(m,k)·Mp(m,k)进一步地,所述方法整体包括训练阶段和转换阶段,在所述训练阶段,所述语音信号包括源语音信号和样本语音信号,所述步骤S1中,对所述源语音信号和样本语音信号进行激光冲激分解,同时提取梅尔频率倒谱系数MFCC,用MFCC根据动态时间规整算法对源语音信号和样本语音信号在时间上进行规整并保留时间对齐信息;在所述转换阶段,所述语音信号为源语音信号,所述步骤S1中,对所述源语音信号进行激光冲激分解。进一步地,步骤S2中,将谐波信号进行语音转换形成目标谐波信号,是指对所述谐波信号频谱进行转换形成目标谐波信号频谱,具体为:S21,根据所述时间对齐信息,随机抽取源语音信号和样本语音信号相同位置的谐波信号频谱构造平行的源语音字典A和样本语音字典B,并存储,之后结束所述训练阶段;S22,在所述转换阶段,对源语音信号的谐波信号频谱Xh(m,k)进行稀疏表示;即Xh(m,k)=AH激励矩阵H∈RN×M,其中,N表示基矢量的个数,M表示语音信号的帧数,激励矩阵H由激励矢量h迭代求解,其中,A是源语音字典,x∈RK×1表示一帧语音信号的幅度谱,K表示一帧幅度谱的维数,Ι表示K维的数值全为1的矢量,λ表示K维的惩罚因子矢量,T表示矩阵转置运算符,.×表示矩阵对应点之间相乘运算符;S23,在所述转换阶段,利用源语音信号的激励矩阵H和样本语音信号的谐波信号样本字典B对源语音的谐波信号频谱进行转换,转换后的目标谐波信号频谱表示为进一步地,步骤S3中,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号的具体步骤为:将转换后的目标谐波信号频谱和未经过处理的源语音冲激信号部分进行叠加,得到转换后的目标语音频谱。本专利技术与现有技术相比,有益效果是:采用谐波冲激分解模型对语音信号进行分解,将语音信号分解成谐波信号部分和冲激信号部分,仅对谐波信号部分做频谱分解和稀疏表示,不对冲激信号做任何处理,既能够保证信息的完全性、又可以减少信息的丢失,还有利于提高转换后语音的质量,处理过程简单、方便,推广性强,具有较高的应用前景。附图说明为了更清楚地说明本专利技术实施例或现有技术的技术方案,下面将对实施例或现有技术描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术的基于谐波冲激分解的语音转换原理框图;图2是本专利技术的基于谐波冲激分解的语音转换整体框图;具体实施方式为了使本领域技术人员更好地理解本专利技术的技术方案,下面将结合附图以及具体的实施方式,对本专利技术进行详细地介绍说明。如图1所示,本专利技术所述基于谐波冲激分解的语音转换方法,包括如下步骤:S1,将语音信号分解成谐波信号和冲激信号;S2,将所述谐波信号进行语音转换,形成目标谐波信号;S3,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号。谐波信号是语音中具有固定基频的结构化的信号部分,而冲激信号是没有固定基频的信号部分。由于语音信号中说话人身份信息主要来自于说话人的声道特性和基频信号,而声道的共振特性是一个非常重要的因素,它和基频信号共同对语音信号中的谐波结构具有重要的影响。因此,谐波信号部分基本上包含了全部的说话人身份信息。而冲激信号部分具有散状的、不规律的频谱结构,含有语音频谱的细节成分,对于提高语音信号的质量很有作用。根据这一原理,在进行语音转换时,只对语音信号中的谐波部分进行转换,而保持冲激部分不变,有利于提高转换后的语音质量。在进行语音转换时,尽可能分离出语音信号中的包含说话人身份信息的信号部分,而对未含有身份信息的语音部分不进行处理,这样就减少了不必要的信息处理过程,根据信息论的数据处理定理,可以减少信息的丢失,有利于提高转换后语音的质量。语音信号的谐波冲激分解是通过中值滤波实现的,中值滤波能够有效地分离出沿时间轴方向分布的谐波部分和沿频率轴方向分布的冲激部分。根据上述思想,步骤S1中,将语音信号分解成谐波信号和冲激信号的具体步骤如下:S11,采用STRAIGHT模型对所述语音信号进行建模,得到该语音信号的频谱矢量序列X,X表示成语音信号的语谱图;S12,在幅度谱水平方向(时间方向)和垂直方向(频率方向)分别进行中值滤波,得到水平方向的幅度谱和垂直方向的幅度谱分别为:其中m表示语谱图的时间点,k表示语谱图的频点。wh是用来描述水平方向中值滤波器的长度,即水平方向中值滤波器的长度2wh+1;而wp是用来描述垂直方向中值滤波器的长度,即垂直方向中值滤波器的长度为2wp+1。median(·)是表示中值滤波函数。S13,对于时频分布上任何一点的值,如果则该频点判决为谐波信号成分,反之就是冲激信号成分。根据这个原则分别对语音信号的语谱图X进行标记,得到谐波信号的标记矩阵Mh和冲激信号的标记矩阵Mp,即:S14,将谐波信号的标记矩阵Mh和冲激信号的标记矩阵Mp分别与源语音信号或目标语音信号的语谱图X进行点乘,即矩阵的对应点相乘,得到语音信号的谐波信号频谱Xh(m,k)和冲激信号频谱Xp(m,k),即:Xh(m,k)=X(m,k)·Mh(m,k)(5)Xp(m,k)=X(m,k)·Mp(m,k)(6)如图2所示,所述语音转换方法通过转换语音信号的频谱来实现,包括训练阶段和转换阶段,在所述训练阶段,语音信号包括源语音信号和样本语音信号,步骤S1对所述源语音信号和样本语音信号进行激光冲激分解,同时提取梅尔频率倒谱系数MFCC,用MFCC根据动态时间规整算法对源语音信号和样本语本文档来自技高网...

【技术保护点】
1.一种基于谐波冲激分解的语音转换方法,其特征在于,包括如下步骤:S1,将语音信号分解成谐波信号和冲激信号;S2,将所述谐波信号进行语音转换,形成目标谐波信号;S3,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号。

【技术特征摘要】
1.一种基于谐波冲激分解的语音转换方法,其特征在于,包括如下步骤:S1,将语音信号分解成谐波信号和冲激信号;S2,将所述谐波信号进行语音转换,形成目标谐波信号;S3,将所述目标谐波信号与所述冲激信号进行叠加,形成目标语音信号。2.根据权利要求1所述的方法,其特征在于:步骤S1中,将语音信号分解成谐波信号和冲激信号的具体步骤如下:S11,采用STRAIGHT模型对所述语音信号进行建模,得到该语音信号的频谱矢量序列X,X表示成语音信号的语谱图;S12,计算水平方向的幅度谱和垂直方向的幅度谱分别为:其中m表示语谱图的时间点,k表示语谱图的频点;wh用来描述水平方向中值滤波器的长度;wp用来描述垂直方向中值滤波器的长度;median(·)表示中值滤波函数;S13,对语音信号的语谱图X进行标记,得到谐波信号的标记矩阵Mh和冲激信号的标记矩阵Mp,即:S14,计算所述语音信号的谐波信号频谱Xh(m,k)和冲激信号频谱Xp(m,k),即:Xh(m,k)=X(m,k)·Mh(m,k)Xp(m,k)=X(m,k)·Mp(m,k)。3.根据权利要求2所述的方法,其特征在于:所述方法包括训练阶段和转换阶段,在所述训练阶段,所述语音信号包括源语音信号和样本语音信号,所述步骤S1中,对所述源语音信号和样本语音信号进行激光冲激分解,同时提取梅尔频率倒谱系数MFCC,用MFCC根据动态时间规整算法对源语音信号和样本语...

【专利技术属性】
技术研发人员:简志华张石磊郭珊徐剑
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1