融合韵律信息的汉语方言辨识方法技术

技术编号:13419426 阅读:53 留言:0更新日期:2016-07-27 18:28
本申请公开了一种融合韵律信息的汉语方言辨识方法,包括:s1、输入汉语方言信号进行语音信号提取,提取信号包括声学特征和韵律特征,所述声学特征包括SDC特征,所述韵律特征包括基频特征、能量包络特征和时长特征;s2、将提取的不同质的特征经过模型建模,转化成具有统一度量标准的特征矢量,然后进行组合构成一个统一矢量送分类器决策。本发明专利技术融合韵律信息的模型方法增加了汉语方言间的区别性,大大提升了方言辨识的正确率。

【技术实现步骤摘要】
融合韵律信息的汉语方言辨识方法
本申请属于语音信号处理领域,特别涉及一种融合韵律信息的汉语方言辨识方法,它在多语言环境下的语音识别、口语翻译、信息检索和辅助人工咨询等方面具有广阔的应用前景。
技术介绍
作为语言辨识的一个重要分支,汉语方言辨识的研究还处于起步阶段,最早在中国台湾受到重视,随后新加坡也开展了此项研究,国内在这方面的研究比较少。2002年,我国台湾学者TsaiW.H.等提出了直接利用未标注语音的声学特征和韵律特征,建立高斯混合二元模型进行方言辨识的方法,取得了一定的成功。新加坡学者LimB.P.等则提出了利用局部和全局音位配列特征的汉语方言辨识方法,对三种方言和一种外来语的辨识实验中取得了很好的识别效果。国内的顾明亮利用高斯混合模型与语言模型相结合,提出了一种基于音位配列特征的汉语方言辨识方法,在不用标注语音样本的前提下,系统取得了很好的效果。分析以上方法不难看出,目前汉语方言辨识中区别特征的选择主要集中在声学特征、音位配列特征和韵律特征,而且在应用方式上主要集中在其中的一种或两种。另一方面,在韵律特征和其他特征的融合方式上,仅仅局限在简单的加权研究,这种方法在特征子空间增大了空间的维数,在训练同样多参数的情况下,特征效果并不会有太大改进,有时反而会引起性能下降。
技术实现思路
本申请所要解决的问题是克服传统方言辨识中仅仅使用单一特征和简单加权的信息融合缺陷,提出了融合韵律信息的汉语辨识方法。为实现上述目的,本专利技术提供如下技术方案:本申请实施例公开了一种融合韵律信息的汉语方言辨识方法,包括:s1、输入汉语方言信号进行语音信号提取,提取信号包括声学特征和韵律特征,所述声学特征包括SDC特征,所述韵律特征包括基频特征、能量包络特征和时长特征;s2、将提取的不同质的特征经过模型建模,转化成具有统一度量标准的特征矢量,然后进行组合构成一个统一矢量送分类器决策。优选的,在上述的融合韵律信息的汉语方言辨识方法中,所述SDC特征的计算由4个整型参数决定,即(N,d,P,k),其中N是每帧中倒谱特征的维数,d是计算差分倒谱的差分时间,P是k个倒谱块之间的转移时间,k是构成一个SDC特征的倒谱块的个数,在t帧第j个SDC特征的计算公式是Δcj,t=cj,(t+d)-cj,(t-d):cj,t在t帧的第j个MFFCC特征参数,所以在t帧时SDC的特征可表示为:每帧SDC特征向量的维数为N×k维。优选的,在上述的融合韵律信息的汉语方言辨识方法中,所述基频特征中,基音频率包含在语音信号的浊音段中,浊音信号的每一帧可以写成:其中,n=0,…,N-1,N是每一帧语音的样本点数,I是拟合的谐波数αi,ωi,分别是描述第i个谐波的幅度、频率和相位,该信号x(n)的自相关为:其中,τ=0,…,N-1,定义相邻两帧信号的自相关协方差为该帧语音的基频流特征:其中,μt(τ)=E{Rt(τ)},d∈(N/2,N/2]是特征矢量的下标,令:其中,δi=ωt,i-ωt+1,i,Δ={δi,i=1,…,I},通过求导得到,假设分帧后的语音信号为相邻两帧语音信号记为:xt(n),xt+1(n),n=0,1,…N-1。优选的,在上述的融合韵律信息的汉语方言辨识方法中,基音特征流的具体计算方法包括:(i)利用傅里叶变换(DFT)计算各帧的功率谱密度:Pt(k)=|DFT(xt(n))|2其中,k=0,1,...K-1.(ii)对所得的功率谱密度进行平滑处理:Pt(k)=Pt(k)·W(k)其中,窗函数为:W(k)=1+cos(2πk/K)(iii)归一化平滑后的功率谱密度:(iv)计算归一化能量谱的逆傅里叶变换(IDFT):Rt(k)=DFT-1(Pt(k))(v)则基频流特征为:其中C是归一化常数,特征矢量下标的取值范围是:-D≤d≤D。优选的,在上述的融合韵律信息的汉语方言辨识方法中,所述能量包络特征中,语音信号各帧的能量参数记为:E={e1,e2,…,eN},其中,ei为:优选的,在上述的融合韵律信息的汉语方言辨识方法中,所述时长特征中,对能量特征矢量作差分,然后检查差分能量中变号的次数以及两次变号间隔,将变号次数及平均变号间隔作为时长特征。优选的,在上述的融合韵律信息的汉语方言辨识方法中,所述步骤s2中,采用模型融合的方法进行特征融合,计算每种特征在方言的高斯混合模型和语言模型下的概率分数。优选的,在上述的融合韵律信息的汉语方言辨识方法中,在高斯混合模型下,设语音信号经特征提取后为是第t帧的语音特征矢量,T为该语音段总的帧数,则该语音段在第k个方言GMM模型下的输出概率为:其中,M为高斯混合元数目,也是符号总数,表示第k个方言的GMM符号化模型。表示该模型第j个高斯混合分量的加权值,分别表示该模型第j个高斯混合分量的均值和协方差矩阵,优选的,在上述的融合韵律信息的汉语方言辨识方法中,在语言模型下,首先采用插值法对数据进行平滑处理,然后建立各种语言的二元插值语言模型,其算法如下:设经过第k个GMM模型下得到的语音符号串为:表示第k个GMM模型下,第i帧语音的符号,i=1,2,…,T,k=1,2,…,N,N表示方言总数,T为总的语音帧数,则它在第i个方言语言模型下得到的对数似然为:其中,优选的,在上述的融合韵律信息的汉语方言辨识方法中,所述步骤s2中,分类器设计中采用的是支持矢量机,最优分类函数的算法如下:给定样本训练集X={(x1,y1),(x2,y2),…,(xn,yn)},X∈Rd,y∈Y={+1,-1},求解最优超平面可以转化为以下最优化问题,式中,xi表示样本特征矢量,参数w和b决定超平面位置的两个参数,使分类间隔最大,该优化问题可以转化为其对偶问题求解,解得最优分类函数为:对于两类非线性可分问题,可以通过引入核函数将其转化为高维空间的线性可分问题,通过引入松弛变量ξi转化成下列优化问题:其中,C为常数,表示对错分样本的惩罚大小,表示发生错误分类的量。其对应的对偶问题为:其中,αi为与每个样本对应的Lagrange乘子,K(xi,xj)为满足Mercer条件的核函数,最终解得的最优分类函数是:与现有技术相比,本专利技术的优点在于:本专利技术融合韵律信息的模型方法增加了汉语方言间的区别性,大大提升了方言辨识的正确率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下本文档来自技高网...

【技术保护点】
一种融合韵律信息的汉语方言辨识方法,其特征在于,包括:s1、输入汉语方言信号进行语音信号提取,提取信号包括声学特征和韵律特征,所述声学特征包括SDC特征,所述韵律特征包括基频特征、能量包络特征和时长特征;s2、将提取的不同质的特征经过模型建模,转化成具有统一度量标准的特征矢量,然后进行组合构成一个统一矢量送分类器决策。

【技术特征摘要】
1.一种融合韵律信息的汉语方言辨识方法,其特征在于,包括:
s1、输入汉语方言信号进行语音信号提取,提取信号包括声学特征和韵律特征,所述声学特征包括SDC特征,所述韵律特征包括基频特征、能量包络特征和时长特征;
s2、将提取的不同质的特征经过模型建模,转化成具有统一度量标准的特征矢量,然后进行组合构成一个统一矢量送分类器决策,所述SDC特征的计算由4个整型参数决定,即(N,d,P,k),其中N是每帧中倒谱特征的维数,d是计算差分倒谱的差分时间,P是k个倒谱块之间的转移时间,k是构成一个SDC特征的倒谱块的个数,在t帧第j个SDC特征的计算公式是:Δcj,t=cj,(t+d)-cj,(t-d)cj,t在t帧的第j个MFFCC特征参数,所以在t帧时SDC的特征可表示为:



每帧SDC特征向量的维数为N×k维,所述基频特征中,基音频率包含在语音信号的浊音段中,浊音信号的每一帧写成:



其中,n=0,…,N-1,N是每一帧语音的样本点数,I是拟合的谐波数,αi,ωi,分别是描述第i个谐波的幅度、频率和相位,该信号x(n)的自相关为:



其中,τ=0,…,N-1,定义相邻两帧信号的自相关协方差为该帧语音的基频流特征:



其中,μt(τ)=E{Rt(τ)},d∈(N/2,N/2]是特征矢量的下标,令:



其中,δi=ωt,i-ωt+1,i,Δ={δi,i=1,…,I},通过求导得到,



假设分帧后的语音信号为相邻两帧语音信号记为:xt(n),xt+1(n),n=0,1,…N-1。


2.根据权利要求1所述的融合韵律信息的汉语方言辨识方法,其特征在于:基音特征流的具体计算方法包括:
(i)利用傅里叶变换(DFT)计算各帧的功率谱密度:
Pt(k)=|DFT(xt(n))|2
其中,k=0,1,…,K-1
(ii)对所得的功率谱密度进行平滑处理:
Pt(k)=Pt(k)·W(k)
其中,窗函数为:W(k)=1+cos(2πk/K)
(iii)归一化平滑后的功率谱密度:



(iv)计算归一化能量谱的逆傅里叶变换(IDFT):
Rt(k)=DFT-1(Pt(k))
(v)则基频流特征为:



其中C是归一化常数,特征矢量下标的取值范围是:-D≤d≤D。


3.根据权利要求2所述的融合韵律信息的汉语方言辨识方法,其特征在于:所述能量包络特征中,语音信号各帧的能量参数记为:E=...

【专利技术属性】
技术研发人员:夏玉果顾明亮
申请(专利权)人:江苏信息职业技术学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1