【技术实现步骤摘要】
融合韵律信息的汉语方言辨识方法
本申请属于语音信号处理领域,特别涉及一种融合韵律信息的汉语方言辨识方法,它在多语言环境下的语音识别、口语翻译、信息检索和辅助人工咨询等方面具有广阔的应用前景。
技术介绍
作为语言辨识的一个重要分支,汉语方言辨识的研究还处于起步阶段,最早在中国台湾受到重视,随后新加坡也开展了此项研究,国内在这方面的研究比较少。2002年,我国台湾学者TsaiW.H.等提出了直接利用未标注语音的声学特征和韵律特征,建立高斯混合二元模型进行方言辨识的方法,取得了一定的成功。新加坡学者LimB.P.等则提出了利用局部和全局音位配列特征的汉语方言辨识方法,对三种方言和一种外来语的辨识实验中取得了很好的识别效果。国内的顾明亮利用高斯混合模型与语言模型相结合,提出了一种基于音位配列特征的汉语方言辨识方法,在不用标注语音样本的前提下,系统取得了很好的效果。分析以上方法不难看出,目前汉语方言辨识中区别特征的选择主要集中在声学特征、音位配列特征和韵律特征,而且在应用方式上主要集中在其中的一种或两种。另一方面,在韵律特征和其他特征的融合方式上,仅仅局限在简单的加权研究,这种方法在特征子空间增大了空间的维数,在训练同样多参数的情况下,特征效果并不会有太大改进,有时反而会引起性能下降。
技术实现思路
本申请所要解决的问题是克服传统方言辨识中仅仅使用单一特征和简单加权的信息融合缺陷,提出了融合韵律信息的汉语辨识方法。为实现上述目的,本专利技术提供如下技术方案:本申请实施例公开了一种融合韵律信息 ...
【技术保护点】
一种融合韵律信息的汉语方言辨识方法,其特征在于,包括:s1、输入汉语方言信号进行语音信号提取,提取信号包括声学特征和韵律特征,所述声学特征包括SDC特征,所述韵律特征包括基频特征、能量包络特征和时长特征;s2、将提取的不同质的特征经过模型建模,转化成具有统一度量标准的特征矢量,然后进行组合构成一个统一矢量送分类器决策。
【技术特征摘要】
1.一种融合韵律信息的汉语方言辨识方法,其特征在于,包括:
s1、输入汉语方言信号进行语音信号提取,提取信号包括声学特征和韵律特征,所述声学特征包括SDC特征,所述韵律特征包括基频特征、能量包络特征和时长特征;
s2、将提取的不同质的特征经过模型建模,转化成具有统一度量标准的特征矢量,然后进行组合构成一个统一矢量送分类器决策,所述SDC特征的计算由4个整型参数决定,即(N,d,P,k),其中N是每帧中倒谱特征的维数,d是计算差分倒谱的差分时间,P是k个倒谱块之间的转移时间,k是构成一个SDC特征的倒谱块的个数,在t帧第j个SDC特征的计算公式是:Δcj,t=cj,(t+d)-cj,(t-d)cj,t在t帧的第j个MFFCC特征参数,所以在t帧时SDC的特征可表示为:
每帧SDC特征向量的维数为N×k维,所述基频特征中,基音频率包含在语音信号的浊音段中,浊音信号的每一帧写成:
其中,n=0,…,N-1,N是每一帧语音的样本点数,I是拟合的谐波数,αi,ωi,分别是描述第i个谐波的幅度、频率和相位,该信号x(n)的自相关为:
其中,τ=0,…,N-1,定义相邻两帧信号的自相关协方差为该帧语音的基频流特征:
其中,μt(τ)=E{Rt(τ)},d∈(N/2,N/2]是特征矢量的下标,令:
其中,δi=ωt,i-ωt+1,i,Δ={δi,i=1,…,I},通过求导得到,
假设分帧后的语音信号为相邻两帧语音信号记为:xt(n),xt+1(n),n=0,1,…N-1。
2.根据权利要求1所述的融合韵律信息的汉语方言辨识方法,其特征在于:基音特征流的具体计算方法包括:
(i)利用傅里叶变换(DFT)计算各帧的功率谱密度:
Pt(k)=|DFT(xt(n))|2
其中,k=0,1,…,K-1
(ii)对所得的功率谱密度进行平滑处理:
Pt(k)=Pt(k)·W(k)
其中,窗函数为:W(k)=1+cos(2πk/K)
(iii)归一化平滑后的功率谱密度:
(iv)计算归一化能量谱的逆傅里叶变换(IDFT):
Rt(k)=DFT-1(Pt(k))
(v)则基频流特征为:
其中C是归一化常数,特征矢量下标的取值范围是:-D≤d≤D。
3.根据权利要求2所述的融合韵律信息的汉语方言辨识方法,其特征在于:所述能量包络特征中,语音信号各帧的能量参数记为:E=...
【专利技术属性】
技术研发人员:夏玉果,顾明亮,
申请(专利权)人:江苏信息职业技术学院,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。