一种基于语谱图时间差分的语音音节数估计方法技术

技术编号:23935862 阅读:60 留言:0更新日期:2020-04-25 03:08
本发明专利技术提供了一种基于语谱图时间差分的语音音节数估计方法,所述方法步骤包括:将语音信号的语谱图X,通过一个M阶图像后向平滑滤波器得到模糊形式语谱图X

A speech syllable number estimation method based on time difference of spectrogram

【技术实现步骤摘要】
一种基于语谱图时间差分的语音音节数估计方法
本专利技术涉及音频处理
,具体涉及一种基于语谱图时间差分的语音音节数估计方法。
技术介绍
音节数估计作为语速估计的基础,在情感识别、医学中评估失语症语言流利性等领域有着广阔的应用前景。语速作为情感表达的一种重要的韵律手段,是情感识别中的重要特征。若能精确地估计出单位时间内的音节数,则能提高语速估计的准确度,从而提高情感识别的性能。同时,在基于匹配模型的语音识别中,音节数估计不但可提升匹配速度,而且可以提高识别精度。目前的音节数估计方法可分为两大类,一类是基于人工神经网络(Artificialneuralnetwork,ANN)的方法,另一类是基于音节检测的方法。其中,采用人工神经网络方法(专利:语速估计模型的训练、语速估计方法、装置、设备及介质)需要大量的人工标记数据,会耗费极大的成本,且在训练数据不足时会表现出准确率低、鲁棒性差、识别与说话人相关等缺点。而且人工神经网络缺乏解释性,相当于一个黑匣子,无法在实际应用过程中出现问题时或需要及时调整时做出灵活性变动。因此需要一种具有解释性的、低成本的音节数估计方法。另一类基于音节检测的方法中,又分为包络检测方法与传统统计模型方法。其中,包络检测方法(双门限算法在藏语语音音节分割中的应用分析卓嘎,2015)通过提取语音信号的幅度包络,利用检测包络的谷点来进行音节边界的检测。这种方法的问题在于:在实际的连续语音信号中,信号的幅度包络中存在非常多的谷点,但并不是所有的谷点都对应音节边界,而目前又缺乏一种准确度高、鲁棒性强的算法来判断某一谷点是否是音节的边界,因此在实际应用过程中仅采取幅度包络这一特征来检测音节很容易出现误差。传统统计模型方法则一般采用GMM或HMM模型(RobustSyllableSegmentationanditsApplicationtoSyllablecentricContinuousSpeechRecognition.2010),与ANN方法相同,此类方法也需要大量人工标注的数据,同时有研究表明GMM或HMM模型在一般问题上的性能要比ANN方法差。对于上述的方法中,虽然基于ANN的算法一般能取得比较好的音节数估计结果,但其高昂的成本使实际应用变得十分困难。而基于音节检测的方法虽然实现了低成本,但其效果还没有达到能实际应用的水平。基于上述缺点可知现有技术难以满足实际需求的问题。
技术实现思路
为了克服现有技术的不足,本专利技术提出了一种基于语谱图时间差分的语音音节数估计方法。利用语谱图中浊音起始边界比较明显的特征,通过图像后向平滑以及时间差分得出语谱图在时间上的动态信息,从而得到浊音起始边界,进而得到语音音节数的估计值。本专利技术的目的至少通过如下技术方案之一实现。一种基于语谱图时间差分的语音音节数估计方法,包括以下步骤:S1、将语音信号通过快速傅里叶变换(FastFourierTransform,FFT)转换成语谱图X={xt,t=1,2,…T},通过一个M阶图像后向平滑滤波器得到模糊形式语谱图对模糊形式语谱图进行N阶时间差分以及M阶图像后向平滑,得到N阶差分图S={st,t=1,2…T-N},其中,T为语音信号的短时帧数,xt为语谱图X第t列的特征向量,为模糊形式语谱图X*第t列的特征向量,st为N阶差分图S第t列的特征向量;S2、对N阶差分图S的每一列进行频率区域选择性求和,以获得初步浊音起始边界统计特征,然后通过语谱图的动态特征以及边界时间间隔限制G1得到初步浊音起始边界{ai,i=1,2,…I},其中,I为得到的初步浊音起始边界的个数,ai为第i个初步浊音起始边界;S3、将N阶差分图的第一频带F0=[0,f0]部分与图案P进行局部图案匹配得到其图案特征图f0为第一频带的最大频率,通过图案特征图计算出匹配浊音起始边界{bj,j=1,2,…J},其中,为图案特征图S*第t列的特征向量,J为得到的匹配浊音起始边界的个数,bj为第j个匹配浊音起始边界;S4、结合初步浊音起始边界和匹配浊音起始边界,通过一个边界时间间隔限制G2,得到最终的浊音起始边界{ck,k=1,2,…K},最后计算出音节数K,其中,ck为第k个最终的浊音起始边界;S5、以规定时间内音节数的多少来作为言语障碍患者发音流畅度的评价指标。进一步地,步骤S1中,根据语谱图中浊音起始边界比较明显这一特征,首先使用一个M阶图像后向平滑滤波器对语谱图进行滤波,用于减少N阶差分图中的虚假浊音起始边界,且此项操作对正确的浊音起始边界影响不大,从而达到降低音节数估计误差的效果。定义M阶图像后向平滑滤波器为形状M*M,取值如下的矩阵,M取大于等于3的奇数,使得取1值的列数比取0值的列数多一列,M越大,所得的模糊形式语谱图越模糊:M阶图像后向平滑滤波的计算方法如下:其中wx,y表示M阶图像后向平滑滤波器在(x,y)处的值;表示滤波后的图像在时间t,频率f处的值;Wf-i,t-j表示滤波前的图像在时间t-j,频率f-i处的值,若t-j<0或f-i<0,则令Wf-i,t-j=0(相当于补零)。进一步地,步骤S1中,定义N阶时间差分为:其中sf,t表示模糊形式语谱图在时间t,频率f处的值;N的取值可为1、2或3,具体的取值根据本专利技术在应用中的实际性能来确定。在N阶时间差分后再次进行M阶图像后向平滑滤波的目的是:减少N阶差分图中的虚假浊音起始边界,且此项操作对正确的浊音起始边界影响不大,从而达到降低音节数估计误差的效果。由于音节与音节之间的连续性弱于单个音节内的连续性,所以进行N阶时间差分可以判断某一时间段[t1,t1+N]内语音信号连续性的强弱,从而判断[t1,t1+N]中是否存在音节与音节间的边界。进一步地,步骤S2包括以下步骤:S2.1、计算浊音起始边界统计特征其中pt为第二频带统计特征的第t个值,为第三频带统计特征的第t个值;特征序列{pt,t=1,2,…T-N}中包含的是N阶差分图中的低频信息,而特征序列中包含的是N阶差分图中的中高频信息。由于语音信号的能量大多集中于低频部分,因此在连续语音信号中,在无声与语音的边界处或相邻音节的边界处的低频部分的能量在时间上存在较大变化。因此在特征序列{pt,t=1,2,…T-N}中,pt的值越大,说明信号低频部分的能量在时间上的变化越大,则t越有可能是浊音的起始边界。由于在连续语音信号中可能会出现连续的两个或几个读音相近的音节,这种现象在语谱图中表现为相邻的音节在低频处相似,而在中高频处相异。即在相邻音节的边界处的低频部分的能量随时间变化不大,而在中高频部分的能量随时间变化较大。在上述情况中,利用特征序列能有效地检出相邻音节的边界,从而降低音节数估计的误差。S2.2、对特征序列{pt,t=1,2,…T-N}进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到部分浊音起始边界{yu,u=1,2,…U},其中yu+1>yu,u=1,2,…U-1本文档来自技高网
...

【技术保护点】
1.一种基于语谱图时间差分的语音音节数估计方法,其特征在于,包括以下步骤:/nS1、将语音信号通过快速傅里叶变换(Fast Fourier Transform,FFT)转换成语谱图

【技术特征摘要】
1.一种基于语谱图时间差分的语音音节数估计方法,其特征在于,包括以下步骤:
S1、将语音信号通过快速傅里叶变换(FastFourierTransform,FFT)转换成语谱图通过一个M阶图像后向平滑滤波器得到模糊形式语谱图对模糊形式语谱图进行N阶时间差分以及M阶图像后向平滑,得到N阶差分图S={st,t=1,2…T-N},其中,T为语音信号的短时帧数,xt为语谱图X第t列的特征向量,为模糊形式语谱图X*第t列的特征向量,st为N阶差分图S第t列的特征向量;
S2、对N阶差分图S的每一列进行频率区域选择性求和,以获得初步浊音起始边界统计特征,然后通过语谱图的动态特征以及边界时间间隔限制G1得到初步浊音起始边界{ai,i=1,2,…I},其中,I为得到的初步浊音起始边界的个数,ai为第i个初步浊音起始边界;
S3、将N阶差分图的第一频带F0=[0,f0]部分与图案P进行局部图案匹配得到其图案特征图f0为第一频带的最大频率,通过图案特征图计算出匹配浊音起始边界{bj,j=1,2,…J},其中,为图案特征图S*第t列的特征向量,J为得到的匹配浊音起始边界的个数,bj为第j个匹配浊音起始边界;
S4、结合初步浊音起始边界和匹配浊音起始边界,通过一个边界时间间隔限制G2,得到最终的浊音起始边界{ck,k=1,2,…K},最后计算出音节数K,其中,ck为第k个最终的浊音起始边界;
S5、以规定时间内音节数的多少来作为言语障碍患者发音流畅度的评价指标。


2.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法,其特征在于,步骤S1中,定义M阶图像后向平滑滤波器为形状M*M,取值如下的矩阵,M取大于等于3的奇数,使得取1值的列数比取0值的列数多一列,M越大,所得的模糊形式语谱图越模糊:



M阶图像后向平滑滤波的计算方法如下:









其中wx,y表示M阶图像后向平滑滤波器在(x,y)处的值;表示滤波后的图像在时间t,频率f处的值;Wf-i,t-j表示滤波前的图像在时间t-j,频率f-i处的值,若t-j<0或f-i<0,则令Wf-i,t-j=0。


3.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法,其特征在于,步骤S1中,定义N阶时间差分为:



其中sf,t表示模糊形式语谱图在时间t,频率f处的值。


4.根据权利要求1所述的一种基于语谱图时间差分的语音音节估计方法,其特征在于,步骤S2包括以下步骤:
S2.1、计算浊音起始边界统计特征{pt,t=1,2,…T-N},其中pt为第二频带统计特征的第t个值,为第三频带统计特征的第t个值;
S2.2、对特征序列{pt,t=1,2,…T-N}进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到部分浊音起始边界{yu,u=1,2,…U},其中,门限A1的取值区间为[0.1,0.3],yu+1>yu,u=1,2,…U-1,其中,U为得到的部分浊音起始边界的个数,yu为第u个部分浊音起始边界;
S2.3、对特征序列进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到待确认的浊音起始边界然后经过过零率特征筛选得到补充的浊音起始边界其中L为得到的待确认的浊音起始边界的个数,为第l个待确认的浊音起始边界,R为得到的补充的浊音起始边界的个数,为第r个补充的浊音起始边界;
S2.4、使用部分浊音起始边界{yu,u=1,2,…U}与补充的浊音起始边界根据边界时间间隔限制G1得到初步浊音起始边界{ai,i=1,2,…I},其...

【专利技术属性】
技术研发人员:贺前华苏健彬严海康詹俊瑶
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1