【技术实现步骤摘要】
一种基于语谱图时间差分的语音音节数估计方法
本专利技术涉及音频处理
,具体涉及一种基于语谱图时间差分的语音音节数估计方法。
技术介绍
音节数估计作为语速估计的基础,在情感识别、医学中评估失语症语言流利性等领域有着广阔的应用前景。语速作为情感表达的一种重要的韵律手段,是情感识别中的重要特征。若能精确地估计出单位时间内的音节数,则能提高语速估计的准确度,从而提高情感识别的性能。同时,在基于匹配模型的语音识别中,音节数估计不但可提升匹配速度,而且可以提高识别精度。目前的音节数估计方法可分为两大类,一类是基于人工神经网络(Artificialneuralnetwork,ANN)的方法,另一类是基于音节检测的方法。其中,采用人工神经网络方法(专利:语速估计模型的训练、语速估计方法、装置、设备及介质)需要大量的人工标记数据,会耗费极大的成本,且在训练数据不足时会表现出准确率低、鲁棒性差、识别与说话人相关等缺点。而且人工神经网络缺乏解释性,相当于一个黑匣子,无法在实际应用过程中出现问题时或需要及时调整时做出灵活性变动。因此需要一种具有解释性的、低成本的音节数估计方法。另一类基于音节检测的方法中,又分为包络检测方法与传统统计模型方法。其中,包络检测方法(双门限算法在藏语语音音节分割中的应用分析卓嘎,2015)通过提取语音信号的幅度包络,利用检测包络的谷点来进行音节边界的检测。这种方法的问题在于:在实际的连续语音信号中,信号的幅度包络中存在非常多的谷点,但并不是所有的谷点都对应音节边界,而目前又缺乏一种准确度高、 ...
【技术保护点】
1.一种基于语谱图时间差分的语音音节数估计方法,其特征在于,包括以下步骤:/nS1、将语音信号通过快速傅里叶变换(Fast Fourier Transform,FFT)转换成语谱图
【技术特征摘要】
1.一种基于语谱图时间差分的语音音节数估计方法,其特征在于,包括以下步骤:
S1、将语音信号通过快速傅里叶变换(FastFourierTransform,FFT)转换成语谱图通过一个M阶图像后向平滑滤波器得到模糊形式语谱图对模糊形式语谱图进行N阶时间差分以及M阶图像后向平滑,得到N阶差分图S={st,t=1,2…T-N},其中,T为语音信号的短时帧数,xt为语谱图X第t列的特征向量,为模糊形式语谱图X*第t列的特征向量,st为N阶差分图S第t列的特征向量;
S2、对N阶差分图S的每一列进行频率区域选择性求和,以获得初步浊音起始边界统计特征,然后通过语谱图的动态特征以及边界时间间隔限制G1得到初步浊音起始边界{ai,i=1,2,…I},其中,I为得到的初步浊音起始边界的个数,ai为第i个初步浊音起始边界;
S3、将N阶差分图的第一频带F0=[0,f0]部分与图案P进行局部图案匹配得到其图案特征图f0为第一频带的最大频率,通过图案特征图计算出匹配浊音起始边界{bj,j=1,2,…J},其中,为图案特征图S*第t列的特征向量,J为得到的匹配浊音起始边界的个数,bj为第j个匹配浊音起始边界;
S4、结合初步浊音起始边界和匹配浊音起始边界,通过一个边界时间间隔限制G2,得到最终的浊音起始边界{ck,k=1,2,…K},最后计算出音节数K,其中,ck为第k个最终的浊音起始边界;
S5、以规定时间内音节数的多少来作为言语障碍患者发音流畅度的评价指标。
2.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法,其特征在于,步骤S1中,定义M阶图像后向平滑滤波器为形状M*M,取值如下的矩阵,M取大于等于3的奇数,使得取1值的列数比取0值的列数多一列,M越大,所得的模糊形式语谱图越模糊:
M阶图像后向平滑滤波的计算方法如下:
其中wx,y表示M阶图像后向平滑滤波器在(x,y)处的值;表示滤波后的图像在时间t,频率f处的值;Wf-i,t-j表示滤波前的图像在时间t-j,频率f-i处的值,若t-j<0或f-i<0,则令Wf-i,t-j=0。
3.根据权利要求1所述的一种基于语谱图时间差分的语音音节数估计方法,其特征在于,步骤S1中,定义N阶时间差分为:
其中sf,t表示模糊形式语谱图在时间t,频率f处的值。
4.根据权利要求1所述的一种基于语谱图时间差分的语音音节估计方法,其特征在于,步骤S2包括以下步骤:
S2.1、计算浊音起始边界统计特征{pt,t=1,2,…T-N},其中pt为第二频带统计特征的第t个值,为第三频带统计特征的第t个值;
S2.2、对特征序列{pt,t=1,2,…T-N}进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到部分浊音起始边界{yu,u=1,2,…U},其中,门限A1的取值区间为[0.1,0.3],yu+1>yu,u=1,2,…U-1,其中,U为得到的部分浊音起始边界的个数,yu为第u个部分浊音起始边界;
S2.3、对特征序列进行归一化,将低于门限A1的值置零后找出它的所有峰值点,得到待确认的浊音起始边界然后经过过零率特征筛选得到补充的浊音起始边界其中L为得到的待确认的浊音起始边界的个数,为第l个待确认的浊音起始边界,R为得到的补充的浊音起始边界的个数,为第r个补充的浊音起始边界;
S2.4、使用部分浊音起始边界{yu,u=1,2,…U}与补充的浊音起始边界根据边界时间间隔限制G1得到初步浊音起始边界{ai,i=1,2,…I},其...
【专利技术属性】
技术研发人员:贺前华,苏健彬,严海康,詹俊瑶,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。