【技术实现步骤摘要】
一种基于声门波信息的语音识别方法
本专利技术涉及语音识别领域,具体涉及一张基于声门波信息的语音识别方法。
技术介绍
语音识别技术一般可分解为信号预处理、特征提取和分类识别等阶段。语音识别技术所提取的特征类别可根据其原理分为:以基音频率、信号幅值为基础的测量扰动类、频谱倒谱计算获取的倒谱类、非线性动力学分析计算的非线性类以及逆滤波算法估计的声门类等。其中扰动类特征与非线性特征受制于基音频率的估计精确度,其表现不如倒谱类特征,声门类特征多作为补充性特征使用,在语音识别中的价值未得到充分开发。动态图像专家组标准MPEG-7特征在说话人识别,情感语音分析上均取得优异的表现,但这些方案仅使用了其低阶描述符,不可避免的存在帧间重复的过拟合问题。语音信号的发声过程可以被分解为:声门激励→声道谐振→口唇辐射→原始语音信号。大多数技术方案对语音识别性能提升的考虑仅局限于何种特征的表现更佳,何种分类算法的性能更优,这些方案以原始语音信号作为其源信号进行分析、特征提取,未能消除口唇辐射、声道谐振的影响,难以突出声带振动产生的声门激励在发声 ...
【技术保护点】
1.一种基于声门波信息的语音识别方法,包括源信号预处理、特征提取和分类识别三个步骤,其特征在于,所述源信号预处理提取原始语音信号的声门波信号作为特征提取的源信号;所述特征提取采用动态图像专家组标准MPEG-7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为声门波信号识别的特征集;所述分类识别基于随机森林分类器采用十倍交叉验证方法进行语音识别的预测分类。/n
【技术特征摘要】
1.一种基于声门波信息的语音识别方法,包括源信号预处理、特征提取和分类识别三个步骤,其特征在于,所述源信号预处理提取原始语音信号的声门波信号作为特征提取的源信号;所述特征提取采用动态图像专家组标准MPEG-7提取音频高阶统计量特征与openSMILE特征和经典声门特征相结合作为声门波信号识别的特征集;所述分类识别基于随机森林分类器采用十倍交叉验证方法进行语音识别的预测分类。
2.如权利要求1所述的基于声门波信息的语音识别方法,其特征在于,所述源信号预处理采用迭代自适应声门逆滤波算法IAIF推导目标语音信号的声门波信号,去除声道谐振、口唇辐射的干扰并突出声门激励在语音识别中的作用,具体包括以下步骤:
步骤1-1:统一语音信号的采样频率,并预加重去除其高频噪声,得到目标信号s(n);
步骤1-2:通过迭代自适应声门逆滤波算法IAIF推导目标语音信号s(n)的声门波信号g(n);
步骤1-3:获取声门波信号g(n)与其导数作为特征提取步骤的源信号,其方程如下:
其中,φ(n)表征声门波时域导数直到声门激励峰值前的部分,tqc表征声带碰撞的瞬间,T表示一个声门波脉冲周期的时间,而表征表示最大激发瞬间后的间隔称为返回相。
φ(n)可由下式获取:
其中,Ad表示声门波时域导数的幅值,tmax表示最大气流出现的瞬间,而α为生成系数,可由连续状态方程计算获取:
3.如权利要求2所述的基于声门波信息的语音识别方法,其特征在于,所述迭代自适应声门逆滤波算法IAIF包括两次迭代;第一次迭代采用一阶线性预测分析LPA计算声门波的激励模型,并将声门波的影响随激励模型通过逆滤波被去除,采用高阶线性预测分析LPA计算声道谐振的第一次预测模型,将声道谐振的影响随第一次预测模型通过逆滤波被去除,再去除口唇辐射的影响,得到第一次迭代获取的声门波模型;将声门波模型的时域信号作为第二次迭代的初始信号,重复第一次迭代的方法,去除声门波的影响、声道谐振的影响以及口唇辐射的影响得到声门波信号g(n)。
4.如权利要求1所述的基于声门波信息的语音识别方法,其特征在于,所述特征提取包括openSMILE特征提取...
【专利技术属性】
技术研发人员:陶智,伍远博,孙宝印,张晓俊,周长伟,范子琦,
申请(专利权)人:苏州大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。