高龄老人不完整语音智能识别方法技术

技术编号:26691794 阅读:38 留言:0更新日期:2020-12-12 02:44
本发明专利技术涉及语音识别技术领域,尤其涉及一种高龄老人不完整语音智能识别方法。一种高龄老人不完整语音智能识别方法,包括如下步骤:步骤S1,语音数据预处理,采集原始语音信号,并对其进行预先处理,具体包括语音信号加窗分帧;语音信号端点检测;采用信号子空间增强算法对语音增强处理;步骤S2,语音特征提取,对提取的特征参数进行融合;步骤S3,建立语音声学模型。本发明专利技术的高龄老人不完整语音智能识别技术能够降低由老年人发声器官老化而引起的声音幅值轻微、受环境噪声影响大的问题,采用声音参数融合的语音特征能够更加逼近高龄老人的语音特点,从而能够获取全面表征老人语音特征的数据,提高了对老人不完整语音以及模糊语音的识别度。

【技术实现步骤摘要】
高龄老人不完整语音智能识别方法
本专利技术涉及语音识别
,尤其涉及一种高龄老人不完整语音智能识别方法。
技术介绍
高龄老人由于身体机能的衰退,会导致他们的发声器官老化,同时伴有声音口音较严重、语音比较低沉、辨识较为困难等问题,从而导致护理人员无法清楚准确的了解老人的照护需求。语音识别,即自动语音识别(自动语音识别,ASR),通俗地说就是将语音转化为文字。语音识别的研究历史可以追溯到60年前,Vintsyuk提出动态时间规整算法(DynamicTimeWarping,DTW),有效解决了不同时长的语音之间如何比较的问题,成为了当时实现语音识别的主流方法。20世纪70年代,随着计算机性能飞速发展,语音识别技术随之快速发展。普林斯顿大学的LennyBaum提出了著名的隐马尔可夫模型(HiddenMarkovModel,HMM),这一模型被广泛应用到模式识别领域,同样成为了语音识别的流行算法,是发展进程中的一个极大的突破。80年代提出梅尔倒谱系数(MelFrequencyCepstrumCoeffient,MFCC)极大的改善了语音特征表达。90年代提出单状态隐马尔可夫模型,也就是高斯混合模型(GaussianMixtureModel,GMM),利用高斯分布加权可以拟合任意概率密度曲线的优势,用于和HMM相结合,有效提高了识别精准度。在21世纪之后,人工智能、深度学习兴起,也深深影响到了语音识别技术的发展。神经网络中的深度神经网络(DeepNeuralNetwork,DNN)、卷积神经网络(ConvolutionNeuralNetwork,CNN)、循环神经网络(RecurrentNeuralNetwork,RNN)等模型均被运用到语音识别之中。Hiton利用深度置信网络(Deep,BeliefNetwork,DBN)和DNN对小型词汇量连续语音识别建模获得成功。DagKittlaus和AdamCheyer建立Siri.Inc,提出了基于上下文相关的DNN-HMM模型(CD-DNN-HMM),在深度学习结合语音识别技术的研究得到重大突破。代表性的公司科大讯飞,提出前馈型序列记忆网络(Feed-forwardSequential在语音识别技术中,语音特征的获取尤为重要,老年人由于发声器官老化,导致声音口音较严、语音比较低沉平稳、辨识较为困难等问题,此时传统的语音特征模型不能够全面的表征此类老人语音特征。因此本专利技术针对老年人这一特定群体的语音发声特点,提出了一种高龄老人不完整语音智能识别技术,在以传统的MFCC参数为主要特征的同时进行一定改良,结合翻转MFCC系数和Fisher准则提出改良后的OMFCC特征参数,并结合其他语音特征参数组成新的特征向量,以全面表征老人群体的语音数据特征。
技术实现思路
本专利技术的目的是提出一种高龄老人不完整语音智能识别方法,该方法对老人的不完整语音、模糊语音进行智能识别,从而获取老人当前的照顾护理需求。实现适用于高龄老人眼动机器视觉跟踪。基于该目的,本专利技术采用的技术方案如下:一种高龄老人不完整语音智能识别方法,其特征在于,包括如下步骤:步骤S1,语音数据预处理,采集原始语音信号,并对其进行预先处理,其中,具体包括如下步骤,步骤S11,语音信号加窗分帧;步骤S12,语音信号端点检测;步骤S13,采用信号子空间增强算法对语音增强处理;步骤S2,语音特征提取,对提取的特征参数进行融合;步骤S3,建立语音声学模型。进一步地,所述步骤S11中,首先使用一个带通滤波器作为抗混叠滤波器,抑制语音信号中频率超过fs/2的混叠分量;其次,通过分帧操作将语音信号分割成大量极短时间片段,分帧的实现是将原始语音序列x(n)和窗函数w(n)相乘,公式为:再次,通过加窗处理使得语音信号表现出一些周期性函数的特征;式中,fs为采样频率,其中为加窗分帧后语音数据,w(n)的长度等于帧长。进一步地,所述步骤S12中语音信号端点检测采用改进的双门限法对语音信号端点进行检测,具体为将语音信号先经过语音增强,再经过中值滤波的平滑处理,最后进行端点检测。进一步地,所述信号子空间增强算法如下:设带噪语音信号为y,纯净语音信号为x,噪音信号为n,其对应的功率谱协方差矩阵分别为Ry、Rx、Rn,则具有以下的关系式:y=x+n(1.2)Ry=Rx+Rn(1.3)其中,y=[y1,y2,...,yk],x=[x1,x2,...,xk],n=[n1,n2,...,nk],K为语音信号长度,Rx=UΛxUT(1.4)其中,为特征值降序排列的纯净语音特征值矩阵,其中有Q个非零特征值,K-Q个零特征值;设噪声方差为则噪音功率谱协方差矩阵为:若噪声不为白噪声,则需要进行预白化,此时带噪语音信号功率谱协方差矩阵为:其中为特征值降序排列的带噪语音特征值矩阵,其特征值如下:从式(1.7)中可以看出,同时包含噪音信号和纯净语音信号的信号子空间维度为Q,只包含噪音信号的噪声子空间维度为K-Q;设H为K×K的时域线性估计器,带噪语音信号通过H可以分离开信号子空间和噪声子空间,其输出的估计值为:则估计值与实际值的误差ε为:其中εx称为语音失真,εn称为残留噪声;εx越大则增强语音失真度越大,语音畸变越大,εn越大增强后残留噪声越大;两者能量为:得到近似最优滤波器,即求解:其中0≤α≤1,也就是在保证残留噪音能量在一定范围下使得语音失真能量最小,当α≥1时,取H=I时为此问题最优解;用拉格朗日乘子算法,满足以下梯度方程:其中μ为拉格朗日算子,再求梯度,得到:Λμ为拉格朗日算子对角矩阵,经过特征值分解得到:将公式(1.16)改写为:公式(1.17)中,G1为Q×Q的满秩对角矩阵,U=[U1:U2],U1∈CK×Q为信号子空间的基向量,U2∈CK×(K-Q)是噪声子空间的基向量;G的对角线元素表示如下:线性滤波器Hopt的性能受到拉格朗日算子μi和噪声方差的影响,其中表示带噪语音的噪声强度,μi则表示了增强后语音失真与残存噪声之间的折中关系;通过联合人耳听觉掩蔽效应,得到拉格朗日算子的改进估计值:带入公式(1.18),得到矩阵G的对角元素由此可以计算得到最佳线性估计器Hopt,带入公式(1.17)中计算增强后语音信号。进一步地,所述步骤S2中采用MFCC进行语音特征参数提取,MFCC与普通频率的关系式如下:进一步地,所述步骤S2中,选择MFCC特征与其一、二阶差分参数组合,MFCC参数的一阶差分di(n)和二阶差分Δdi(n)表达如下:采用翻转梅尔倒谱系数(IMFCC),将传统滤波器组换本文档来自技高网
...

【技术保护点】
1.一种高龄老人不完整语音智能识别方法,其特征在于,包括如下步骤:/n步骤S1,语音数据预处理,采集原始语音信号,并对其进行预先处理,其中,具体包括如下步骤,/n步骤S11,语音信号加窗分帧;/n步骤S12,语音信号端点检测;/n步骤S13,采用信号子空间增强算法对语音增强处理;/n步骤S2,语音特征提取,对提取的特征参数进行融合;/n步骤S3,建立语音声学模型。/n

【技术特征摘要】
1.一种高龄老人不完整语音智能识别方法,其特征在于,包括如下步骤:
步骤S1,语音数据预处理,采集原始语音信号,并对其进行预先处理,其中,具体包括如下步骤,
步骤S11,语音信号加窗分帧;
步骤S12,语音信号端点检测;
步骤S13,采用信号子空间增强算法对语音增强处理;
步骤S2,语音特征提取,对提取的特征参数进行融合;
步骤S3,建立语音声学模型。


2.根据权利要求1所述的高龄老人不完整语音智能识别方法,其特征在于,所述步骤S11中,首先使用一个带通滤波器作为抗混叠滤波器,抑制语音信号中频率超过fs/2的混叠分量;
其次,通过分帧操作将语音信号分割成大量极短时间片段,分帧的实现是将原始语音序列x(n)和窗函数w(n)相乘,公式为:
再次,通过加窗处理使得语音信号表现出一些周期性函数的特征;
式中,fs为采样频率,其中为加窗分帧后语音数据,w(n)的长度等于帧长。


3.根据权利要求1所述的高龄老人不完整语音智能识别方法,其特征在于,所述步骤S12中语音信号端点检测采用改进的双门限法对语音信号端点进行检测,具体为将语音信号先经过语音增强,再经过中值滤波的平滑处理,最后进行端点检测。


4.根据权利要求1所述的高龄老人不完整语音智能识别方法,其特征在于,所述信号子空间增强算法如下:
设带噪语音信号为y,纯净语音信号为x,噪音信号为n,其对应的功率谱协方差矩阵分别为Ry、Rx、Rn,则具有以下的关系式:
y=x+n(1.2)
Ry=Rx+Rn(1.3)
其中,y=[y1,y2,...,yk],x=[x1,x2,...,xk],n=[n1,n2,...,nk],K为语音信号长度,
Rx=UΛxUT(1.4)
其中,为特征值降序排列的纯净语音特征值矩阵,其中有Q个非零特征值,K-Q个零特征值;
设噪声方差为则噪音功率谱协方差矩阵为:



若噪声不为白噪声,则需要进行预白化,此时带噪语音信号功率谱协方差矩阵为:



其中为特征值降序排列的带噪语音特征值矩阵,其特征值如下:



从式(1.7)中可以看出,同时包含噪音信号和纯净语音信号的信号子空间维度为Q,只包含噪音信号的噪声子空间维度为K-Q;
设H为K×K的时域线性估计器,带噪语音信号通过H可以分离开信号子空间和噪声子空间,其输出的估计值为:



则估计值与实际值的误差ε为:



其中εx称为语音失真,εn称为残留噪声;εx越大则增强语音失真度越大,语音畸变越大,εn越大增强后残留噪声越大;两者能量为:






得到近似最优滤波器,即求解:



其中0≤α≤1,也就是在保证残留噪音能量在一定范围下使得语音失真能量最小,当α≥1时,取H=I时为此问题最...

【专利技术属性】
技术研发人员:罗晓君杨金水孙瑜罗湘喜
申请(专利权)人:江苏慧明智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1