高龄老人不完整语音智能识别方法技术

技术编号：26691794 阅读：55 留言：0更新日期：2020-12-12 02:44

本发明专利技术涉及语音识别技术领域，尤其涉及一种高龄老人不完整语音智能识别方法。一种高龄老人不完整语音智能识别方法，包括如下步骤：步骤S1，语音数据预处理，采集原始语音信号，并对其进行预先处理，具体包括语音信号加窗分帧；语音信号端点检测；采用信号子空间增强算法对语音增强处理；步骤S2，语音特征提取，对提取的特征参数进行融合；步骤S3，建立语音声学模型。本发明专利技术的高龄老人不完整语音智能识别技术能够降低由老年人发声器官老化而引起的声音幅值轻微、受环境噪声影响大的问题，采用声音参数融合的语音特征能够更加逼近高龄老人的语音特点，从而能够获取全面表征老人语音特征的数据，提高了对老人不完整语音以及模糊语音的识别度。

全部详细技术资料下载

【技术实现步骤摘要】
高龄老人不完整语音智能识别方法
本专利技术涉及语音识别
，尤其涉及一种高龄老人不完整语音智能识别方法。
技术介绍
高龄老人由于身体机能的衰退，会导致他们的发声器官老化，同时伴有声音口音较严重、语音比较低沉、辨识较为困难等问题，从而导致护理人员无法清楚准确的了解老人的照护需求。语音识别，即自动语音识别(自动语音识别，ASR)，通俗地说就是将语音转化为文字。语音识别的研究历史可以追溯到60年前，Vintsyuk提出动态时间规整算法(DynamicTimeWarping，DTW)，有效解决了不同时长的语音之间如何比较的问题，成为了当时实现语音识别的主流方法。20世纪70年代，随着计算机性能飞速发展，语音识别技术随之快速发展。普林斯顿大学的LennyBaum提出了著名的隐马尔可夫模型(HiddenMarkovModel，HMM)，这一模型被广泛应用到模式识别领域，同样成为了语音识别的流行算法，是发展进程中的一个极大的突破。80年代提出梅尔倒谱系数(MelFrequencyCepstrumCoeffient，MFCC)极...

【技术保护点】
1.一种高龄老人不完整语音智能识别方法，其特征在于，包括如下步骤：/n步骤S1，语音数据预处理，采集原始语音信号，并对其进行预先处理，其中，具体包括如下步骤，/n步骤S11，语音信号加窗分帧；/n步骤S12，语音信号端点检测；/n步骤S13，采用信号子空间增强算法对语音增强处理；/n步骤S2，语音特征提取，对提取的特征参数进行融合；/n步骤S3，建立语音声学模型。/n

【技术特征摘要】
1.一种高龄老人不完整语音智能识别方法，其特征在于，包括如下步骤：
步骤S1，语音数据预处理，采集原始语音信号，并对其进行预先处理，其中，具体包括如下步骤，
步骤S11，语音信号加窗分帧；
步骤S12，语音信号端点检测；
步骤S13，采用信号子空间增强算法对语音增强处理；
步骤S2，语音特征提取，对提取的特征参数进行融合；
步骤S3，建立语音声学模型。

2.根据权利要求1所述的高龄老人不完整语音智能识别方法，其特征在于，所述步骤S11中，首先使用一个带通滤波器作为抗混叠滤波器，抑制语音信号中频率超过fs/2的混叠分量；
其次，通过分帧操作将语音信号分割成大量极短时间片段，分帧的实现是将原始语音序列x(n)和窗函数w(n)相乘，公式为：
再次，通过加窗处理使得语音信号表现出一些周期性函数的特征；
式中，fs为采样频率，其中为加窗分帧后语音数据，w(n)的长度等于帧长。

3.根据权利要求1所述的高龄老人不完整语音智能识别方法，其特征在于，所述步骤S12中语音信号端点检测采用改进的双门限法对语音信号端点进行检测，具体为将语音信号先经过语音增强，再经过中值滤波的平滑处理，最后进行端点检测。

4.根据权利要求1所述的高龄老人不完整语音智能识别方法，其特征在于，所述信号子空间增强算法如下：
设带噪语音信号为y，纯净语音信号为x，噪音信号为n，其对应的功率谱协方差矩阵分别为Ry、Rx、Rn，则具有以下的关系式：
y＝x+n(1.2)
Ry＝Rx+Rn(1.3)
其中，y＝[y1，y2，...，yk]，x＝[x1，x2，...，xk]，n＝[n1，n2，...，nk]，K为语音信号长度，
Rx＝UΛxUT(1.4)
其中，为特征值降序排列的纯净语音特征值矩阵，其中有Q个非零特征值，K-Q个零特征值；
设噪声方差为则噪音功率谱协方差矩阵为：

若噪声不为白噪声，则需要进行预白化，此时带噪语音信号功率谱协方差矩阵为：

其中为特征值降序排列的带噪语音特征值矩阵，其特征值如下：

从式(1.7)中可以看出，同时包含噪音信号和纯净语音信号的信号子空间维度为Q，只包含噪音信号的噪声子空间维度为K-Q；
设H为K×K的时域线性估计器，带噪语音信号通过H可以分离开信号子空间和噪声子空间，其输出的估计值为：

则估计值与实际值的误差ε为：

其中εx称为语音失真，εn称为残留噪声；εx越大则增强语音失真度越大，语音畸变越大，εn越大增强后残留噪声越大；两者能量为：

得到近似最优滤波器，即求解：

其中0≤α≤1，也就是在保证残留噪音能量在一定范围下使得语音失真能量最小，当α≥1时，取H＝I时为此问题最...

【专利技术属性】
技术研发人员：罗晓君，杨金水，孙瑜，罗湘喜，
申请(专利权)人：江苏慧明智能科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人