The invention provides an extraction method and system for speech features, including extracting speech features of speech signals in response to the time-domain signals of detected speech signals, wherein speech features include MFCC coefficients and LPC coefficients; based on the full connection layer of neural network, linear transformation and nonlinear activation of MFCC coefficients and LPC coefficients are carried out to obtain the full connection of MFCC coefficients and LPC coefficients Based on MFCC coefficient and LPC coefficient, the fusion features of speech signals are obtained by means of mean calculation. The invention is mainly applied to the neural network model, which can effectively improve the accuracy of the voice activity detection model based on the neural network, so as to meet the application of the actual scene.
【技术实现步骤摘要】
一种用于语音特征的提取方法和系统
本专利技术涉及语音信号领域,尤其是一种用于语音特征的提取方法和系统。
技术介绍
随着深度学习神经网络技术的发展,越来越多的基于神经网络的语音活动检测模型被应用,而对于神经网络来说,良好的特征提取方法能够帮助神经网络更好的学习和区分语音和非语音帧。常用的特征提取方法主要有基于能量、基于谐波、基于长时信息和基于倒谱,这些方法在平稳的语音段中通常能够取得较高的识别率。但对于实时通信场景,语音常常伴随非平稳的噪声出现,并且信噪比时好时坏,这使得基于神经网络的语音活动检测模型的准确率大大降低。公开号为CN107393553A的中国专利公开了一种用于语音活动检测的听觉特征提取方法,利用语音时域信号计算先验信噪比和后验信噪比并用先验信噪比和后验信噪比计算听觉特征的特征提取方法,该方案具有三个维度的特征,第一维度特征为V(1)先验信噪比,第二维度为V(2)后验信噪比,第三维度为V(3)听觉特征;首先通过已知无语音段的噪音功率谱密度,观测信号功率谱密度,估计语音频谱计算先验信噪比和后验信噪比,进而计算听觉特征,该方案可在单麦情况下有效提取远场听觉特征。该方案初始条件限制较大,需提供一段时间的无语音段,这对于实际复杂场景下的应用十分不利,并且先验概率的估计的准确度十分影响后续特征的效果,应用范围十分局限。公开号为CN101515454B的中国专利公开了一种用于语音、音乐、噪音自动分类的信号特征提取方法,基于分形度量提出了三种提取特征的方法,特征提取方法一,根据分形布朗运动模型进行特征提取 ...
【技术保护点】
1.一种用于语音特征的提取方法,其特征在于,包括以下步骤:/nS1:响应于检测到语音信号的时域信号,提取所述语音信号的语音特征,其中,所述语音特征包括MFCC系数和LPC系数;/nS2:利用两个神经网络的全连接层,分别与所述MFCC系数和所述LPC系数连接并进行线性变换和非线性激活,获取所述MFCC系数和所述LPC系数对应的全连接层输出;/nS3:基于所述MFCC系数和所述LPC系数的全连接层输出,利用均值计算获取所述语音信号的融合特征。/n
【技术特征摘要】
1.一种用于语音特征的提取方法,其特征在于,包括以下步骤:
S1:响应于检测到语音信号的时域信号,提取所述语音信号的语音特征,其中,所述语音特征包括MFCC系数和LPC系数;
S2:利用两个神经网络的全连接层,分别与所述MFCC系数和所述LPC系数连接并进行线性变换和非线性激活,获取所述MFCC系数和所述LPC系数对应的全连接层输出;
S3:基于所述MFCC系数和所述LPC系数的全连接层输出,利用均值计算获取所述语音信号的融合特征。
2.根据权利要求1所述的用于语音特征的提取方法,其特征在于,所述步骤S1中MFCC系数的提取步骤包括:
响应于检测到语音信号的时域信号,将所述语音信号进行预加重、分帧和加窗处理;
基于傅里叶变换,计算各帧语音信号的频谱,并对所述语音信号的频谱取模平方获取所述语音信号的能量谱;
响应于所述能量谱通过Mel滤波器,计算每个Mel滤波器的对数能量,最终利用离散余弦变换计算MFCC系数C(n),
其中,En(m)表示Mel滤波器的对数能量,n表示所述MFCC系数的阶数,M是Mel滤波器的个数。
3.根据权利要求2所述的用于语音特征的提取方法,其特征在于,所述步骤S1中LPC系数的提取步骤包括:
响应于检测到语音信号的时域信号,利用P阶差分方程和最小均方误差方程获取关于所述LPC系数的函数关系式:其中,E为最小均方差,x(n)为真实信号,加权项为预测信号,e(n)为预测误差,a为LPC系数;
基于Yule-Wolker方程和Levision-Durbin算法计算获得所述LPC系数。
4.根据权利要求3所述的用于语...
【专利技术属性】
技术研发人员:方泽煌,康元勋,冯万健,
申请(专利权)人:厦门亿联网络技术股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。