一种用于语音特征的提取方法和系统技术方案

技术编号:22566740 阅读:41 留言:0更新日期:2019-11-16 12:45
本发明专利技术给出了一种用于语音特征的提取方法和系统,包括响应于检测到语音信号的时域信号,提取语音信号的语音特征,其中,语音特征包括MFCC系数和LPC系数;基于神经网络的全连接层,对MFCC系数和LPC系数进行线性变换和非线性激活,获取MFCC系数和LPC系数的全连接层输出;基于MFCC系数和LPC系数的全连接层输出,利用均值计算获取语音信号的融合特征。本发明专利技术主要应用于神经网络模型,能够十分有效的提高基于神经网络的语音活动检测模型的准确率,以满足实际场景的应用。

A method and system for speech feature extraction

The invention provides an extraction method and system for speech features, including extracting speech features of speech signals in response to the time-domain signals of detected speech signals, wherein speech features include MFCC coefficients and LPC coefficients; based on the full connection layer of neural network, linear transformation and nonlinear activation of MFCC coefficients and LPC coefficients are carried out to obtain the full connection of MFCC coefficients and LPC coefficients Based on MFCC coefficient and LPC coefficient, the fusion features of speech signals are obtained by means of mean calculation. The invention is mainly applied to the neural network model, which can effectively improve the accuracy of the voice activity detection model based on the neural network, so as to meet the application of the actual scene.

【技术实现步骤摘要】
一种用于语音特征的提取方法和系统
本专利技术涉及语音信号领域,尤其是一种用于语音特征的提取方法和系统。
技术介绍
随着深度学习神经网络技术的发展,越来越多的基于神经网络的语音活动检测模型被应用,而对于神经网络来说,良好的特征提取方法能够帮助神经网络更好的学习和区分语音和非语音帧。常用的特征提取方法主要有基于能量、基于谐波、基于长时信息和基于倒谱,这些方法在平稳的语音段中通常能够取得较高的识别率。但对于实时通信场景,语音常常伴随非平稳的噪声出现,并且信噪比时好时坏,这使得基于神经网络的语音活动检测模型的准确率大大降低。公开号为CN107393553A的中国专利公开了一种用于语音活动检测的听觉特征提取方法,利用语音时域信号计算先验信噪比和后验信噪比并用先验信噪比和后验信噪比计算听觉特征的特征提取方法,该方案具有三个维度的特征,第一维度特征为V(1)先验信噪比,第二维度为V(2)后验信噪比,第三维度为V(3)听觉特征;首先通过已知无语音段的噪音功率谱密度,观测信号功率谱密度,估计语音频谱计算先验信噪比和后验信噪比,进而计算听觉特征,该方案可在单麦情况下有效提取远场听觉特征。该方案初始条件限制较大,需提供一段时间的无语音段,这对于实际复杂场景下的应用十分不利,并且先验概率的估计的准确度十分影响后续特征的效果,应用范围十分局限。公开号为CN101515454B的中国专利公开了一种用于语音、音乐、噪音自动分类的信号特征提取方法,基于分形度量提出了三种提取特征的方法,特征提取方法一,根据分形布朗运动模型进行特征提取;特征提取方法二,根据分形理论中计算毯子覆盖维数的原理进行特征提取;特征提取方法三,根据分形理论中个计算广义盒子维数的原理计算特征提取,通常将三种特征串联组合起来一起使用效果最佳,该方案对于单独的语音、音乐、噪音和助听器自噪音均有较高的识别率。该方案的主要缺点在于其对于各类信号的纯净度要求较高,一旦多种语音混合产生多种信噪比的信号,则十分不利于该方案所提出的特征提取方法,应用范围十分局限。
技术实现思路
本专利技术提出了一种用于语音特征的提取方法和系统。在一个方面,本专利技术提出了一种用于会议系统的混音方法,包括以下步骤:S1:响应于检测到语音信号的时域信号,提取语音信号的语音特征,其中,语音特征包括MFCC系数和LPC系数;S2:利用两个神经网络的全连接层,分别与MFCC系数和LPC系数连接并进行线性变换和非线性激活,获取MFCC系数和LPC系数对应的全连接层输出;S3:基于MFCC系数和LPC系数的全连接层输出,利用均值计算获取语音信号的融合特征。在具体的实施例中,步骤S1中MFCC系数的提取步骤包括:响应于检测到语音信号的时域信号,将语音信号进行预加重、分帧和加窗处理;基于傅里叶变换,计算各帧语音信号的频谱,并对语音信号的频谱取模平方获取语音信号的能量谱;响应于能量谱通过Mel滤波器,计算每个Mel滤波器的对数能量,最终利用离散余弦变换计算MFCC系数C(n),其中,En(m)表示Mel滤波器的对数能量,n表示MFCC系数的阶数,M是Mel滤波器的个数。在具体的实施例中,步骤S1中LPC系数的提取步骤包括:响应于检测到语音信号的时域信号,利用P阶差分方程和最小均方误差方程获取关于LPC系数的函数关系式:其中,E为最小均方差,x(n)为真实信号,加权项为预测信号,e(n)为预测误差,a为LPC系数;基于Yule-Wolker方程和Levision-Durbin算法计算获得LPC系数。在优选的实施例中,MFCC系数和LPC系数的维度为13维。在具体的实施例中,步骤S2中的线性变换公式为:flinear(x)=wx+b,其中x为特征向量,w为全连接层的权重,b为全连接层的偏置值,w和b初始值为(0,1)内的随机实数。在优选的实施例中,步骤S2中非线性激活公式为:在优选的实施例中,步骤S3中的融合特征计算公式为:其中ReLUmfcc(l)表示非线性激活后的MFCC系数,ReLUlpc(l)表示非线性激活后的LPC系数。在具体的实施例中,融合特征的维度为16维。根据本专利技术的第二方面,提出了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时上述方法。根据本专利技术的第三方面,提出了一种用于语音特征的提取系统,该系统包括:特征提取模块:配置用于响应于检测到语音信号的时域信号,提取语音信号的语音特征,其中,语音特征包括MFCC系数和LPC系数;全连接层处理模块:配置用于基于全连接层,对MFCC系数和LPC系数进行线性变换和非线性激活,获取MFCC系数和LPC系数的全连接层输出;特征融合模块:配置用于基于MFCC系数和LPC系数的全连接层输出,利用均值计算获取语音信号的融合特征。本专利技术通过获取的语音信号的时域信号,提取13维的MFCC特征和LPC特征,再通过神经网络的全连接层,分别对MFCC和LPC特征进行线性变换和非线性激活,最终利用MFCC和LPC的全连接层的输出,对二者输出采用均值计算的方法进行融合获得16维的融合特征。本专利技术应用了较为先进的神经网络技术,并且对于非平稳噪音和低信噪比下的语音信号均有较高的鲁棒性,能够提高神经网络模型的检测准确率,应用范围较广,特征提取方法效果受环境因素影响较低。附图说明包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本专利技术的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请的一个实施例的用于语音特征的提取方法的流程图;图2是本申请的一个具体的实施例的语音特征的提取方法的流程图;图3是本申请的一个具体的实施例的语音特征提取的神经网络的结构图;图4是本申请的一个具体的实施例的MFCC系数提取的流程图;图5是本申请的一个具体的实施例的LPC系数提取的流程图;图6是本申请的一个实施例的用于语音特征的提取系统的框架图;图7是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。根据本申请的一个实施例的用于会议系统的混音方法,图1示出了根据本申请的实施例的用于会议系统的混音方法的流程图。如图1所示本文档来自技高网
...

【技术保护点】
1.一种用于语音特征的提取方法,其特征在于,包括以下步骤:/nS1:响应于检测到语音信号的时域信号,提取所述语音信号的语音特征,其中,所述语音特征包括MFCC系数和LPC系数;/nS2:利用两个神经网络的全连接层,分别与所述MFCC系数和所述LPC系数连接并进行线性变换和非线性激活,获取所述MFCC系数和所述LPC系数对应的全连接层输出;/nS3:基于所述MFCC系数和所述LPC系数的全连接层输出,利用均值计算获取所述语音信号的融合特征。/n

【技术特征摘要】
1.一种用于语音特征的提取方法,其特征在于,包括以下步骤:
S1:响应于检测到语音信号的时域信号,提取所述语音信号的语音特征,其中,所述语音特征包括MFCC系数和LPC系数;
S2:利用两个神经网络的全连接层,分别与所述MFCC系数和所述LPC系数连接并进行线性变换和非线性激活,获取所述MFCC系数和所述LPC系数对应的全连接层输出;
S3:基于所述MFCC系数和所述LPC系数的全连接层输出,利用均值计算获取所述语音信号的融合特征。


2.根据权利要求1所述的用于语音特征的提取方法,其特征在于,所述步骤S1中MFCC系数的提取步骤包括:
响应于检测到语音信号的时域信号,将所述语音信号进行预加重、分帧和加窗处理;
基于傅里叶变换,计算各帧语音信号的频谱,并对所述语音信号的频谱取模平方获取所述语音信号的能量谱;
响应于所述能量谱通过Mel滤波器,计算每个Mel滤波器的对数能量,最终利用离散余弦变换计算MFCC系数C(n),



其中,En(m)表示Mel滤波器的对数能量,n表示所述MFCC系数的阶数,M是Mel滤波器的个数。


3.根据权利要求2所述的用于语音特征的提取方法,其特征在于,所述步骤S1中LPC系数的提取步骤包括:
响应于检测到语音信号的时域信号,利用P阶差分方程和最小均方误差方程获取关于所述LPC系数的函数关系式:其中,E为最小均方差,x(n)为真实信号,加权项为预测信号,e(n)为预测误差,a为LPC系数;
基于Yule-Wolker方程和Levision-Durbin算法计算获得所述LPC系数。


4.根据权利要求3所述的用于语...

【专利技术属性】
技术研发人员:方泽煌康元勋冯万健
申请(专利权)人:厦门亿联网络技术股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1