语音特征提取的处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:23459697 阅读:27 留言:0更新日期:2020-03-03 05:42
本发明专利技术公开了语音特征提取的处理方法、装置、计算机设备和存储介质,其中,语音信号的实数序列,按奇偶分开为偶数序列和奇数序列,将该偶数序列和该奇数序列,分别输入为复数信号的实部和该复数信号的虚部;将该复数信号输入预设快速傅里叶FFT框架模型,对该复数信号进行FFT变换输出该复数信号的信号频谱,其中,该预设FFT框架模型包括一级基2^2模块和二级基2^3模块;将该复数信号的信号频谱输入傅里叶逆变换RFFT单元,获取该语音信号的频谱数据,解决了复杂的FFT结构导致语音识别芯片的运转效率低下,对语音识别的时效性和功耗影响很大的问题,提高了语音识别的实效性和运行效率,降低了语音识别芯片的功耗。

Processing method, device, computer equipment and storage medium of speech feature extraction

【技术实现步骤摘要】
语音特征提取的处理方法、装置、计算机设备和存储介质
本专利技术涉及语音识别领域,具体而言,涉及语音特征提取的处理方法、装置、计算机设备和存储介质。
技术介绍
在语音识别的过程中,语音特征提取是非常重要的一个环节,原始语音数据经过梅尔倒谱系数(Mel-scaleFrequencyCepstralCoefficients,简称为MFCC)的特征提取,其过程包括短时傅里叶变换(shorttimeFouriertransform,简称为STFT)、梅尔滤波(Mel-filter)、取log、离散余弦变换(discretecosinetransform,简称为DCT)等步骤,之后将提取的语音特征编码通过神经网络训练识别其信息内容。在此过程中快速傅里叶变换(fastFouriertransform,简称为FFT),是一种实现傅里叶变换的快速算法,实现FFT的方法多样,通常为基2为底的时域抽取蝶形算法(cooley-turkey算法)。FFT可以使离散傅里叶变换(DiscreteFourierTransform,简称为DFT)的时间复杂度从n^2减小到nlogn。FFT中一个蝶形运算需要一个加法器和一个乘法器,有些地方的运算还涉及到复数的部分,消耗硬件资源、结构复杂,复杂的FFT结构导致语音识别芯片的运转效率低下,对语音识别的时效性和功耗影响很大针对相关技术中,复杂的FFT结构导致语音识别芯片的运转效率低下,对语音识别的时效性和功耗影响很大的问题,目前尚未提出有效的解决方案。
技术实现思路
针对相关技术中,复杂的FFT结构导致语音识别芯片的运转效率低下,对语音识别的时效性和功耗影响很大的问题,本专利技术提供了语音特征提取的处理方法、装置、计算机设备和存储介质,以至少解决上述问题。根据本专利技术的一个方面,提供了一种语音特征提取的处理装置,所述装置包括:抽取模块,用于将语音信号的实数序列,按奇偶分开为偶数序列和奇数序列,将所述偶数序列和所述奇数序列,分别输入为复数信号的实部和所述复数信号的虚部;变换模块,用于将所述复数信号输入预设快速傅里叶FFT框架模型,对所述复数信号进行FFT变换输出所述复数信号的信号频谱,其中,所述预设FFT框架模型包括一级基2^2模块和二级基2^3模块;逆变换模块,用于将所述复数信号的信号频谱输入傅里叶逆变换RFFT单元,获取所述语音信号的频谱数据。在其中一个实施例中,将语音信号的实数序列,按奇偶分开为偶数序列和奇数序列,将所述偶数序列和所述奇数序列,分别输入为复数信号的实部和所述复数信号的虚部包括以下之一:获取到512点语音信号的实数序列,按奇偶分开为偶数序列和奇数序列,将所述偶数序列和所述奇数序列,分别输入256点的复数信号实部和虚部;获取到256点语音信号的实数序列,按奇偶分开为偶数序列和奇数序列,将所述偶数序列和所述奇数序列,分别输入128点的复数信号实部和虚部。在其中一个实施例中,所述装置还包括:提取模块,用于将所述频谱数据输入Mel滤波器,进行倒谱运算,提取所述语音信号的语音包络特征。在其中一个实施例中,所述装置还包括:神经网络识别模块,用于获取所述语音信号的语音包络特征之后,所述语音包络特征进行编码后,输入神经网络训练模型进行语音识别。根据本专利技术的另一个方面,还提供了一种语音特征提取的处理方法,所述方法包括:将语音信号的实数序列,按奇偶分开为偶数序列和奇数序列,将所述偶数序列和所述奇数序列,分别输入为复数信号的实部和所述复数信号的虚部;将所述复数信号输入预设快速傅里叶FFT框架模型,对所述复数信号进行FFT变换输出所述复数信号的信号频谱,其中,所述预设FFT框架模型包括一级基2^2模块和二级基2^3模块;将所述复数信号的信号频谱输入傅里叶逆变换RFFT单元,获取所述语音信号的频谱数据。在其中一个实施例中,将语音信号的实数序列,按奇偶分开为偶数序列和奇数序列,将所述偶数序列和所述奇数序列,分别输入为复数信号的实部和所述复数信号的虚部包括以下之一:获取到512点语音信号的实数序列,按奇偶分开为偶数序列和奇数序列,将所述偶数序列和所述奇数序列,分别输入256点的复数信号实部和虚部;获取到256点语音信号的实数序列,按奇偶分开为偶数序列和奇数序列,将所述偶数序列和所述奇数序列,分别输入128点的复数信号实部和虚部。在其中一个实施例中,将所述复数信号的信号频谱输入傅里叶逆变换RFFT单元,获取所述语音信号的频谱数据之后,所述方法包括:将所述频谱数据输入Mel滤波器,进行倒谱运算,提取所述语音信号的语音包络特征。在其中一个实施例中,获取所述语音信号的语音包络特征之后,所述方法包括:所述语音包络特征进行编码后,输入神经网络训练模型进行语音识别。根据本专利技术的另一个方面,还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述方法的步骤。根据本专利技术的另一个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的方法的步骤。通过本专利技术,将语音信号的实数序列,按奇偶分开为偶数序列和奇数序列,将该偶数序列和该奇数序列,分别输入为复数信号的实部和该复数信号的虚部;将该复数信号输入预设快速傅里叶FFT框架模型,对该复数信号进行FFT变换输出该复数信号的信号频谱,其中,该预设FFT框架模型包括一级基2^2模块和二级基2^3模块;将该复数信号的信号频谱输入傅里叶逆变换RFFT单元,获取该语音信号的频谱数据,解决了复杂的FFT结构导致语音识别芯片的运转效率低下,对语音识别的时效性和功耗影响很大的问题,提高了语音识别的实效性和运行效率,降低了语音识别芯片的功耗。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种语音特征提取的处理方法的流程图一;图2是根据本专利技术实施例的FFT框架模型的级联架构示意图;图3是根据本专利技术实施例的Radix22模块单元的示意图;图4是根据本专利技术实施例的蝶形运算单元的示意图;图5是根据本专利技术实施例Radix23算法单元结构的示意图;图6是根据本专利技术实施例的一种语音特征提取的处理方法的流程图二;图7是根据本专利技术实施例的种语音特征提取的处理装置的结构框图。具体实施方式下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。在本专利技术的实施例中,提供了一种语音特征提取的处理方法,图1是根据本专利技术实施例的一种语音特征提取的处理方法的流程图一,如图1所示,该方法包括如下步骤:步骤S102,将语音信本文档来自技高网...

【技术保护点】
1.一种语音特征提取的处理装置,其特征在于,所述装置包括:/n抽取模块,用于将语音信号的实数序列,按奇偶分开为偶数序列和奇数序列,将所述偶数序列和所述奇数序列,分别输入为复数信号的实部和所述复数信号的虚部;/n变换模块,用于将所述复数信号输入预设快速傅里叶FFT框架模型,对所述复数信号进行FFT变换输出所述复数信号的信号频谱,其中,所述预设FFT框架模型包括一级基2^2模块和二级基2^3模块;/n逆变换模块,用于将所述复数信号的信号频谱输入傅里叶逆变换RFFT单元,获取所述语音信号的频谱数据。/n

【技术特征摘要】
1.一种语音特征提取的处理装置,其特征在于,所述装置包括:
抽取模块,用于将语音信号的实数序列,按奇偶分开为偶数序列和奇数序列,将所述偶数序列和所述奇数序列,分别输入为复数信号的实部和所述复数信号的虚部;
变换模块,用于将所述复数信号输入预设快速傅里叶FFT框架模型,对所述复数信号进行FFT变换输出所述复数信号的信号频谱,其中,所述预设FFT框架模型包括一级基2^2模块和二级基2^3模块;
逆变换模块,用于将所述复数信号的信号频谱输入傅里叶逆变换RFFT单元,获取所述语音信号的频谱数据。


2.根据权利要求1所述装置,其特征在于,将语音信号的实数序列,按奇偶分开为偶数序列和奇数序列,将所述偶数序列和所述奇数序列,分别输入为复数信号的实部和所述复数信号的虚部包括以下之一:
获取到512点语音信号的实数序列,按奇偶分开为偶数序列和奇数序列,将所述偶数序列和所述奇数序列,分别输入256点的复数信号实部和虚部;
获取到256点语音信号的实数序列,按奇偶分开为偶数序列和奇数序列,将所述偶数序列和所述奇数序列,分别输入128点的复数信号实部和虚部。


3.根据权利要求1所述装置,其特征在于,所述装置还包括:
提取模块,用于将所述频谱数据输入Mel滤波器,进行倒谱运算,提取所述语音信号的语音包络特征。


4.根据权利要求3所述装置,其特征在于,所述装置还包括:
神经网络识别模块,用于获取所述语音信号的语音包络特征之后,所述语音包络特征进行编码后,输入神经网络训练模型进行语音识别。


5.一种语音特征提取的处理方法,其特征在于,所述方法包括:
将语音信号的实数序列,按奇偶分开为偶数序列和奇数序列,将所述偶数序列和所述奇数序列,分别输...

【专利技术属性】
技术研发人员:曹堉棋彭博傅金泉顾渝骢高婧洁曹书红
申请(专利权)人:杭州智芯科微电子科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1