地名语音信号的特征提取方法技术

技术编号:15507835 阅读:78 留言:0更新日期:2017-06-04 02:21
本发明专利技术揭示的地名语音信号的特征提取方法,对地名语音信号进行分帧及加窗处理;对加窗之后的数据进行快速傅里叶变换得到各帧的频谱,并对地名语音信号的频谱取模平方得到其功率谱;取每帧数据的前128个数据通过经过设计的Mel三角滤波器组,对Mel三角滤波器组的输出作对数运算;将对数运算得到的数据进行离散余弦变换,得到13维的向量;在获得地名语音信号的N帧之后,获得N×13的特征矩阵C,使用一阶差分倒谱参数进行差分;按照上步中的方法对一阶差分矩阵继续进行二阶差分,并将N×13的特征矩阵C、一阶差分得到的矩阵以及二阶差分得到的矩阵合成N×39的地名语音信号的特征矩阵。本发明专利技术能适应不同的口音,提高特征提取准确性。

Feature extraction method of place names speech signals

Feature extraction of speech signal names are disclosed, the names sound signal into frames and window; the windowing of the data obtained by fast Fourier transform spectrum of each frame, and the spectrum of the speech signal names modulo square to obtain the power spectrum; the first 128 data from each frame data through the Mel triangle filters design, logarithmic operations on the output of Mel triangle filters; the logarithmic data obtained by discrete cosine transform, the 13 dimension vector; after the N frame to get the names of speech signal, N * 13 feature matrix C, using first-order differential cepstrum parameters difference; first order difference matrix to two order difference method according to step in, and the characteristic matrix of N * 13 C, one order difference matrix are obtained and two order differential matrix synthesis of N Characteristic matrix of voice signals of * 39 place names. The invention can adapt to different accents and improve the accuracy of feature extraction.

【技术实现步骤摘要】
地名语音信号的特征提取方法
本专利技术涉及地名语音信号的特征提取方法,尤其涉及一种地名语音信号的特征提取方法。
技术介绍
随着经济的高速发展和全球化趋势的日益突出,现代物流行业已在发达国家得到了空前的发展,并产生了巨大的经济效益和社会效益,物流资源有运输、仓储、分拣、包装、配送等,这些资源分散在多个领域,包括制造业、农业、流通业等。在分拣环节中,现阶段基本是人工进行分拣,由于工人们长期处于嘈杂的工作环境中,心里和身体上势必会产生一定的疲劳感,并且工作任务的单一性和重复性也会使他们的工作状态过于放松,这必然导致分拣精确性的下降,造成较多不可挽回的分拣失误事故发生,工业领域中对流水线上的产品分拣进行人工检测的方式已不能满足现代化工业的需求。语音识别发展到现在,作为人机交互的重要借口已经在很多方面改变了我们的生活,从智能家居的语音控制系统到车载语音识别系统,语音识别系统给我们带来了很多方便,因此将语音识别技术与物流分拣环节的融合是物流行业发展的必然要求。而在语音识别技术中,语音特征提取技术是语音识别中极为重要的环节,其效果的好坏直接影响最终的识别结果,由于将语音识别应用在物流分拣中,主要是对孤立词的地名语音信号进行特征提取,因此要研究出能够代表地名语音信号的特征,并且传统的语音特征提取方法应用于地名语音信号时,特征提取准确率无法保证,同时不能有效适应不同的口音,影响物流分拣的准确性。
技术实现思路
本专利技术的目的就是为了解决现有技术中存在的上述问题,提供一种地名语音信号的特征提取方法。本专利技术的目的将通过以下技术方案得以实现:地名语音信号的特征提取方法,包括如下过程:S1,对经过端点检测得到的地名语音信号进行分帧,并对每一帧进行加窗处理;S2,对每一帧加窗之后的数据进行快速傅里叶变换得到各帧的频谱,并对地名语音信号的频谱取模平方得到其功率谱;S3,取每帧数据的前128个数据通过Mel三角滤波器组,所述Mel三角滤波器组的设计过程如下:S31,根据公式(1)、最大采样频率fs(max)、三角滤波器的数量k,计算出相邻两个三角滤波器的中心频率的间隔△Mel△Mel=fs(max)/(k+1)(1);S32,根据△Mel算出每个滤波器在梅尔频率范围内中心频率的分布之后,求出每一个三角滤波器的左端点Mel频率、中心点Mel频率和右端点Mel频率,并根据公式(2)将它们转换为实际频率:f=(10fm/2595-1)*700(2)其中fm为Mel频率,f为实际频率;S33,根据公式(3)将每个三角滤波器的实际频率转换成对应的采样点坐标,并计算出每个三角滤波器的起点、中心点和终点的横坐标;X=[f*128/400](3)其中,X为实际频率对应的坐标,f为实际频率,取值范围在1-4000HZ之间,中括号表示取整;S34,根据公式(4)设计得到Mel三角滤波器组,其中,Hl(k)表示第l个三角滤波器在位置k的值,k指的是采样点位置,范围是0-128,l表示第l个三角滤波器,c(l-1)表示第l个三角滤波器的起点的横坐标,c(l)表示第l个三角滤波器的中心点的横坐标,c(l+1)表示第l个三角滤波器的终点的横坐标;S4,根据公式(5)对Mel三角滤波器组的输出作对数运算;其中,s(m)指的是能量谱通过一组滤波器的输出,N为一帧信号的采样点个数的一半,Xa(k)表示第a帧信号的第k个采样点,Hm(k)表示第m个三角滤波器的第k个值,M为三角滤波器的个数,m指的是第m个滤波器;S5,将对数运算得到的数据根据公式(6)进行离散余弦变换,得到13维的向量,即MFCC系数;其中,L指MFCC系数的阶数,此处为13,N为一帧信号的采样点个数的一半,M为三角滤波器的个数,m指的是第m个滤波器;S6,在获得地名语音信号的N帧之后,获得N×13的特征矩阵C,将其的第一行向前扩充三行,内容和第一行保持一样,最后一行向后扩充三行,内容和最后一行保持一样,得到(N+6)×13的特征矩阵,按照公式(7)进行差分,得到N×13的矩阵C'(n);C'(n)={3C(n+3,:)+2C(n+2,:)+C(n+1,:)-C(n-1)-2C(n-2)-3C(n-3)4≤n≤N+3(7)S7,按照S6步骤中的方法对S6步骤得到的一阶差分矩阵继续进行二阶差分求取,并将N×13的特征矩阵C、一阶差分得到的矩阵以及二阶差分得到的矩阵三个矩阵合成N×39的特征矩阵,即得到地名语音信号的特征矩阵。优选的,所述的地名语音信号的特征提取方法,其中:S1步骤中加窗处理采用的是公式(8)中的汉明窗,其中参数a取0.46,汉明窗长度为256;优选的,所述的地名语音信号的特征提取方法,其中:所述S31步骤中,采样频率fs=8000HZ,最大采样频率fs(max)=fs/2=4000HZ。优选的,所述的地名语音信号的特征提取方法,其中:所述三角滤波器的个数为24。优选的,所述的地名语音信号的特征提取方法,其中:每个所述三角滤波器的长度为128。本专利技术技术方案的优点主要体现在:本专利技术设计精巧,过程合理,通过选择MFCC特征参数能够有效的代表地名语音信号的特征,并且通过对三角滤波器组的设计,能够最大程度的降低运算量并为得到准确的特征参数提供保障,同时,在传统的MFCC特征参数提取方法的基础上再加入能量参数,不仅使其能更好的体现语音特征,采用倒谱均值归一化技术,使得本方法能适应不同的口音,进一步提高特征提取的准确性。附图说明图1是本专利技术的过程示意图;图2是三角滤波器的坐标示意图;图3是本专利技术的三角滤波器组的示意图。具体实施方式本专利技术的目的、优点和特点,将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本专利技术技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本专利技术要求保护的范围之内。本专利技术揭示地名语音信号的特征提取方法,主要是在获得经过端点检测得到准确的地名语音信号后,经过分帧、加窗处理,再通过对每一帧的处理得到相应的特征向量,一帧地名语音信号的所有特征向量构成这帧信号的特征矩阵,将N帧地名语音信号进一步处理、组合成地名语音信号的特征矩阵,如附图1所示,其包括如下过程:S1,对经过端点检测得到的地名语音信号进行分帧,目前绝大多数的地名语音信号处理技术均是在短时的基础上对地名语音信号进行分帧处理,然后分别对每一帧提取特征参数段,为了使帧与帧之间平滑,保持连续性,一般采用交叠分帧的方法,使前一帧和后一帧具有相交部分,相交部分称为帧移,分帧时要对帧长和帧移的长度进行选择,如果采用较大的帧长,则帧数太少,计算量会小,系统处理的速度快,但容易增加端点检测的误差,如果采用较小的帧长,则帧数较多,计算量增加,系统处理的速度慢。一般每秒的帧数约为33~100帧,帧移一般取帧长的1/3~2/3,本实施例中,按照帧长256,帧移128对地名语音信号进行分帧。分帧后,对每一帧进行加窗处理;此处加窗处理采用的是公式(8)中的汉明窗,其中参数a取0.46,汉明窗长度为256,这是因为本方法中的帧长为256,帧移为128,所以相邻两帧重叠1/2,将每帧信号通过汉明窗后,可以增加左右两端的连续性;S2,对每一帧加窗之后的数据进行快速傅里叶变换得到各帧的频谱,并对地名语音信号的频谱取模平本文档来自技高网...
地名语音信号的特征提取方法

【技术保护点】
地名语音信号的特征提取方法,其特征在于:包括如下过程:S1,对经过端点检测得到的地名语音信号进行分帧,并对每一帧进行加窗处理;S2,对每一帧加窗之后的数据进行快速傅里叶变换得到各帧的频谱,并对地名语音信号的频谱取模平方得到其功率谱;S3,取每帧数据的前128个数据通过Mel三角滤波器组,所述Mel三角滤波器组的设计过程如下:S31,根据公式(1)、最大采样频率f

【技术特征摘要】
1.地名语音信号的特征提取方法,其特征在于:包括如下过程:S1,对经过端点检测得到的地名语音信号进行分帧,并对每一帧进行加窗处理;S2,对每一帧加窗之后的数据进行快速傅里叶变换得到各帧的频谱,并对地名语音信号的频谱取模平方得到其功率谱;S3,取每帧数据的前128个数据通过Mel三角滤波器组,所述Mel三角滤波器组的设计过程如下:S31,根据公式(1)、最大采样频率fs(max)、三角滤波器的数量k,计算出相邻两个三角滤波器的中心频率的间隔△Mel△Mel=fs(max)/(k+1)(1);S32,根据△Mel算出每个滤波器在梅尔频率范围内中心频率的分布之后,求出每一个三角滤波器的左端点Mel频率、中心点Mel频率和右端点Mel频率,并根据公式(2)将它们转换为实际频率:f=(10fm/2595-1)*700(2)其中fm为Mel频率,f为实际频率;S33,根据公式(3)将每个三角滤波器的实际频率转换成对应的采样点坐标,并计算出每个三角滤波器的起点、中心点和终点的横坐标;X=[f*128/400](3)其中,X为实际频率对应的坐标,f为实际频率,取值范围在1-4000HZ之间,中括号表示取整;S34,根据公式(4)设计得到Mel三角滤波器组,其中,Hl(k)表示第l个三角滤波器在位置k的值,k指的是采样点位置,范围是0-128,l表示第l个三角滤波器,c(l-1)表示第l个三角滤波器的起点的横坐标,c(l)表示第l个三角滤波器的中心点的横坐标,c(l+1)表示第l个三角滤波器的终点的横坐标;S4,根据公式(5)对Mel三角滤波器组的输出作对数运算;其中,s(m)指的是能量谱通过一组滤波器的输出,N为一帧信号的采样点个数的一半,Xa(k)表示第a帧信号的第k个采样点,Hm(k)表示第m个三角...

【专利技术属性】
技术研发人员:蔡熙聂腾云赖雪军谢巍车松勋
申请(专利权)人:苏州金峰物流设备有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1