地名语音信号的特征提取方法技术

技术编号：15507835 阅读：78 留言：0更新日期：2017-06-04 02:21

本发明专利技术揭示的地名语音信号的特征提取方法，对地名语音信号进行分帧及加窗处理；对加窗之后的数据进行快速傅里叶变换得到各帧的频谱，并对地名语音信号的频谱取模平方得到其功率谱；取每帧数据的前128个数据通过经过设计的Mel三角滤波器组，对Mel三角滤波器组的输出作对数运算；将对数运算得到的数据进行离散余弦变换，得到13维的向量；在获得地名语音信号的N帧之后，获得N×13的特征矩阵C，使用一阶差分倒谱参数进行差分；按照上步中的方法对一阶差分矩阵继续进行二阶差分，并将N×13的特征矩阵C、一阶差分得到的矩阵以及二阶差分得到的矩阵合成N×39的地名语音信号的特征矩阵。本发明专利技术能适应不同的口音，提高特征提取准确性。

Feature extraction method of place names speech signals

Feature extraction of speech signal names are disclosed, the names sound signal into frames and window; the windowing of the data obtained by fast Fourier transform spectrum of each frame, and the spectrum of the speech signal names modulo square to obtain the power spectrum; the first 128 data from each frame data through the Mel triangle filters design, logarithmic operations on the output of Mel triangle filters; the logarithmic data obtained by discrete cosine transform, the 13 dimension vector; after the N frame to get the names of speech signal, N * 13 feature matrix C, using first-order differential cepstrum parameters difference; first order difference matrix to two order difference method according to step in, and the characteristic matrix of N * 13 C, one order difference matrix are obtained and two order differential matrix synthesis of N Characteristic matrix of voice signals of * 39 place names. The invention can adapt to different accents and improve the accuracy of feature extraction.

全部详细技术资料下载

【技术实现步骤摘要】
地名语音信号的特征提取方法
本专利技术涉及地名语音信号的特征提取方法，尤其涉及一种地名语音信号的特征提取方法。
技术介绍
随着经济的高速发展和全球化趋势的日益突出，现代物流行业已在发达国家得到了空前的发展，并产生了巨大的经济效益和社会效益，物流资源有运输、仓储、分拣、包装、配送等，这些资源分散在多个领域，包括制造业、农业、流通业等。在分拣环节中，现阶段基本是人工进行分拣，由于工人们长期处于嘈杂的工作环境中，心里和身体上势必会产生一定的疲劳感，并且工作任务的单一性和重复性也会使他们的工作状态过于放松，这必然导致分拣精确性的下降，造成较多不可挽回的分拣失误事故发生，工业领域中对流水线上的产品分拣进行人工检测的方式已不能满足现代化工业的需求。语音识别发展到现在，作为人机交互的重要借口已经在很多方面改变了我们的生活，从智能家居的语音控制系统到车载语音识别系统，语音识别系统给我们带来了很多方便，因此将语音识别技术与物流分拣环节的融合是物流行业发展的必然要求。而在语音识别技术中，语音特征提取技术是语音识别中极为重要的环节，其效果的好坏直接影响最终的识别结果，由于将语音识别应用在物流分拣中，主要是对孤立词的地名语音信号进行特征提取，因此要研究出能够代表地名语音信号的特征，并且传统的语音特征提取方法应用于地名语音信号时，特征提取准确率无法保证，同时不能有效适应不同的口音，影响物流分拣的准确性。
技术实现思路
本专利技术的目的就是为了解决现有技术中存在的上述问题，提供一种地名语音信号的特征提取方法。本专利技术的目的将通过以下技术方案得以实现：地名语音信号的特征提取方法，包括如下...

【技术保护点】
地名语音信号的特征提取方法，其特征在于：包括如下过程：S1，对经过端点检测得到的地名语音信号进行分帧，并对每一帧进行加窗处理；S2，对每一帧加窗之后的数据进行快速傅里叶变换得到各帧的频谱，并对地名语音信号的频谱取模平方得到其功率谱；S3，取每帧数据的前128个数据通过Mel三角滤波器组，所述Mel三角滤波器组的设计过程如下：S31，根据公式(1)、最大采样频率f

【技术特征摘要】
1.地名语音信号的特征提取方法，其特征在于：包括如下过程：S1，对经过端点检测得到的地名语音信号进行分帧，并对每一帧进行加窗处理；S2，对每一帧加窗之后的数据进行快速傅里叶变换得到各帧的频谱，并对地名语音信号的频谱取模平方得到其功率谱；S3，取每帧数据的前128个数据通过Mel三角滤波器组，所述Mel三角滤波器组的设计过程如下：S31，根据公式(1)、最大采样频率fs(max)、三角滤波器的数量k，计算出相邻两个三角滤波器的中心频率的间隔△Mel△Mel＝fs(max)/(k+1)(1)；S32，根据△Mel算出每个滤波器在梅尔频率范围内中心频率的分布之后，求出每一个三角滤波器的左端点Mel频率、中心点Mel频率和右端点Mel频率，并根据公式(2)将它们转换为实际频率：f＝(10fm/2595-1)*700(2)其中fm为Mel频率，f为实际频率；S33，根据公式(3)将每个三角滤波器的实际频率转换成对应的采样点坐标，并计算出每个三角滤波器的起点、中心点和终点的横坐标；X＝[f*128/400](3)其中,X为实际频率对应的坐标，f为实际频率，取值范围在1-4000HZ之间，中括号表示取整；S34，根据公式(4)设计得到Mel三角滤波器组，其中，Hl(k)表示第l个三角滤波器在位置k的值，k指的是采样点位置，范围是0-128，l表示第l个三角滤波器，c(l-1)表示第l个三角滤波器的起点的横坐标，c(l)表示第l个三角滤波器的中心点的横坐标，c(l+1)表示第l个三角滤波器的终点的横坐标；S4，根据公式(5)对Mel三角滤波器组的输出作对数运算；其中，s(m)指的是能量谱通过一组滤波器的输出，N为一帧信号的采样点个数的一半，Xa(k)表示第a帧信号的第k个采样点，Hm(k)表示第m个三角...

【专利技术属性】
技术研发人员：蔡熙，聂腾云，赖雪军，谢巍，车松勋，
申请(专利权)人：苏州金峰物流设备有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人