一种音频数据的特征提取方法及装置制造方法及图纸

技术编号:12941109 阅读:78 留言:0更新日期:2016-03-01 11:32
本发明专利技术公开了一种音频数据的特征提取方法及装置,用以实现从不同长度的音频数据序列中提取出相同长度的特征向量。方法包括:获得音频数据序列;针对获得的每个音频数据序列执行:将该音频数据序列进行切分,得到多个音频数据子序列;分别提取所述多个音频数据子序列中的每个音频数据子序列的指定特征;将提取到的各个音频数据子序列的指定特征进行组合;其中,所述多个音频数据子序列的数量等于预设数量;且所述多个音频数据子序列中的每个音频数据子序列均包含相同的数据总量。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种音频数据的特征提取方法及装置,用以实现从不同长度的音频数据序列中提取出相同长度的特征向量。方法包括:获得音频数据序列;针对获得的每个音频数据序列执行:将该音频数据序列进行切分,得到多个音频数据子序列;分别提取所述多个音频数据子序列中的每个音频数据子序列的指定特征;将提取到的各个音频数据子序列的指定特征进行组合;其中,所述多个音频数据子序列的数量等于预设数量;且所述多个音频数据子序列中的每个音频数据子序列均包含相同的数据总量。【专利说明】一种音频数据的特征提取方法及装置
本专利技术涉及信息处理领域,尤其涉及一种音频数据的特征提取方法及装置。
技术介绍
在音频分类与识别中,提取同一类别音频数据的共性特征非常重要,因为在现有技术中,通常需要依靠这些共性特征来对未知类别的音频数据进行分类识别。 现有技术中采用的音频数据的共性特征的提取方案中,一般都是将时间定长的音频数据序列(即由多个音频数据组成的一个序列)进行分帧短时处理,即将时间定长的音频数据序列切分为多帧音频数据子序列,然后将得到的各帧音频数据子序列进行预处理之后,提取出各巾贞音频数据子序列的美尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)、线性预测美尔倒谱系数(Linear Predictive Mel Frequency Cepstral Coding,LPMFCC)等等。进一步地,再将从各帧音频数据子序列的特征组合起来作为该段音频数据的特征。采用该方式,可以实现根据训练用的各段音频数据序列的特征,对训练用的音频数据序列进行聚类而得到各类音频数据序列的共性特征。 其中需要说明的是,美尔(Mel)是主观音高的单位,而赫兹(Hz)则是客观音高的单位。美尔频率是基于人耳听觉特性提出来的,它与赫兹频率成非线性对应关系。美尔倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。而线性预测倒谱系数(LPMFCC)则是在线性预测系数的基础上,借鉴美尔倒谱系数(MFCC)计算方法,对线性预测系数进行美尔倒谱计算而得到的一种新的特征参数。基于该特征参数对音频数据进行分类有利于提高音频数据分类装置的识别率。 上述共性特征的提取方案在音频数据的分类识别中能够达到较好的效果,但是由于该方案是按照对不同音频数据序列进行切分而得到相同时长的音频数据子序列的切分规则,来对音频数据序列进行切分,从而要求音频数据序列的时长必须是定长,才能将不同的音频数据序列切分为相同帧数的音频数据段。因此,该方案存在一定的缺陷:当音频数据序列的时长大于规定时间长度时,需要对音频数据序列进行切分处理,这样的操作方式会破坏音频数据序列的完整性;而当音频数据序列的时长小于规定时间长度时,则不能采用该方案对该音频数据序列进行处理。造成上述缺陷的原因在于,如果不同音频数据序列的时长不相等,那么,得到的音频数据序列的特征向量的长度也是不相等的,而基于不相等的特征向量,无法实现对音频数据序列的聚类或分类训练。
技术实现思路
本专利技术实施例提供一种音频数据的特征提取方法,用以解决现有技术无法实现从不同长度的音频数据序列中提取出相同长度的特征向量的问题。 本专利技术实施例采用以下技术方案: 一种音频数据的特征提取方法,包括:获得音频数据序列;针对获得的每个音频数据序列执行:将该音频数据序列进行切分,得到多个音频数据子序列;分别提取所述多个音频数据子序列中的每个音频数据子序列的指定特征;将提取到的各个音频数据子序列的指定特征进行组合;其中,所述多个音频数据子序列的数量等于预设数量;且所述多个音频数据子序列中的每个音频数据子序列均包含相同的数据总量。 一种音频数据的特征提取装置,包括:获得单元,用于获得音频数据序列; 特征提取单元,用于针对获得单元获得的每个音频数据序列执行:将该音频数据序列进行切分,得到多个音频数据子序列;分别提取所述多个音频数据子序列中的每个音频数据子序列的指定特征;将提取到的各个音频数据子序列的指定特征进行组合;其中,所述多个音频数据子序列的数量等于预设数量;且所述多个音频数据子序列中的每个音频数据子序列均包含相同的数据总量。 本专利技术实施例的有益效果如下: 通过本专利技术实施例提供的技术方案,由于将音频数据切分成固定帧数的音频数据子序列,可以保证从每个音频数据子序列中分别提取的指定特征组合起来得到的特征的长度也是固定的,从而解决现有技术中无法实现从不同长度的音频数据中提取出相同长度的特征向量的问题。采用本专利技术实施例提供的该方案,可以实现在对音频数据序列样本进行训练时,更有效地利用更多的音频数据序列样本。 【专利附图】【附图说明】 图1为本专利技术实施例提供的音频数据的特征提取方法的流程图; 图2为本专利技术实施例提供的音频数据的特征提取方法的具体应用流程图; 图3为本专利技术实施例提供的音频数据的特征提取装置的具体结构示意图。 【具体实施方式】 专利技术人通过对现有技术的分析研究,发现现有技术中采用的音频数据共性特征的提取方法存在着一个共同的缺陷,即要求音频数据序列的时长必须是定长,才能将不同的音频数据序列切分为相同帧数的音频数据段,进而保证从各音频数据序列中提取出相等长度的特征向量。为了解决该问题,本专利技术实施例提供了一种针对不同时长的音频数据的共性特征的提取方法,在该方法中,专利技术人将各个音频数据序列切分成固定帧数的音频数据子序列,可以保证从每个音频数据子序列中分别提取的指定特征组合起来得到的特征的长度也是固定的,从而解决了现有技术中无法实现从不同长度的音频数据中提取出相同长度的特征向量的问题。 以下结合说明书附图对本专利技术的实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本专利技术,并不用于限制本专利技术。并且在不冲突的情况下,本说明中的实施例及实施例中的特征可以互相结合。 首先,本专利技术实施例提供一种音频数据的特征提取方法,该方法的具体流程示意图如图1所示,包括以下步骤。需要说明的是,以下步骤仅以获得的任意音频数据序列为例,说明如何从该音频数据序列中提取特征。本领域技术人员可以理解,对于获得的每个音频数据序列而言,均可以采用下述步骤进行处理,以使得分别从获得的每个音频数据序列提取到的特征的长度相同。 步骤11,将获得的音频数据序列进行切分,得到多个音频数据子序列; 本专利技术实施例中,将该音频数据序列进行切分而得到多个音频数据子序列的一种具体的实现方式可以包括下述子步骤: 首先,根据该音频数据序列所包含的数据总量、预设数量以及预设的固定帧重叠百分比,确定音频数据子序列所包含的数据总量; 然后,根据该固定帧重叠百分比以及确定出的音频数据子序列所包含的数据总量,将该音频数据序列进行切分,得到多个音频数据子序列。 在本专利技术的实施例中,音频数据序列一般是通过对实际的音频信号进行采样获得的;预设数量是指预先规定的将该音频数据序列切分而得到的音频数据子序列的个数,该预设数量也称固定的帧数;固定帧重叠百分比表示时间上相邻的两个音频数据子序列共有的音频数据的数量在音频数据子序列所包含的数据总量中的占比。 特别的,上述固定帧重叠百分比可以为O。 可选的,若该音频数本文档来自技高网
...

【技术保护点】
一种音频数据的特征提取方法,其特征在于,包括:获得音频数据序列;针对获得的每个音频数据序列执行:将该音频数据序列进行切分,得到多个音频数据子序列;分别提取所述多个音频数据子序列中的每个音频数据子序列的指定特征;将提取到的各个音频数据子序列的指定特征进行组合;其中,所述多个音频数据子序列的数量等于预设数量;且所述多个音频数据子序列中的每个音频数据子序列均包含相同的数据总量。

【技术特征摘要】

【专利技术属性】
技术研发人员:谢志明潘石柱张兴明傅利泉朱江明吴军吴坚
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1