一种变帧率的音频特征提取方法技术

技术编号:13080264 阅读:49 留言:0更新日期:2016-03-30 13:26
本发明专利技术提出的一种变帧率的音频特征提取方法,通过将多个已选帧特征向量进行加权融合,得到参考帧特征向量,并分别计算参考帧特征向量与多个候选帧特征向量间的欧氏距离,根据欧氏距离从多个候选帧中选出最能代表该多个候选帧的音频帧进行音频检索。本发明专利技术所述方法避免了已选帧对候选帧的屏蔽效应,有利于提取更有用的音频信息,从而提高音频检索的准确度。

【技术实现步骤摘要】
一种变帧率的音频特征提取方法
本专利技术涉及数字音频处理
,尤其涉及一种变帧率的音频特征提取方法。
技术介绍
随着互联网的蓬勃发展,网络上音频媒体的数据量与日俱增,传统的基于文本标注的音频搜索已经无法满足人们日益增长的使用需求。近年来,随着云计算、大数据的兴起,基于内容的音频检索技术越来越成为国内外学者关注的焦点。音频特征提取是基于内容的音频检索技术的关键,其一般处理过程需要先将音频数据进行分帧处理。分帧过程通常采用交叠分帧的方法以使帧与帧之间保持连续性,划分帧的长度称为帧长,帧与帧之间不相重叠的部分称为帧偏移。目前主要有两种方式进行音频特征提取:固定帧率和变帧率。固定帧率即在分帧过程中帧长和帧偏移都保持不变,此方式不能很好的适应音频频谱的变化特性;变帧率即在分帧过程中采用动态帧偏移进行分帧,能够有效弥补固定帧率不能反映音频频谱变化的缺点。现有的变帧率音频特征提取方法中,都是采用固定帧率和较小帧偏移进行分帧,再计算候选帧与已选帧间的相似度,通过丢帧来达到变帧率的效果。此种方法易导致已选帧对候选帧的屏蔽效应,使分帧过程中丢弃了最能表现音频特性的音频帧,从而丢失音频信息,使检索准确度不高。
技术实现思路
为了克服上述现有技术的不足,本专利技术提出一种变帧率的音频特征提取方法。该方法通过在多个候选帧中选择最能代表音频变化的音频帧,避免已选帧对候选帧的屏蔽效应,从而提高音频特征提取的有效性,进而提高音频检索准确度。为了解决上述技术问题,本专利技术采用的技术方案是:本专利技术提出的一种变帧率的音频特征提取方法,其具体过程如下:步骤a,按照预先设定的帧长和帧偏移,对音频数据进行分帧,获得音频帧,并计算各音频帧特征向量;步骤b,从所述音频帧中顺序选择n个音频帧作为初始已选帧,并将其后的h个音频帧作为候选帧;n和h都是预先设定的自然数;步骤c,根据n个已选帧特征向量,计算所述已选帧的参考帧特征向量其中,vi表示第i个已选帧特征向量,wi表示第i个已选帧的权重;i是已选帧的标号,为正整数;m表示当前共有m个已选帧,且1<n≤m;每个音频帧特征向量以Q维分量表示,第i个已选帧特征向量vi的各维分量分别表示为:其中,k为整数,且1≤k≤Q,故所述参考帧特征向量的第k维分量的计算公式为:其中,表示第i个已选帧特征向量的第k维分量,表示第i个已选帧特征向量第k维分量的权重,的计算公式为:且满足:其中,的计算公式为:步骤d,根据所述参考帧特征向量计算h个候选帧特征向量与参考帧特征向量的欧氏距离dl;欧氏距离dl的计算公式如下:其中l是候选帧的标号,为正整数,且1≤l≤h;步骤e,根据所述h个候选帧特征向量与参考帧特征向量的欧氏距离dl,选择符合条件的候选帧,加入到已选帧中,具体过程如下:步骤e-1,根据所述欧氏距离dl选出其中的最大欧氏距离dmax;步骤e-2,将所述最大欧氏距离dmax与门限值D进行比较,若超过门限值,则将所述最大欧氏距离dmax对应的候选帧加入到已选帧中,并将其后的h个音频帧作为新的候选帧,否则将该所述h个候选帧全部丢弃,继续使用后续的h个音频帧作为候选帧进行选择;重复执行步骤c、步骤d和步骤e,从剩余的音频帧中顺序选择h个音频帧作为候选帧,并从h个候选帧中选择符合条件的候选帧加入到已选帧中,若剩余音频帧数目少于h时,则将实际剩余的音频帧作为候选帧,使用同样的方法从中选择符合条件的候选帧加入到已选帧中,直至剩余音频帧数目为零,将所有已选帧特征向量作为所述音频数据的特征向量。有益效果:本专利技术提出的一种变帧率的音频特征提取方法,通过将多个已选帧特征向量进行加权融合,得到参考帧特征向量,并分别计算参考帧特征向量与多个候选帧特征向量间的欧氏距离,根据欧氏距离从多个候选帧中选出最能代表该多个候选帧的音频帧进行音频检索,避免了已选帧对候选帧的屏蔽效应,有利于提取更有用的音频信息,从而提高音频检索的准确度。附图说明图1为使用加权融合方法进行参考帧特征向量计算示意图;图2为根据参考帧从候选帧中选择符合条件候选帧加入已选帧的流程示意图;图3为一种变帧率的音频特征提取方法执行流程示意图。具体实施方式为了更加详细的描述本专利技术提出的一种变帧率的音频特征提取方法,结合附图,举例说明如下:本专利技术主要包括三个内容:一是对多个已选帧特征向量进行加权融合,得到参考帧特征向量;二是计算参考帧特征向量与多个候选帧特征向量的欧氏距离;三是根据参考帧特征向量与多个候选帧特征向量的欧氏距离选择符合条件的候选帧加入到已选帧中。1.使用加权融合方法计算参考帧:使用加权融合方法进行参考帧特征向量计算示意图如图1所示,当前所有m个已选帧特征向量分别记为v1,v2,v3,...,vm,设定根据最后4个已选帧进行加权融合,该4个已选帧的特征向量分别记为vm-3,vm-2,vm-1,vm。每个音频帧特征向量以Q维分量表示,第i个已选帧的特征向量vi的各维分量表示为:其中,k为整数,且1≤k≤Q;从每个音频帧提取的特征类型包括但不限于音频的时域特征、频域特征或其组合特征,如自相关系数、梅尔倒谱系数等。参考帧特征向量的各维分量通过对该4个已选帧特征向量的各维分量进行加权融合获得,其计算公式为:其中,表示第i个已选帧特征向量的第k维分量,表示参考帧特征向量的第k维分量;表示第i个已选帧特征向量第k维分量的权重;i、k分别表示已选帧的标号和各音频帧特征向量各维分量的标号,i、k都为正整数;m表示当前共有m个已选帧。权重会直接影响参考帧的质量,进而影响对候选帧的选取。本方案中的计算公式为:且权值系数满足:其中表示第i、j个已选帧特征向量的第k维分量与n个已选帧特征向量第k维分量平均值之差的绝对值,的计算公式为:其中,j是已选帧的标号,为正整数。需要说明的是,本实施例以对4个已选帧特征向量进行加权融合计算参考帧特征向量为例,亦可根据实际情况使用其他数目的已选帧特征向量来进行参考帧特征向量的计算。2.计算参考帧特征向量与多个候选帧特征向量的欧氏距离:假定从后续的3个候选帧中进行选择,根据上述获得的参考帧特征向量,计算3个候选帧特征向量与参考帧特征向量的欧氏距离dl,其计算公式为:参考帧特征向量与各候选帧特征向量的欧氏距离用来衡量参考帧与各候选帧的相似程度,其中l是候选帧的标号,为正整数,且1≤l≤3;3.根据参考帧特征向量与该多个候选帧特征向量的欧氏距离dl选择符合条件的候选帧加入到已选帧中:根据欧氏距离dl从候选帧中选择符合条件的候选帧的流程示意图如图2所示。3个候选帧中,欧氏距离最大的候选帧与参考帧最不相似,与参考帧最不相似的候选帧最能反映音频变化。根据欧氏距离从候选帧中选择符合条件的候选帧加入到已选帧中的具体过程为:步骤3-1:从欧氏距离中dl选出最大欧氏距离dmax;步骤3-2:将所述最大欧氏距离dmax与门限值D进行比较,若超过门限值,则将该最大欧氏距离dmax对应的候选帧加入到已选帧中,并将其后的3个音频帧作为新的候选帧,否则将该3帧全部丢弃,继续使用后续的3个音频帧作为候选帧进行选择。从多个候选帧中选出最能代表该多个候选帧的音频帧,并结合预设门限值D,使特征提取过程在音频频谱变化大的地方选出较多的帧,在音频频谱变化平缓的地方选出较少的帧,且能避免已选帧对候选帧本文档来自技高网...

【技术保护点】
一种变帧率的音频特征提取方法,其特征在于,具体过程如下:步骤a,按照预先设定的帧长和帧偏移,对音频数据进行分帧,获得音频帧,并计算各音频帧特征向量;步骤b,从所述音频帧中顺序选择n个音频帧作为初始已选帧,并将其后的h个音频帧作为候选帧;n和h都是预先设定的自然数;步骤c,根据n个已选帧特征向量,计算所述已选帧的参考帧特征向量v~m=Σi=m-n+1mwivi]]>其中,vi表示第i个已选帧特征向量,wi表示第i个已选帧的权重;i是已选帧的标号,为正整数;m表示当前共有m个已选帧,且1<n≤m;每个音频帧特征向量以Q维分量表示,第i个已选帧特征向量vi的各维分量分别表示为:其中,k为整数,且1≤k≤Q,故所述参考帧特征向量的第k维分量的计算公式为:v~mk=Σi=m-n+1mwikvik]]>其中,表示第i个已选帧特征向量的第k维分量,表示第i个已选帧特征向量第k维分量的权重,的计算公式为:wik=1/(σik)2Σj=m-n+1m1/(σjk)2]]>且满足:其中,的计算公式为:σik=|vik-1n&Sigma;j=m-n+1mvjk|]]>步骤d,根据所述参考帧特征向量计算h个候选帧特征向量与参考帧特征向量的欧氏距离dl;欧氏距离dl的计算公式如下:dl=Σk=1Q(v~mk-vlk)2]]>其中l是候选帧的标号,为正整数,且1≤l≤h;步骤e,根据所述h个候选帧特征向量与参考帧特征向量的欧氏距离dl,选择符合条件的候选帧,加入到已选帧中,具体过程如下:步骤e‑1,根据所述欧氏距离dl选出其中的最大欧氏距离dmax;步骤e‑2,将所述最大欧氏距离dmax与门限值D进行比较,若超过门限值,则将所述最大欧氏距离dmax对应的候选帧加入到已选帧中,并将其后的h个音频帧作为新的候选帧,否则将该所述h个候选帧全部丢弃,继续使用后续的h个音频帧作为候选帧进行选择;重复执行步骤c、步骤d和步骤e,从剩余的音频帧中顺序选择h个音频帧作为候选帧,并从h个候选帧中选择符合条件的候选帧加入到已选帧中;若剩余音频帧数目少于h时,则将实际剩余的音频帧作为候选帧,使用同样的方法从中选择符合条件的候选帧加入到已选帧中,直至剩余音频帧数目为零,将所有已选帧特征向量作为所述音频数据的特征向量。...

【技术特征摘要】
1.一种变帧率的音频特征提取方法,其特征在于,具体过程如下:步骤a,按照预先设定的帧长和帧偏移,对音频数据进行分帧,获得音频帧,并计算各音频帧特征向量;步骤b,从所述音频帧中顺序选择n个音频帧作为初始已选帧,并将其后的h个音频帧作为候选帧;n和h都是预先设定的自然数;步骤c,根据n个已选帧特征向量,计算所述已选帧的参考帧特征向量其中,vi表示第i个已选帧特征向量,wi表示第i个已选帧的权重;i是已选帧的标号,为正整数;m表示当前共有m个已选帧,且1<n≤m;每个音频帧特征向量以Q维分量表示,第i个已选帧特征向量vi的各维分量分别表示为:其中,k为整数,且1≤k≤Q,故所述参考帧特征向量的第k维分量的计算公式为:其中,表示第i个已选帧特征向量的第k维分量,表示第i个已选帧特征向量第k维分量的权重,的计算公式为:且满足:公式中j是已选帧的标号,为正整数;其中,的计算公式为:步骤d,根据所述参考帧特征向量计算h个候选帧特征向量与参...

【专利技术属性】
技术研发人员:张晖刘宝
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1