一种基于经验模态分解的音频识别方法及系统技术方案

技术编号:13378331 阅读:17 留言:0更新日期:2016-07-21 05:06
本发明专利技术公开一种基于经验模态分解的音频识别方法及系统。其中,方法包括步骤:A、输入原始音频信号,对所述原始音频信号进行采样,然后依次进行去噪预处理、加汉明窗以及傅氏变换处理得到频谱数据,再依次连接每帧的频谱数据,获得声谱图;B、获得所述声谱图各频率段的能量最大值所在点,并依次连接各频率段的能量最大值所在点生成时间‑频率曲线;C、将所述生成的时间‑频率曲线进行经验模态分解,获得多个本征模函数;D、通过获得的多个本征模函数结合相应的频率段以及时间帧,生成用于表征原始音频信号的多个特征值,并输出。本发明专利技术将音频特征的变化趋势信息充分融合到特征值的生成,使生成的特征值更完整的表征音频信号。

【技术实现步骤摘要】

本专利技术涉及音频识别领域,尤其涉及一种基于经验模态分解的音频识别方法及系统。
技术介绍
音频识别是指通过对音频信号进行频谱分析,获得音频信号的频谱,提取音频信号的特征值,构建模型或星座图,进行目标匹配、识别。主要技术包括短时傅氏变换、声谱图特征提取、特征模板生成等。对一段原始音频或语音的具体处理大多经过如下步骤:预加重(Pre-emphasis)去噪、分帧、加窗处理、快速傅里叶转换(FFT)、滤波组处理(Mel-FilterBank)、离散余弦转换DCT(计算倒谱参数)、对数能量、差量倒谱参数(向量形式、逆傅氏变换IFFT)、MFCC(梅尔频率倒谱系数---一帧音频的特征值)等,最终获得一段音频信号的一系列特征值,此系列特征值可充分、完全表征此段音频信号。目前,主流音频信号的匹配识别算法主要是对声谱图(描述了特定频率的强度随着时间的变化)进行处理,包括比较时间、频率变化和不同或者寻找波峰。其中的一个主要技术实现方案为将频率转换为音符进行处理,每个音符对应一个音域,形成一个N维的特征向量,再经过过滤和标准化处理,获得特征声谱图,通过滑动子图的方法获得音频声纹,并针对声纹计算位错误率完成识别匹配。另一个主要技术方案为获取一段声谱图的一系列极大值点,获得此极大值点的所处的时间点和频率,基于多个极大值点构建星座图,依据星座图内两点的时间偏移和各自的频率强度生成此时间点上的哈希值,最终通过统计相同时间偏移的哈希值的个数完成目标的识别。特征模型和星座图的构建相对复杂,不能有效的、完整的表征音频信号特征的变化,无法将特征的变化过程和趋势融入到特征值的生成,即形成的特征模板不能完整、充分表征音频信号。因此,现有技术还有待于改进和发展。
技术实现思路
鉴于上述现有技术的不足,本专利技术的目的在于提供一种基于经验模态分解的音频识别方法及系统,旨在解决现有的识别方法无法完整、充分表征音频信号的问题。本专利技术的技术方案如下:一种基于经验模态分解的音频识别方法,其中,包括步骤:A、输入原始音频信号,对所述原始音频信号进行采样,然后依次进行去噪预处理、加汉明窗以及傅氏变换处理得到频谱数据,再依次连接每帧的频谱数据,获得声谱图;B、获得所述声谱图各频率段的能量最大值所在点,并依次连接各频率段的能量最大值所在点生成时间-频率曲线;C、将所述生成的时间-频率曲线进行经验模态分解,获得多个本征模函数;D、通过获得的多个本征模函数结合相应的频率段以及时间帧,生成用于表征原始音频信号的多个特征值,并输出。优选的,所述步骤D具体包括:D1、对每一个本征模函数等间隔取样,获得一组相应的取样序列;D2、在所述取样序列后追加所处的频率段序号;D3、对追加后的取样序列进行处理获得一个哈希值;D4、通过N组本征模函数获得N个哈希值,共同组成一组特征值。优选的,所述步骤D之后还包括:E、根据所述特征值获取时间偏移差的分布和数量,以表征原始音频信号。优选的,所述步骤E具体包括:E1、通过所述特征值在一数据库中进行搜索,获得与所述特征值相匹配的若干其他特征值所处的时间偏移构成的时间偏移组;E2、将所述时间偏移组中各时间偏移与所述特征值所处的时间偏移分别求得时间偏移差,再通过这些时间偏移差的分布和数量,确定需识别的目标音频。优选的,所述步骤D3中,对追加后的取样序列通过sha1哈希算法或Murmur哈希算法处理获得一个哈希值。一种基于经验模态分解的音频识别系统,其中,包括:声谱图获取模块,用于输入原始音频信号,对所述原始音频信号进行采样,然后依次进行去噪预处理、加汉明窗以及傅氏变换处理得到频谱数据,再依次连接每帧的频谱数据,获得声谱图;时间-频率曲线生成模块,用于获得所述声谱图各频率段的能量最大值所在点,并依次连接各频率段的能量最大值所在点生成时间-频率曲线;经验模态分解模块,用于将所述生成的时间-频率曲线进行经验模态分解,获得多个本征模函数;特征值输出模块,用于通过获得的多个本征模函数结合相应的频率段以及时间帧,生成用于表征原始音频信号的多个特征值,并输出。优选的,所述特征值输出模块具体包括:取样单元,用于对每一个本征模函数等间隔取样,获得一组相应的取样序列;追加单元,用于在所述取样序列后追加所处的频率段序号;哈希处理单元,用于对追加后的取样序列进行处理获得一个哈希值;向量组成单元,用于通过N组本征模函数获得N个哈希值,共同组成一组特征值。优选的,所述音频识别系统还包括:分布数量获取模块,用于根据所述特征值获取时间偏移差的分布和数量,以表征原始音频信号。优选的,所述分布数量获取模块具体包括:时间偏移组获取单元,用于通过所述特征值在数据库中进行搜索,获得与所述特征值相匹配的若干其他特征值所处的时间偏移构成的时间偏移组;时间偏移差计算单元,用于将所述时间偏移组中各时间偏移与所述特征值所处的时间偏移分别求得时间偏移差,再通过这些时间偏移差的分布和数量,确定需识别的目标音频。优选的,所述哈希处理单元中,对追加后的取样序列通过sha1哈希算法或Murmur哈希算法处理获得一个哈希值。有益效果:本专利技术将EMD经验模态分解的方法引入到音频信号特征值的生成,从而将音频特征的变化趋势信息充分融合到特征值的生成,使生成的特征值更完整的表征音频信号。本专利技术可取代构建复杂的特征模型和星座图,并能够有效融合特征的变化过程信息,使得特征值对音频信号的表征更加充分、精确、有效。附图说明图1为本专利技术一种基于经验模态分解的音频识别方法第一实施例的流程图;图2为本专利技术中经过短时傅里叶变换生成的声谱图;图3为图1所示方法中步骤S104的具体流程图;图4为本专利技术中经EMD分解后生成的5项IMF数据曲线;图5为本专利技术一种基于经验模态分解的音频识别方法第二实施例的流程图;图6为图5所示方法中步骤S105的具体流程图;图7为本专利技术一种基于经验模态分解的音频识别系统第一实施例的结构框图;图8为图7所示系统中特征值输出模块的具体结构框图;图9为本专利技术一种基于经验模态分解的音频识别系统第二实施例的结构框图;图10为图9所示系统中分布数量获取模块的具体结构框图。具体实施方式本专利技术提供一种基于经验模态分解的音频识别方法及系统,为使本专利技术的目的、技术方案及效果更加清楚、明确,以下对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。请参阅图1,图1为本专利技术一种基于经验模态分解的音频识别方法第一实施例的流程图,如图所示,其包括步骤:S101、输入原始音频信号,对所述原始音频信号进行采样,然后依次进行去噪预处理、加汉明窗以及傅氏变换处理得到频谱数据,再依次连接每帧的频谱数据,获得声谱图;S102、获得所述声谱图本文档来自技高网
...

【技术保护点】
一种基于经验模态分解的音频识别方法,其特征在于,包括步骤:A、输入原始音频信号,对所述原始音频信号进行采样,然后依次进行去噪预处理、加汉明窗以及傅氏变换处理得到频谱数据,再依次连接每帧的频谱数据,获得声谱图;B、获得所述声谱图各频率段的能量最大值所在点,并依次连接各频率段的能量最大值所在点生成时间‑频率曲线;C、将所述生成的时间‑频率曲线进行经验模态分解,获得多个本征模函数;D、通过获得的多个本征模函数结合相应的频率段以及时间帧,生成用于表征原始音频信号的多个特征值,并输出。

【技术特征摘要】
1.一种基于经验模态分解的音频识别方法,其特征在于,包括步骤:
A、输入原始音频信号,对所述原始音频信号进行采样,然后依次进行去噪预处理、加汉明窗以及傅氏变换处理得到频谱数据,再依次连接每帧的频谱数据,获得声谱图;
B、获得所述声谱图各频率段的能量最大值所在点,并依次连接各频率段的能量最大值所在点生成时间-频率曲线;
C、将所述生成的时间-频率曲线进行经验模态分解,获得多个本征模函数;
D、通过获得的多个本征模函数结合相应的频率段以及时间帧,生成用于表征原始音频信号的多个特征值,并输出。
2.根据权利要求1所述的基于经验模态分解的音频识别方法,其特征在于,所述步骤D具体包括:
D1、对每一个本征模函数等间隔取样,获得一组相应的取样序列;
D2、在所述取样序列后追加所处的频率段序号;
D3、对追加后的取样序列进行处理获得一个哈希值;
D4、通过N组本征模函数获得N个哈希值,共同组成一组特征值。
3.根据权利要求2所述的基于经验模态分解的音频识别方法,其特征在于,所述步骤D之后还包括:
E、根据所述特征值获取时间偏移差的分布和数量,以表征原始音频信号。
4.根据权利要求3所述的基于经验模态分解的音频识别方法,其特征在于,所述步骤E具体包括:
E1、通过所述特征值在一数据库中进行搜索,获得与所述特征值相匹配的若干其他特征值所处的时间偏移构成的时间偏移组;
E2、将所述时间偏移组中各时间偏移与所述特征值所处的时间偏移分别求得时间偏移差,再通过这些时间偏移差的分布和数量,确定需识别的目标音频。
5.根据权利要求2所述的基于经验模态分解的音频识别方法,其特征在于,所述步骤D3中,对追加后的取样序列通过sha1哈希算法或Murmur哈希算法处理获得一个哈希值。
6.一种基于经验模态分解的音频识别系统,其特征在于,包括:
声谱图获取模块,用于输入...

【专利技术属性】
技术研发人员:岳廷明
申请(专利权)人:深圳创维数字技术有限公司深圳市创维软件有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1