一种基于声谱图显著性检测的音频识别方法技术

技术编号:11456751 阅读:91 留言:0更新日期:2015-05-14 13:53
发明专利技术公开了一种基于声谱图显著性检测的音频识别方法,其特征是如下步骤进行:1获取不同声源的声谱图并进行特征提取,获得基本特征集合;2、利用GBVS算法获得显著性图,再利用主图分离方法提取主图;3、提取层次对比图;4、获得PCA特征图;5建立不同声源的GCNN声源模型;6、利用GCNN声源模型识别待测试声谱图的声源。本发明专利技术能有效表征复杂环境下未知音频类型的特征信息,同时能够实现快速自动的音频识别。

【技术实现步骤摘要】
一种基于声谱图显著性检测的音频识别方法
本专利技术属于音频识别领域,具体地说是一种基于声谱图显著性检测的音频识别方法。
技术介绍
随着互联网的高速发展,涌现大量的音频、视频和图像信息。但是音频信息的研究速度远远比不上视频和图像的研究,而且对大量音频信息的识别工作,单靠人工标注是一件庞大而又繁琐的工程,因此,实现对音频信号的自动识别,是音频领域的研究重点。目前存在的音频信号的自动识别方法主要通过提取特征和选择分类器两大步骤进行,其中研究提取音频信号的声音特征为传统常用的音频识别方法。然而对大量未知复杂的音频数据,若不先对音频进行细化分类,针对不同类型的音频数据采取不同的处理过程,传统的音频识别方法存在明显不足。尤其是原始音频具有极其复杂的表示方式,缺少语义背景内容和结构化的组织,在间断、多源和噪声干扰等复杂的环境下如何选择能够准确表示此类音频的特征信息,并且运用何种识别方法将未知音频正确分类识别是音频识别的重要研究问题。近年来,随着人类听觉神经科学认识的逐渐深入,越来越多的研究者将注意力放在基于声谱图的时频模型上。研究结果认为:声谱图中的时频结构反映了信号时域和空域结构,可以形成声学感知的稀疏基函数。这与大脑听觉感知系统有效去除冗余,利用较少的神经元表达更多的外界声音信息的思想一致。德国奥登堡大学的Kleinschmidt提出适合自动音频识别的新特征:声谱图中的局部时频结构特征。研究者认为该特征与听觉神经元的时频感受野特性相似,具有有效表达如共振峰的声学参数、较少加性噪声的影响和很好的泛化性。但是,该局部时频结构是通过研究者在声谱图中人工选取的,针对多声源和加性噪声存在的声谱图中,如何让计算机自动有效提取分离出主要声源的局部时频结构仍待解决。麻省理工学院的Schutte利用boosting分类器通过声谱图的局部时频结构识别音频。然而boosting分类器太过依赖人为设定和调节阈值,通过该方法对识别复杂环境下未知音频类型的音频数据来说并不实用。
技术实现思路
本专利技术是为了克服现有技术存在的不足之处,提供一种可靠、自动化、快速且强大的基于声谱图显著性检测的音频识别方法,以期能有效表征复杂环境下未知音频类型的特征信息,同时能够实现快速自动的音频识别。本专利技术为解决技术问题采用如下技术方案:本专利技术一种基于声谱图显著性检测的音频识别方法的特点是如下步骤进行:步骤1、获取像素为M×N的n种不同声源的声谱图,每种声谱图获取m幅,从而获得m×n幅声谱图D={d1,d2,…,di,…,dm×n};di表示第i幅声谱图;i∈[1,m×n];对所述m×n幅声谱图D分别进行特征提取,获得基本特征集合;所述基本特征集合包括:RGBY色度特征集合C={C1,C2,…,Ci,…,Cm×n}、方向特征集合O={O1,O2,…,Oi,…,Om×n}和亮度特征集合I={I1,I2,…,Ii,…,Im×n};Ci表示第i幅声谱图di的RGBY色度特征;Oi表示第i幅声谱图di的方向特征;Ii表示第i幅声谱图di的亮度特征;步骤2、根据所述基本特征集合利用GBVS算法对所述第i幅声谱图di进行显著性提取,获得第i幅显著性图Si;根据所述第i幅显著性图Si利用主图分离方法提取所述第i幅声谱图di的主图SMi,所述第i幅主图SMi是由R基色图R(SMi)、G基色图G(SMi)和B基色图B(SMi)构成的像素为l×l的三维基色图;从而获得m×n幅声谱图D的主图集合SM={SM1,SM2,…,SMi,…,SMm×n};l<M,l<N;步骤3、利用式(1)提取所述第i幅主图SMi的层次对比图SMRi,从而获得m×n幅声谱图D的层次对比图集合SMR={SMR1,SMR2,…,SMRi,…,SMRm×n}:步骤4、利用式(2)获得所述第i幅层次对比图SMRi的PCA特征图SMRPi,从而获得m×n幅声谱图D的PCA特征图集合SMRP={SMRP1,SMRP2,…,SMRPi,…,SMRPm×n}:SMRPi=(dimj(Ai))TSMRi(2)式(2)中,Ai表示所述第i幅层次对比图SMRi的协方差矩阵,dimj(Ai)表示所述协方差矩阵Ai的前j个特征向量所组成的矩阵;并有:式(3)中,表示第i幅层次对比图SMRi中第α个像素值;α∈[1,l];以所述第i幅层次对比图SMRi和第i幅PCA特征图SMRPi作为特征描述集表征所述第i幅声谱图di的声源,从而获得所述m×n幅声谱图D中n类声源的所有特征描述集表征,所述n类声源中的每类声源均包含m个特征描述集;步骤5、建立n种不同声源的GCNN声源模型;步骤5.1、在深度卷积神经网络CNN中增加内部输入层,从而形成所述改进的深度卷积神经网络GCNN:所述深度卷积神经网络CNN包含外部输入层、p个卷积层{C1,C2,…,Cp}、p个降采样层{S1,S2,…,Sp}以及全连接softmax分类层;所述p个卷积层{C1,C2,…,Cp}中的每个卷积层与p个降采样层{S1,S2,…,Sp}中的每个降采样层为互相交错设置,所述外部输入层连接第1个卷积层C1;第p个降采样层Sp连接所述全连接softmax分类层;在所述第1个卷积层C1与第1个降采样层S1之间设置所述内部输入层,从而构成所述改进的卷积神经网络GCNN;步骤5.2、以所述层次对比图集合SMR={SMR1,SMR2,…,SMRi,…,SMRm×n}作为所述外部输入层的输入;以所述PCA特征图集合SMRP={SMRP1,SMRP2,…,SMRPi,…,SMRPm×n}作为所述内部输入层的输入;通过所述改进的深度卷积神经网络GCNN进行训练和建模,从而获得n种不同声源的GCNN声源模型;步骤6、利用所述n种不同声源的GCNN声源模型识别待测试声谱图d'的声源:步骤6.1、对所述待测试声谱图d'按照步骤2-步骤4依次进行处理,获得所述待测试声谱图d'的层次对比图SMRd'和PCA特征图SMRPd';步骤6.2、以所述待测试声谱图d'的层次对比图SMRd'作为所述外部输入层的输入图像;以所述待测试声谱图d'的PCA特征图SMRPd'作为所述内部输入层的输入图像;从而利用所述n种不同声源的GCNN声源模型识别所述待测试声谱图d'所属的声源。本专利技术所述的基于声谱图显著性检测的音频识别方法的特点也在于,所述步骤2中的主图分离方法是按如下步骤进行:步骤2.1、假设所述第i幅显著性图Si中包含Q个注意焦点,将所述Q个注意焦点进行降序排序获得注意焦点集合FOA={FOA1,FOA2,…,FOAq,…,FOAQ};FOAq表示第q个注意焦点;获取所述注意焦点集合FOA中每个注意焦点在所述第i幅显著性图Si中各自的位置L={L1,L2,…,Lq,…,LQ};Lq表示所述第q个注意焦点FOAq在所述第i幅显著性图Si中的位置;1≤q≤Q;步骤2.2、初始化q=1;步骤2.3、利用所述第q个注意焦点FOAq在显著性图中的位置Lq,获得所述第q个注意焦点FOAq在所述第i幅声谱图di中所对应的位置Lq';步骤2.4、提取所述对应的位置Lq'的色度特征,所述色度特征包括:红色特征Rq、绿色特征Gq、蓝色特征Bq和黄色特征Yq;步骤2.5、判断所述红色特征Rq是否满足在所述色度特征中为最大值本文档来自技高网
...
一种基于声谱图显著性检测的音频识别方法

【技术保护点】
一种基于声谱图显著性检测的音频识别方法,其特征是如下步骤进行:步骤1、获取像素为M×N的n种不同声源的声谱图,每种声谱图获取m幅,从而获得m×n幅声谱图D={d1,d2,…,di,…,dm×n};di表示第i幅声谱图;i∈[1,m×n];对所述m×n幅声谱图D分别进行特征提取,获得基本特征集合;所述基本特征集合包括:RGBY色度特征集合C={C1,C2,…,Ci,…,Cm×n}、方向特征集合O={O1,O2,…,Oi,…,Om×n}和亮度特征集合I={I1,I2,…,Ii,…,Im×n};Ci表示第i幅声谱图di的RGBY色度特征;Oi表示第i幅声谱图di的方向特征;Ii表示第i幅声谱图di的亮度特征;步骤2、根据所述基本特征集合利用GBVS算法对所述第i幅声谱图di进行显著性提取,获得第i幅显著性图Si;根据所述第i幅显著性图Si利用主图分离方法提取所述第i幅声谱图di的主图SMi,所述第i幅主图SMi是由R基色图R(SMi)、G基色图G(SMi)和B基色图B(SMi)构成的像素为l×l的三维基色图;从而获得m×n幅声谱图D的主图集合SM={SM1,SM2,…,SMi,…,SMm×n};l<M,l<N;步骤3、利用式(1)提取所述第i幅主图SMi的层次对比图SMRi,从而获得m×n幅声谱图D的层次对比图集合SMR={SMR1,SMR2,…,SMRi,…,SMRm×n}:步骤4、利用式(2)获得所述第i幅层次对比图SMRi的PCA特征图SMRPi,从而获得m×n幅声谱图D的PCA特征图集合SMRP={SMRP1,SMRP2,…,SMRPi,…,SMRPm×n}:SMRPi=(dimj(Ai))TSMRi           (2)式(2)中,Ai表示所述第i幅层次对比图SMRi的协方差矩阵,dimj(Ai)表示所述协方差矩阵Ai的前j个特征向量所组成的矩阵;并有:Ai=1lΣα=1l(dα(i))(dα(i))T---(3)]]>式(3)中,表示第i幅层次对比图SMRi中第α个像素值;α∈[1,l];以所述第i幅层次对比图SMRi和第i幅PCA特征图SMRPi作为特征描述集表征所述第i幅声谱图di的声源,从而获得所述m×n幅声谱图D中n类声源的所有特征描述集表征,所述n类声源中的每类声源均包含m个特征描述集;步骤5、建立n种不同声源的GCNN声源模型;步骤5.1、在深度卷积神经网络CNN中增加内部输入层,从而形成所述改进的深度卷积神经网络GCNN:所述深度卷积神经网络CNN包含外部输入层、p个卷积层{C1,C2,…,Cp}、p个降采样层{S1,S2,…,Sp}以及全连接softmax分类层;所述p个卷积层{C1,C2,…,Cp}中的每个卷积层与p个降采样层{S1,S2,…,Sp}中的每个降采样层为互相交错设置,所述外部输入层连接第1个卷积层C1;第p个降采样层Sp连接所述全连接softmax分类层;在所述第1个卷积层C1与第1个降采样层S1之间设置所述内部输入层,从而构成所述改进的卷积神经网络GCNN;步骤5.2、以所述层次对比图集合SMR={SMR1,SMR2,…,SMRi,…,SMRm×n}作为所述外部输入层的输入;以所述PCA特征图集合SMRP={SMRP1,SMRP2,…,SMRPi,…,SMRPm×n}作为所述内部输入层的输入;通过所述改进的深度卷积神经网络GCNN进行训练和建模,从而获得n种不同声源的GCNN声源模型;步骤6、利用所述n种不同声源的GCNN声源模型识别待测试声谱图d'的声源:步骤6.1、对所述待测试声谱图d'按照步骤2‑步骤4依次进行处理,获得所述待测试声谱图d'的层次对比图SMRd'和PCA特征图SMRPd';步骤6.2、以所述待测试声谱图d'的层次对比图SMRd'作为所述外部输入层的输入图像;以所述待测试声谱图d'的PCA特征图SMRPd'作为所述内部输入层的输入图像;从而利用所述n种不同声源的GCNN声源模型识别所述待测试声谱图d'所属的声源。...

【技术特征摘要】
1.一种基于声谱图显著性检测的音频识别方法,其特征是如下步骤进行:步骤1、获取像素为M×N的n种不同声源的声谱图,每种声谱图获取m幅,从而获得m×n幅声谱图D={d1,d2,…,di,…,dm×n};di表示第i幅声谱图;i∈[1,m×n];对所述m×n幅声谱图D分别进行特征提取,获得基本特征集合;所述基本特征集合包括:RGBY色度特征集合C={C1,C2,…,Ci,…,Cm×n}、方向特征集合O={O1,O2,…,Oi,…,Om×n}和亮度特征集合I={I1,I2,…,Ii,…,Im×n};Ci表示第i幅声谱图di的RGBY色度特征;Oi表示第i幅声谱图di的方向特征;Ii表示第i幅声谱图di的亮度特征;步骤2、根据所述基本特征集合利用GBVS算法对所述第i幅声谱图di进行显著性提取,获得第i幅显著性图Si;根据所述第i幅显著性图Si利用主图分离方法提取所述第i幅声谱图di的主图SMi,所述第i幅主图SMi是由R基色图R(SMi)、G基色图G(SMi)和B基色图B(SMi)构成的像素为l×l的三维基色图;从而获得m×n幅声谱图D的主图集合SM={SM1,SM2,…,SMi,…,SMm×n};l<M,l<N;步骤3、利用式(1)提取所述第i幅主图SMi的层次对比图SMRi,从而获得m×n幅声谱图D的层次对比图集合SMR={SMR1,SMR2,…,SMRi,…,SMRm×n}:步骤4、利用式(2)获得所述第i幅层次对比图SMRi的PCA特征图SMRPi,从而获得m×n幅声谱图D的PCA特征图集合SMRP={SMRP1,SMRP2,…,SMRPi,…,SMRPm×n}:SMRPi=(dimj(Ai))TSMRi(2)式(2)中,Ai表示所述第i幅层次对比图SMRi的协方差矩阵,dimj(Ai)表示所述协方差矩阵Ai的前j个特征向量所组成的矩阵;并有:式(3)中,表示第i幅层次对比图SMRi中第α个像素值;α∈[1,l];以所述第i幅层次对比图SMRi和第i幅PCA特征图SMRPi作为特征描述集表征所述第i幅声谱图di的声源,从而获得所述m×n幅声谱图D中n类声源的所有特征描述集表征,所述n类声源中的每类声源均包含m个特征描述集;步骤5、建立n种不同声源的GCNN声源模型;步骤5.1、在深度卷积神经网络CNN中增加内部输入层,从而形成改进的深度卷积神经网络GCNN:所述深度卷积神经网络CNN包含外部输入层、p个卷积层{C1,C2,…,Cp}、p个降采样层{S1,S2,…,Sp}以及全连接softmax分类层;所述p个卷积层{C1,C2,…,Cp}中的每个卷积层与p个降采样层{S1,S2,…,Sp}中的每个降采样层为互相交错设置,所述外...

【专利技术属性】
技术研发人员:陈雁翔弓彦婷任洪梅王猛
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1