【技术实现步骤摘要】
基于深度递归非负矩阵分解的音频场景分类方法及系统
[0001]本专利技术涉及音频分类领域,具体涉及基于深度递归非负矩阵分解(Nonnegative Matrix Factorization,NMF)的音频场景分类方法及系统。
技术介绍
[0002]音频作为多媒体信息的重要组成部分,对其分析、检索和使用已成为日常生活中不可避免的问题。如何对海量音频信息进行高效管理、分析和利用已然成为音频信号处理领域一个极富挑战的问题。音频场景分类是对音频的初步分析,是音频高效管理和充分使用的前提。它关注如何让计算机能够分辨场景中的各种声音,识别特定场景中的基本声学要素,并能根据这些要素对新场景归类。
[0003]传统的音频分类系统主要分为两步操作:首先,利用变换从待分析信号中提取出频谱、基频、音色、共振峰等声学特征;其次,高斯混合模型(GMM)、隐马尔可夫模型(HMM)或支持向量机(SVM)被用作后端分类器完成对信号的归类。
[0004]近年来,随着深度学习的发展,人们开始研究大数据驱动的音频场景分类算法。一种直接的方法就是用深度神经网络(DNN)替换GMM作为后端分类器。由于DNN 能够通过改变隐含层数量增加模型复杂度,并通过层次化结构实现特征的多次变换, DNN通常表现出比传统分类器更好的性能。另一种方式则采用卷积神经网络(CNN) 作为前端特征提取器,后端则采用DNN或者CNN作为分类器。全网络结构允许模型进行联合训练,从而进一步提升系统性能。
[0005]基于DNN的音频场景分类算法充分利用了网络的强大 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度递归非负矩阵分解的音频场景分类方法,该方法包括:将待分类的音频信号按照贝叶斯信息准则进行音频场景切分;将切分后的每一段音频划分为多个块,每个块包括多个音频帧;以块为单位分别输入多个预先训练好的深度递归NMF网络,得到每块音频在不同子空间中的展开特征;将不同子空间中的展开特征拼接为一个长特征向量,输入支持向量机,获得每块音频的类别判别结果;计算该段音频所有块的类别判别结果的均值,由此得到该段音频的所属类别。2.根据权利要求1所述的方法,其特征在于,所述深度递归NMF网络为一个改进的堆叠RNN,包括K个处理层,每个处理层包括t个处理单元;对应处理每个块中的t个音频帧:x1,x2,
…
,x
t
;其中网络的第k层的第i个处理单元的输出为:其中网络的第k层的第i个处理单元的输出为:其中网络的第k层的第i个处理单元的输出为:是一个N维的行向量是一个N维的行向量其中,1≤i≤t;W
(k)
表示第k层对应的字典,是W
(k)
的转置,I为单位矩阵,α
(k)
是第k层对应的非负权重,b=λ/α
(k)
为截断门限,λ是一个控制网络输出特征稀疏性的参数;当k=1时,其中,表示权重系数;第k个处理层的每个单元的输入为则所述展开特征为第K层输出组成的向量:3.根据权利要求2所述的方法,其特征在于,所述方法还包括对深度递归NMF网络进行训练的步骤,具体包括:基于各类干净音频信号和稀疏NMF,利用乘积更新准则训练得到相应干净音频字典W
(clean)
;利用带噪数据,训练字典W=[W
(clean)
,W
(noise)
];其中,W
(noise)
为噪声字典;在采用稀疏NMF训练过程中,保持W
(clean)
不变,只更新W
(noise)
;W=[W
(1)
,W
(2)
,
…
,W
(K)
];利用获得的字典W和预先设定的非负权重α和初始化深度递归NMF网络;其中,是初始迭代点;α=[α
(1)
,α
(2)
,α
(K)
];为了训练深度递归NMF网络,解如下的优化问题:
其中,训练深度递归NMF参数θ包括:字典W,非负权重α和训练数据为{X
i
,Y
i
}
i=1:I
;I是音频训练样本总数,X
i
和Y
i
分别表示第i个训练样本的网络输入及其期望输出;是代价函数;是神经网络实际输出;θ是神经网络参数;代价函数选为:其中,X
f,t
为输入信号x
t
的第f个频率点的频谱;Y
f,t
是干净信号的第t帧,第f个频率点的频谱;M
t,f
是取值范围在0和1之间的待估计掩码值,输入信号X中假定含有一定程度噪声干扰;Y是干净信号。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:将非负权重α用新变量代替:当求解出后,计算非负权重α:其中,ε>0,exp(
·
)和ln(
·
)分别表示指数和对数运算;将字典W用新变量代替:当求...
【专利技术属性】
技术研发人员:高圣翔,黄远,杨晶超,孙晓晨,沈亮,林格平,刘发强,胡琦,刘建,颜永红,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。