基于深度递归非负矩阵分解的音频场景分类方法及系统技术方案

技术编号：28216686 阅读：36 留言：0更新日期：2021-04-28 09:29

本发明专利技术公开了基于深度递归非负矩阵分解的音频场景分类方法及系统，该方法包括：将待分类的音频信号按照贝叶斯信息准则进行音频场景切分；将切分后的每一段音频划分为多个块，每个块包括多个音频帧；以块为单位分别输入多个预先训练好的深度递归NMF网络，得到每块音频在不同子空间中的展开特征；将不同子空间中的展开特征拼接为一个长特征向量，输入支持向量机，获得每块音频的类别判别结果；计算该段音频所有块的类别判别结果的均值，由此得到该段音频的所属类别。本发明专利技术的方法将深度NMF用于音频场景分类，通过探索相邻帧之间NMF系数的递归关系，降低模型复杂度，提高泛化能力。力。力。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度递归非负矩阵分解的音频场景分类方法及系统

[0001]本专利技术涉及音频分类领域，具体涉及基于深度递归非负矩阵分解(Nonnegative Matrix Factorization,NMF)的音频场景分类方法及系统。

技术介绍

[0002]音频作为多媒体信息的重要组成部分，对其分析、检索和使用已成为日常生活中不可避免的问题。如何对海量音频信息进行高效管理、分析和利用已然成为音频信号处理领域一个极富挑战的问题。音频场景分类是对音频的初步分析，是音频高效管理和充分使用的前提。它关注如何让计算机能够分辨场景中的各种声音，识别特定场景中的基本声学要素，并能根据这些要素对新场景归类。
[0003]传统的音频分类系统主要分为两步操作：首先，利用变换从待分析信号中提取出频谱、基频、音色、共振峰等声学特征；其次，高斯混合模型(GMM)、隐马尔可夫模型(HMM)或支持向量机(SVM)被用作后端分类器完成对信号的归类。
[0004]近年来，随着深度学习的发展，人们开始研究大数据驱动的音频场景分类算法。一种直接的方法就是用深度神经网络(DNN)替换GMM作为后端分类器。由于DNN 能够通过改变隐含层数量增加模型复杂度，并通过层次化结构实现特征的多次变换， DNN通常表现出比传统分类器更好的性能。另一种方式则采用卷积神经网络(CNN) 作为前端特征提取器，后端则采用DNN或者CNN作为分类器。全网络结构允许模型进行联合训练，从而进一步提升系统性能。
[0005]基于DNN的音频场景分类算法充分利用了网络的强大...

【技术保护点】

【技术特征摘要】
1.一种基于深度递归非负矩阵分解的音频场景分类方法，该方法包括：将待分类的音频信号按照贝叶斯信息准则进行音频场景切分；将切分后的每一段音频划分为多个块，每个块包括多个音频帧；以块为单位分别输入多个预先训练好的深度递归NMF网络，得到每块音频在不同子空间中的展开特征；将不同子空间中的展开特征拼接为一个长特征向量，输入支持向量机，获得每块音频的类别判别结果；计算该段音频所有块的类别判别结果的均值，由此得到该段音频的所属类别。2.根据权利要求1所述的方法，其特征在于，所述深度递归NMF网络为一个改进的堆叠RNN，包括K个处理层，每个处理层包括t个处理单元；对应处理每个块中的t个音频帧：x1，x2，
…
，x
t
；其中网络的第k层的第i个处理单元的输出为：其中网络的第k层的第i个处理单元的输出为：其中网络的第k层的第i个处理单元的输出为：是一个N维的行向量是一个N维的行向量其中，1≤i≤t；W
(k)
表示第k层对应的字典，是W
(k)
的转置，I为单位矩阵，α
(k)
是第k层对应的非负权重，b＝λ/α
(k)
为截断门限，λ是一个控制网络输出特征稀疏性的参数；当k＝1时，其中，表示权重系数；第k个处理层的每个单元的输入为则所述展开特征为第K层输出组成的向量：3.根据权利要求2所述的方法，其特征在于，所述方法还包括对深度递归NMF网络进行训练的步骤，具体包括：基于各类干净音频信号和稀疏NMF，利用乘积更新准则训练得到相应干净音频字典W
(clean)
；利用带噪数据，训练字典W＝[W
(clean)
，W
(noise)
]；其中，W
(noise)
为噪声字典；在采用稀疏NMF训练过程中，保持W
(clean)
不变，只更新W
(noise)
；W＝[W
(1)
，W
(2)
，
…
，W
(K)
]；利用获得的字典W和预先设定的非负权重α和初始化深度递归NMF网络；其中，是初始迭代点；α＝[α
(1)
，α
(2)
，α
(K)
]；为了训练深度递归NMF网络，解如下的优化问题：
其中，训练深度递归NMF参数θ包括：字典W，非负权重α和训练数据为{X
i
，Y
i
}
i＝1：I
；I是音频训练样本总数，X
i
和Y
i
分别表示第i个训练样本的网络输入及其期望输出；是代价函数；是神经网络实际输出；θ是神经网络参数；代价函数选为：其中，X
f，t
为输入信号x
t
的第f个频率点的频谱；Y
f，t
是干净信号的第t帧，第f个频率点的频谱；M
t，f
是取值范围在0和1之间的待估计掩码值，输入信号X中假定含有一定程度噪声干扰；Y是干净信号。4.根据权利要求3所述的方法，其特征在于，所述方法还包括：将非负权重α用新变量代替：当求解出后，计算非负权重α：其中，ε＞0，exp(
·
)和ln(
·
)分别表示指数和对数运算；将字典W用新变量代替：当求...

【专利技术属性】
技术研发人员：高圣翔，黄远，杨晶超，孙晓晨，沈亮，林格平，刘发强，胡琦，刘建，颜永红，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人