【技术实现步骤摘要】
本专利技术属于声学场景分类,具体涉及一种基于多维加权融合的声学场景分类网络模型。
技术介绍
1、声学场景分类是指将一段音频信号识别到预定义的一组场景类别标签,该预定义标签描述了音频数据录制时所处的环境。作为声音前端处理技术,其在自动音频监听、机器人感知以及多媒体内容分析等方面都有广泛应用。
2、然而,在实际运用过程中,考虑到录制设备的性能不同,导致音频样本的质量差异,以及部分边缘设备的存储容量和算力限制,无法部署复杂的网络模型等问题,这对系统的鲁棒性、泛化能力以及轻量化都提出了更高标准,而现有的声学场景分类技术在分类准确率上仍无法满足需要。
技术实现思路
1、针对现有技术中存在的不足,本专利技术提供了一种基于多维加权融合的声学场景分类网络模型,用以解决声学场景分类任务,提高网络模型的分类准确率。
2、本专利技术通过以下技术手段实现上述技术目的。
3、一种基于多维加权融合的声学场景分类网络模型,包括三个模块:声学场景特征提取模块,多维特征加权融合模块以及分
...【技术保护点】
1.一种基于多维加权融合的声学场景分类网络模型,其特征在于:包括三个模块:声学场景特征提取模块,多维特征加权融合模块以及分类模块;其中声学场景特征提取模块逐层提取音频中的特征并输出至多维特征加权融合模块;多维特征加权融合模块中设置有一个可学习权重参数,对输入的特征进行逐元素线性插值运算,将不同维度的特征相互融合并输出至分类模块;分类模块将输出网络模型的预测结果。
2.根据权利要求1所述的声学场景分类网络模型,其特征在于:所述声学场景特征提取模块采用一维反向可分离卷积网络(One-Dimensional Inverted SeparableConvoluti
...【技术特征摘要】
1.一种基于多维加权融合的声学场景分类网络模型,其特征在于:包括三个模块:声学场景特征提取模块,多维特征加权融合模块以及分类模块;其中声学场景特征提取模块逐层提取音频中的特征并输出至多维特征加权融合模块;多维特征加权融合模块中设置有一个可学习权重参数,对输入的特征进行逐元素线性插值运算,将不同维度的特征相互融合并输出至分类模块;分类模块将输出网络模型的预测结果。
2.根据权利要求1所述的声学场景分类网络模型,其特征在于:所述声学场景特征提取模块采用一维反向可分离卷积网络(one-dimensional inverted separableconvolutional neural
3.根据权利要求2所述的声学场景分类网络模型,其特征在于:所述1d-iscnn由四个一维反向可分离块组成,每个一维反向可分离块中:首先经过两个一维卷积层,第一个为逐元素卷积层,卷积核的形状为1,第二个为逐通道卷积层,卷积核的形状为7,通过将标准卷积操作替换为反向可分离卷积操作,可以大幅度减少网络模型的参数量和计算次数,并提高识别性能;然后经过一个批量标准化层,对特征进行归一化操作,可以加速网络模型的收敛,并降低出现梯度消失的可能性;最后用高斯误差线性单元作为激活函数;
4.根据权利要求2所述的声学场景分类网络模型,其特征在于:所述2d-iscnn由五个二维反向可分离块组成,每个二维反向可分离块由特征蒸馏、特征融合、特征后处理三个部分组成;
5.根据权利要求4所述的声学场景分类网络模型,其特征在于:所述反向时频域卷积块中...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。