一种基于深度学习的音频分类系统及方法技术方案

技术编号:36401545 阅读:50 留言:0更新日期:2023-01-18 10:08
本发明专利技术涉及一种音频分类方法的改进,特别是涉及一种基于深度学习的音频分类系统及方法,通过基于自监督学习的联合判别和生成频谱图掩模补丁建模框架,可以在有限量的标注数据集下显著提高音频分类模型的性能,利用未标记数据来缓解数据需求,从而解决获取音频数据和标注成本大的问题;包括样本数据库、特征提取模块、音频识别模块和结果输出模块和模型压缩移植模块,其中:样本数据库:用于对原始数据进行简单预处理后得到的样本数据;特征提取模块:用于从样本数据中提取音频特征;音频识别模块:用于将音频特征进行卷积操作和注意力编解码变换后计算得到样本中目标的信息;结果输出模块:用于对目标样本的信息进行结果输出。用于对目标样本的信息进行结果输出。用于对目标样本的信息进行结果输出。

【技术实现步骤摘要】
一种基于深度学习的音频分类系统及方法


[0001]本专利技术涉及一种音频分类方法的改进,特别是涉及一种基于深度学习的音频分类系统及方法。

技术介绍

[0002]为实现对防区内态势的准确把握,须实时感知区域内可能出现的目标及其类别。其中,基于Transformer的音频分类技术在目标分类领域取得了广泛应用。
[0003]基于自注意力的架构AST在音频分类领域表现出强劲的性能,但这种基于纯自注意力机制的模型的关键问题在于往往需要比卷积神经网络更多的训练数据。AST在从头开始训练时也表现不佳,很大程度它的成功依赖于有监督的预训练。由于标记的语音和音频数据有限,因此AST使用ImageNet数据进行跨模态预训练。然而,在实践中,对ImageNet数据集的监督预训练是复杂的且成本高昂,并且还限制视觉和音频模型具有相似的架构并使用相同的补丁大小和形状。同时,针对特定类型音频的跨模态预训练的有效性和可迁移性并未得到证实。
[0004]所以如何解决获取音频数据和标注成本大,仍是一个有待解决的技术问题。

技术实现思路

[0005]针对
技术介绍
中提到的问题,本专利技术的目的是提供一种基于深度学习的音频分类系统及方法,通过基于自监督学习的联合判别和生成频谱图掩模补丁建模框架,可以在有限量的标注数据集下显著提高音频分类模型的性能,利用未标记数据来缓解数据需求,从而解决获取音频数据和标注成本大的问题。
[0006]本专利技术的上述技术目的是通过以下技术方案得以实现的:一种基于深度学习的音频分类系统,包括样本数据库、特征提取模块、音频识别模块和结果输出模块和模型压缩移植模块,其中:
[0007]样本数据库:用于对原始数据进行简单预处理后得到的样本数据;
[0008]特征提取模块:用于从样本数据中提取音频特征;
[0009]音频识别模块:用于将音频特征进行卷积操作和注意力编解码变换后计算得到样本中目标的信息;
[0010]结果输出模块:用于对目标样本的信息进行结果输出;
[0011]模型压缩和移植模块:将模型部署至嵌入式设备上,实现模型压缩和移植。
[0012]作为优选,所述原始数据通过麦克风阵列进行采集。
[0013]作为优选,所述结果输出模块信号连接有显示屏和打印机。
[0014]本专利技术的上述技术目的是通过以下技术方案得以实现的:一种基于深度学习的音频分类方法,包括如下步骤:
[0015]S100、原始数据采集:通过麦克风阵列获取原始音频,并将原始音频数据传输至样本数据库;
[0016]S200、样本数据识别:对样本数据库的原始音频数据提取声学特征,并将声学特征输入至音频分类识别网络,得到目标类别信息,并将得到的识别结果传输至输出模块;
[0017]S300、分析结果展示:结果输出模块对目标类型进行输出,通过显示屏显示结果和打印机打印输出报告结果。
[0018]作为优选,在步骤S100中,在原始图像输入样本数据库之前,对原始进行预处理具体包括如下步骤:
[0019]S101、对音频信号进行语音活动检测,去除静音部分;
[0020]S102、将所有数据的采样率进行统一。
[0021]作为优选,在步骤S200中对样本数据库的原始音频数据提取声学特征,并将声学特征输入至音频分类识别网络,得到目标类别信息,并将得到的识别结果传输至输出模块,具体步骤如下:
[0022]S201、提取音频信号的梅尔频率倒谱系数特征;
[0023]S202、使用基于自监督学习的声学Transformer模型进行预训练,使得模型具有分类和重建频谱图的能力,之后在此基础上使用特定数据对模型进行微调,得到最终的分类结果;
[0024]S203、在预训练模型的基础上使用特定数据对模型进行微调,使其具有分类特定场景的音频数据的能力;
[0025]S204、通过将测试数据输入微调后的分类模型中,通过模型得到最终的分类结果。
[0026]综上所述,本专利技术主要具有以下有益效果:本专利技术结构设计合理,解决了对于迁移学习中获取跨模态的音频数据和标注成本大的问题,利用未标记数据来缓解数据需求问题,提出了一种基于自监督学习的联合判别和生成频谱图掩模补丁建模框架,可以在有限量的标注数据集下显著提高音频分类模型的性能,最终通过模型推理出目标的真实型号,协助部队进一步了解敌军走向和战场态势感知,能够实现将识别系统部署在嵌入式开发板中,极大提升了战场态势感知的速度和准确性。
附图说明
[0027]图1为本专利技术基于深度学习的音频分类系统的结构框图;
[0028]图2为本专利技术基于深度学习的音频分类方法中的声学特征提取的流程框图;
[0029]图3为本专利技术基于深度学习的音频分类方法中的网络模型架构图;
具体实施方式
[0030]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0031]如图1所示,本专利技术实施例提出了一种基于深度学习的音频分类系统,包括样本数据库、特征提取模块、音频识别模块和结果输出模块和模型压缩移植模块,其中:
[0032]样本数据库:用于对原始数据进行简单预处理后得到的样本数据;
[0033]特征提取模块:用于从样本数据中提取音频特征;
[0034]音频识别模块:用于将音频特征进行卷积操作和注意力编解码变换后计算得到样本中目标的信息;
[0035]结果输出模块:用于对目标样本的信息进行结果输出;
[0036]模型压缩和移植模块:将模型部署至嵌入式设备上,实现模型压缩和移植。
[0037]在本实施方式中,所述结果输出模块信号连接有显示屏和打印机。通过设置结果输出模块信号连接有显示屏和打印机,实现屏幕显示以及文档打印,方便进行结果的分析。
[0038]以下列举所述基于深度学习的音频分类系统的较优实施例,以清楚的说明本专利技术的内容,应当明确的是,本专利技术的内容并不限制于以下实施例,其他通过本领域普通技术人员的常规技术手段的改进亦在本专利技术的思想范围之内。
[0039]本专利技术实施例提出了一种基于深度学习的音频分类方法,包括如下步骤:
[0040]S100、原始数据采集:通过麦克风阵列获取原始音频数据,并将原始音频数据传输至样本数据库;
[0041]具体的,在原始信号输入样本数据库之前,需对原始信号进行语音活动检测,去除静音部分,以及将所有数据的采样率进行统一,旨在说明音频数据中价值目标区域;
[0042]S200、样本数据识别:样本数据库对原始图像采用监督学习方法进行识别处理得到识别图像,并将得到的识别图像传输给图像分割模块;
[0043]样本数据识别处理具体包括如下步骤:
[0044本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的音频分类系统,其特征在于,包括样本数据库、特征提取模块、音频识别模块和结果输出模块和模型压缩移植模块,其中:样本数据库:用于对原始数据进行简单预处理后得到的样本数据;特征提取模块:用于从样本数据中提取音频特征;音频识别模块:用于将音频特征进行卷积操作和注意力编解码变换后计算得到样本中目标的信息;结果输出模块:用于对目标样本的信息进行结果输出;模型压缩和移植模块:将模型部署至嵌入式设备上,实现模型压缩和移植。2.如权利要求1所述的基于深度学习的音频分类系统,其特征在于,所述原始数据通过麦克风阵列进行采集。3.如权利要求1所述的基于深度学习的音频分类系统,其特征在于,所述结果输出模块信号连接有显示屏和打印机。4.一种基于深度学习的音频分类方法,其特征在于,包括如下步骤:S100、原始数据采集:通过麦克风阵列获取原始音频,并将原始音频数据传输至样本数据库;S200、样本数据识别:对样本数据库的原始音频数据提取声学特征,并将声学特征输入至音频分类识别网络,得到目标类别信息,并将得到的识别结果传输至输出模块;S300、...

【专利技术属性】
技术研发人员:杜星悦徐跃林陈福良王建军宋光照李益青刘亚非杨翠虹荣英佼潘永飞周勇军
申请(专利权)人:中国人民解放军六三九八三部队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1