一种基于深度学习的音频分类系统及方法技术方案

技术编号：36401545 阅读：50 留言：0更新日期：2023-01-18 10:08

本发明专利技术涉及一种音频分类方法的改进，特别是涉及一种基于深度学习的音频分类系统及方法，通过基于自监督学习的联合判别和生成频谱图掩模补丁建模框架，可以在有限量的标注数据集下显著提高音频分类模型的性能，利用未标记数据来缓解数据需求，从而解决获取音频数据和标注成本大的问题；包括样本数据库、特征提取模块、音频识别模块和结果输出模块和模型压缩移植模块，其中：样本数据库：用于对原始数据进行简单预处理后得到的样本数据；特征提取模块：用于从样本数据中提取音频特征；音频识别模块：用于将音频特征进行卷积操作和注意力编解码变换后计算得到样本中目标的信息；结果输出模块：用于对目标样本的信息进行结果输出。用于对目标样本的信息进行结果输出。用于对目标样本的信息进行结果输出。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的音频分类系统及方法

[0001]本专利技术涉及一种音频分类方法的改进，特别是涉及一种基于深度学习的音频分类系统及方法。

技术介绍

[0002]为实现对防区内态势的准确把握，须实时感知区域内可能出现的目标及其类别。其中，基于Transformer的音频分类技术在目标分类领域取得了广泛应用。
[0003]基于自注意力的架构AST在音频分类领域表现出强劲的性能，但这种基于纯自注意力机制的模型的关键问题在于往往需要比卷积神经网络更多的训练数据。AST在从头开始训练时也表现不佳，很大程度它的成功依赖于有监督的预训练。由于标记的语音和音频数据有限，因此AST使用ImageNet数据进行跨模态预训练。然而，在实践中，对ImageNet数据集的监督预训练是复杂的且成本高昂，并且还限制视觉和音频模型具有相似的架构并使用相同的补丁大小和形状。同时，针对特定类型音频的跨模态预训练的有效性和可迁移性并未得到证实。
[0004]所以如何解决获取音频数据和标注成本大，仍是一个有待解决的技术问题。

技术实现思路

[0005]针对
技术介绍
中提到的问题，本专利技术的目的是提供一种基于深度学习的音频分类系统及方法，通过基于自监督学习的联合判别和生成频谱图掩模补丁建模框架，可以在有限量的标注数据集下显著提高音频分类模型的性能，利用未标记数据来缓解数据需求，从而解决获取音频数据和标注成本大的问题。
[0006]本专利技术的上述技术目的是通过以下技术方案得以实现的：一种基于深度学习的音频分类系统，包括...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的音频分类系统，其特征在于，包括样本数据库、特征提取模块、音频识别模块和结果输出模块和模型压缩移植模块，其中：样本数据库：用于对原始数据进行简单预处理后得到的样本数据；特征提取模块：用于从样本数据中提取音频特征；音频识别模块：用于将音频特征进行卷积操作和注意力编解码变换后计算得到样本中目标的信息；结果输出模块：用于对目标样本的信息进行结果输出；模型压缩和移植模块：将模型部署至嵌入式设备上，实现模型压缩和移植。2.如权利要求1所述的基于深度学习的音频分类系统，其特征在于，所述原始数据通过麦克风阵列进行采集。3.如权利要求1所述的基于深度学习的音频分类系统，其特征在于，所述结果输出模块信号连接有显示屏和打印机。4.一种基于深度学习的音频分类方法，其特征在于，包括如下步骤：S100、原始数据采集：通过麦克风阵列获取原始音频，并将原始音频数据传输至样本数据库；S200、样本数据识别：对样本数据库的原始音频数据提取声学特征，并将声学特征输入至音频分类识别网络，得到目标类别信息，并将得到的识别结果传输至输出模块；S300、...

【专利技术属性】
技术研发人员：杜星悦，徐跃林，陈福良，王建军，宋光照，李益青，刘亚非，杨翠虹，荣英佼，潘永飞，周勇军，
申请(专利权)人：中国人民解放军六三九八三部队，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人