【技术实现步骤摘要】
一种基于transformer的声场景分类方法
[0001]本专利技术涉及声场景分类
,具体为一种基于transformer的声场景分类方法。
技术介绍
[0002]在自然环境中,声音是传递信息的重要媒介。例如,工业生产环境中异常声音、儿童玩闹声和公共场所嘈杂声等。在智能化场景中,对这些有意义音频数据进行专业化处理,能够为企业降低成本、获取盈利。
[0003]现有声学场景分类的主要应用领域可以分为三种:无人化智能监控、设备异常声音诊断、城市噪声检测。针对声学场景分类研究,国内外诸多学者主要针对数据驱动的方法开展了研究,对CNN、DNN、DenseNet等不同网络结构进行改进并将其应用于声学场景分类领域,然而,在单特征输入情况下,现有主流方法尚未达到工业生产环境中分类准确率90%的基本要求。而且,在真实应用场景的实时检测中,同时存在内存资源紧缺、模型内存占有率高的问题。
[0004]Swin Transformer网络在图像识别领域展现了其强大的特征提取能力,但其作为一种层级设计的网络结构,却没有充分利用 ...
【技术保护点】
【技术特征摘要】
1.一种基于transformer的声场景分类方法,其特征在于,包括以下步骤:获取待分类的音频数据,并对其进行预处理;基于特征金字塔网络构建声场景分类模型,其包括特征提取模块和特征融合模块;其中,所述特征提取模块包括依次连接的一个Patch Partition层,以及三个特征提取层,每个特征提取层中分别连接有不同数量的Swin TransformerBlock模块;所述特征融合模块对三个特征提取层生成的特征图进行级联合并处理;利用声场景分类模型对待分类的音频数据进行分类,得到音频数据的声场景分类结果。2.根据权利要求1所述的一种基于transformer的声场景分类方法,其特征在于:所述获取待分类的音频数据,并对其进行预处理,包括:针对不同声学场景按类别采集音频数据;将所采集的音频数据划分成标准数据集,其划分规则包含音频场景种类、时长、采样频率;对标准数据集进行特征提取,得到特征数据;将特征数据从一维音频数据转换为二维时频图,转换方式包括依次对特征数据进行预加重、分帧、加窗、傅里叶变换;将经过傅里叶变换处理的时二维频图通过动态变换为db_scale谱图,得到预处理后的数据;将预处理后的数据按照一定比例分成训练集、测试集。3.根据权利要求1所述的一种基于transformer的声场景分类方法,其特征在于:所述特征提取模块包括一个Patch Partition层、一个Linear Embedding层、两个Patch Merging层,所述Linear Embedding层、Patch Mergin...
【专利技术属性】
技术研发人员:张晓明,王廷德,卓思超,王芳,黎泉龙,管玙璠,
申请(专利权)人:北京石油化工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。