一种场景感知与事件分类的多任务声学分析方法技术

技术编号：41233739 阅读：5 留言：0更新日期：2024-05-09 23:48

本发明专利技术公开了一种场景感知与事件分类的多任务声学分析方法，包括：建立多任务网络模型，由SED与ASC两个子网络构成，每个子网络包括频率动态卷积、池化层、注意力机制以及全连接层。并采用了cross‑stitch模块，实现两个子网络之间的软参数共享。在特征提取阶段，本发明专利技术采用对数梅尔频谱图作为输入特征。送到各自任务对应的卷积模块进行处理。采用了注意力模块来对音频序列中的全局与局部上下文信息进行建模。每个子任务通过其对应的全连接层生成最终输出。通过对每个任务的输出进行加权平均处理，得到每个任务的最终结果。本发明专利技术的优点是：提升了网络的整体性能。提高了场景感知与事件分类的准确性。提高了网络的泛化能力。具有较好的通用性和适用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及环境声音分析，特别涉及一种场景感知与事件分类的多任务声学分析方法。

技术介绍

1、随着现代智能技术的迅猛发展，环境声音分析已经成为一个备受关注的研究领域，并在众多应用场景中展现出极大的重要性和潜力。例如自动生活记录系统、监控系统、异常声音检测系统以及生物监测系统等。环境声音分析领域主要集中于两个关键任务，分别是声音事件检测(sound event detection，sed)和声学场景分类(acoustic sceneclassification，asc)。声音事件检测涉及对采集到的音频数据进行分析，目的是识别和分类音频中特定的声音事件。如“儿童玩耍”、“车辆通过”、“枪声”或“报警声”等。此过程不仅要求准确识别声音的类型，如“敲击键盘”、“汽车行驶”、“餐具碰撞”或“人们交谈”等，还要估计每个声音事件的起始和结束时间。声学场景分类的目标是从不同音频片段中识别并区分具体的场景类别信息，以便帮助机器更有效的理解和判断其所处的声学环境。诸如“室内环境下的办公室”、“咖啡馆”和“杂货店”等常见场景，这些场景通常由多种类别的复杂声学事件构成，共同形成了一个既复杂又真实的声学环境。

2、在传统研究领域内，声音事件检测和声学场景分类通常被视为两个独立的任务。然而，许多声音事件与声学场景之间存在着内在的相关性，且能为彼此的识别提供关键性的辅助信息。例如“敲击键盘”、“鼠标点击”和“人们交谈”等声音事件在“办公室”这样的声学场景中更为常见，而“汽车行驶”和“鸟鸣”等声音事件在“办公室”环境中出现的可能性则相对较低。因此

3、现有技术一

4、在传统的单任务学习方法中，声学场景分类和声音事件检测通常被视为独立任务。这种方法采用专门为每种任务设计的单独模型，针对性地优化和处理每个任务，但是存在以下缺陷：

5、1)无法利用任务间的潜在联系

6、单任务学习方法在处理每个任务时，无法充分利用与其他任务的相关信息。由于缺乏跨任务的信息交流，可能导致性能受限。

7、2)资源和计算效率不足

8、由于需要为每个任务单独训练和优化模型，这种方法可能导致资源利用率低下和计算效率降低。这在处理多个相关任务时尤为明显，因为每个任务都需要独立的数据处理和模型训练。

9、3)泛化能力有限

10、尽管单任务学习方法在处理特定任务时可能表现良好，但它们通常处理多样化数据和场景时泛化能力较弱，限制了其在更广泛环境下的应用潜力。

11、现有技术二

12、鉴于声学场景和声音事件之间的密切联系，现有技术二提出了基于多任务学习(mtl)的神经网络对声学场景和事件进行联合分析。然而，该方案主要采用硬参数共享机制，这在一定程度上限制了不同任务间在训练过程中的信息流动和协同学习。它通常涉及在网络的不同层之间共享参数，以在处理多个任务时提高效率和性能。但是现有技术二存在以下缺陷：

13、1)限制任务间信息流动与协同学习

14、在硬参数共享机制中，不同任务共享相同的网络层。这可能导致信息流动和协同学习过程受限，因为共享层需要满足所有任务要求，可能无法对任何单一任务进行深度优化。

15、2)泛化能力有限

16、硬参数共享机制可能导致网络在处理新颖或未见过的数据时表现不佳。这是因为共享参数的调整主要基于特定训练数据集中的任务，可能无法很好地适应新的或变化的场景。

17、3)灵活性较差

18、硬参数共享的架构可能不够灵活。由于所有任务都依赖于相同的参数集，这限制了对特定任务进行优化。

19、参考文献

20、[1]tsubaki s,imoto k,ono n.joint analysis of acoustic scenes andsound events with weakly labeled data[c]//2022international workshop onacoustic signal enhancement(iwaenc).ieee,2022:1-5；

21、[2]nada k,imoto k,iwamae r,et al.multitask learning of acousticscenes and events using dynamic weight adaptation based on multi-focal loss[c]//2021 asia-pacific signal and information processing association annualsummit and conference(apsipa asc).ieee,2021:1156-1160；

22、[3]igarashi a,imoto k,komatsu y,et al.how information on acousticscenes and sound events mutually benefits event detection and sceneclassification tasks[c]//2022asia-pacific signal and information processingassociation annual summit and conference(apsipa asc).ieee,2022:7-11；

23、[4]nada k,imoto k,tsuchiya t.joint analysis of acoustic scenes andsound events based on multitask learning with dynamic weight adaptation[j].acoustical science and technology,2023,44(3):167-175；

24、[5]tonami n,imoto k,niitsuma m,et al.joint analysis of acousticevents and scenes based on multitask learning[c]//2019ieee workshop onapplications of signal processing to audio and acoustics(waspaa).ieee,2019:338-342；

25、[6]n.tonami,k.imoto,r.yamanishi and y.yamashita,“joint analysis ofsound events and acoustic scenes using multitask learning,’ieicetrans.inf.syst.,e104-d,294–301(2本文档来自技高网...

【技术保护点】

1.一种场景感知与事件分类的多任务声学分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种场景感知与事件分类的多任务声学分析方法，其特征在于：步骤1)中选择对数梅尔特征作为音频的时频域特征；使用librosa库从原始音频信号中计算梅尔频谱图，再将梅尔频谱图转换为对数尺度。

3.根据权利要求1所述的一种场景感知与事件分类的多任务声学分析方法，其特征在于：所述时频域特征中有64个梅尔频带，512的帧跳跃长度和2048点短时傅里叶变换大小；

4.根据权利要求1所述的一种场景感知与事件分类的多任务声学分析方法，其特征在于：所述SED和ASC两个任务中均采用3×3的频率动态卷积；在时间轴上对输入信号进行平均池化，沿着通道轴进行一维卷积来提取频率适应性的注意力权重；经过softmax函数对注意力权重进行调整，生成适应于特定频率的卷积核；这些卷积核被应用于标准的二维卷积中。

5.根据权利要求1所述的一种场景感知与事件分类的多任务声学分析方法，其特征在于：所述多分支注意力卷积网络由两个并行分支模块组成，分别是注意力分支模块和卷积分支模

6.根据权利要求5所述的一种场景感知与事件分类的多任务声学分析方法，其特征在于：所述注意力分支模块具体包括：对输入序列的全局上下文进行建模；对输入特征进行层归一化，以使得输入特征的分布更加稳定；使用多头自注意力机制来捕获序列中的全局信息；执行dropout操作来随机地将一部分神经元的输出置为零，以减少模型的过拟合程度。

7.根据权利要求5所述的一种场景感知与事件分类的多任务声学分析方法，其特征在于：所述卷积分支模块具体包括：

8.根据权利要求5所述的一种场景感知与事件分类的多任务声学分析方法，其特征在于：所述融合单元的执行步骤如下：

9.根据权利要求1所述的一种场景感知与事件分类的多任务声学分析方法，其特征在于：所述Cross-stitch模块的公式如下：

10.根据权利要求1所述的一种场景感知与事件分类的多任务声学分析方法，其特征在于：损失函数的流程如下：

...

【技术特征摘要】

1.一种场景感知与事件分类的多任务声学分析方法，其特征在于，包括以下步骤：

4.根据权利要求1所述的一种场景感知与事件分类的多任务声学分析方法，其特征在于：所述sed和asc两个任务中均采用3×3的频率动态卷积；在时间轴上对输入信号进行平均池化，沿着通道轴进行一维卷积来提取频率适应性的注意力权重；经过softmax函数对注意力权重进行调整，生成适应于特定频率的卷积核；这些卷积核被应用于标准的二维卷积中。

5.根据权利要求1所述的一种场景感知与事件分类的多任务声学分析方法，其特征在于：所述多分支注意力卷积网络由两个并行分支模块组成，分别是注意力分支模块和卷积分支模块；注意力分支模块用于提取全局特征，卷积分支模块用于提取局部细节特征；这两个分支接...

【专利技术属性】
技术研发人员：武梦龙，张海月，张琳，蔡希昌，
申请(专利权)人：北方工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人