一种基于融合通道注意力机制的残差模块的声音事件定位与识别方法技术

技术编号:38590347 阅读:17 留言:0更新日期:2023-08-26 23:30
本发明专利技术提供一种基于融合通道注意力机制的残差模块的声音事件定位与识别方法,该方法采用了SE残差块对网络的特征提取能力和空间信息的融合进行了改进,同时可以实现同时进行声音事件检测和声音事件定位,减少了算法复杂度和计算量,使用联合训练的方法优化了声音事件检测和声音事件定位任务的损失函数,提高了模型的泛化能力和稳定性。模型的泛化能力和稳定性。模型的泛化能力和稳定性。

【技术实现步骤摘要】
一种基于融合通道注意力机制的残差模块的声音事件定位与识别方法


[0001]本专利技术涉及声音信号处理领域,具体涉及一种基于融合通道注意力机制的残差模块的声音事件定位与识别方法。

技术介绍

[0002]声音事件定位和检测是指从多个音频信号源中识别和定位出特定的声音事件,例如车辆鸣笛、人类语音等。这项研究具有重要的实际应用,例如在智能音频监控、自动驾驶和安全监控等领域。在实际应用中,声音事件定位和检测受到多种因素的干扰,例如环境噪声、信号衰减、多路径传播和干扰等。因此,研究人员需要开发新的算法和技术来解决这些挑战。传统的方法包括使用传感器阵列和信号处理技术来定位声源,但这些方法在实际应用中存在一些限制,例如成本高昂、需要复杂的设备和大量计算资源等。
[0003]近年来,深度学习技术的快速发展为解决声音事件定位和检测带来了新的机会。深度学习技术能够自动从数据中提取特征,并能够学习复杂的非线性模型,具有较高的准确性和鲁棒性。因此,许多研究人员开始探索将深度学习技术应用于声音事件定位和检测中。但是现有的网络结构存在一些问题,例如对数据的特征提取并不全面,没有重视数据通道间的空间信息特征等。

技术实现思路

[0004]针对以上的问题,本专利技术提供一种基于融合通道注意力机制的残差模块的声音事件定位与识别方法,该方法采用了SE残差块对网络的特征提取能力和空间信息的融合进行了改进,同时可以实现同时进行声音事件检测和声音事件定位,减少了算法复杂度和计算量,使用联合训练的方法优化了声音事件检测和声音事件定位任务的损失函数,提高了模型的泛化能力和稳定性。
[0005]本专利技术通过以下技术方案实现:
[0006]一种基于融合通道注意力机制的残差模块的声音事件定位与识别方法,其特征在于,包括如下步骤:
[0007]步骤一:声事件数据集的采集与预处理,采集多通道的音频数据集,使用一阶Ambisonics(FOA)格式信号,然后对数据进行预处理得到多通道的对数梅尔频谱和FOA强度向量;
[0008]步骤二:特征提取,将步骤一得到的对数梅尔普图和强度向量输入到融合通道注意力机制的残差模块网络中提取所需特征;
[0009]步骤三:音频事件检测(SED):对步骤二得到的特征使用一个全连接神经网络对每个时刻的特征进行分类,每个时间步长上,SED任务输出一个二值分类标签,表示该时间步长是否存在声音事件,以确定是否存在音频事件。
[0010]步骤四:音频事件定位(SEL):对步骤二得到的特征使用另一个对每个时刻的特征
进行回归任务,每个时间步长上,SEL任务输出一个四元组,表示声音事件在三维空间中的位置和持续时间。
[0011]步骤五:多任务学习:将音频数据划分为训练集、验证集以及测试集,搭建时域卷积神经网络对音频数据进行训练,将SED和SEL任务的损失函数结合起来,使用联合训练的方法进行优化。
[0012]步骤六:使用预先定义的评估指标对模型进行评估,并与其他方法进行比较,以确定其性能是否足够优秀。
[0013]作为技术方案的优选,步骤一中,音频数据的预处理方法,将采集到数据保存为四通道的FOA格式,采样频率为24KHz,使用1024点FFT,40毫秒的汉宁窗口和20毫秒的跳跃长度计算四通道频谱图,从频谱图中提取了64个mel频带的对数梅尔频谱图;从FOA谱图中计算每个STFT频段的声学强度矢量的空间特征,并被聚合到类似数量的Mel频带中为网络提供输入。
[0014]作为技术方案的优选,步骤三中,步骤三中,对于声音事件定位与识别解码器,我们采用了双线性门控循环单元,然后跟随层归一化和双曲正切激活。然后,通过应用两个全连接层和双曲正切激活来获取声音事件定位与识别输出。最终,对于每个时刻,根据预测的类别概率计算每个事件的位置和持续时间。
[0015]作为技术方案的优选,步骤二中,使用了SE残差模块。残差块使网络的感受野进行了提升,对卷积神经网路在更细粒度级别的多尺度表达能力进行了更进一步的探索,对网络的特征提取能力进行了大幅的提升;挤压与激励模块将声音每个通道的时域和频域坐标挤压为一个标量值,然后对其进行激励,最后和对应的通道特征图进行重加权操作,实现全局空间信息融合。
[0016]作为技术方案的优选,步骤五中,该模型使用多任务学习框架来同时学习SED和SEL任务。具体来说,我们使用两个不同的输出分支,一个用于预测SED任务,另一个用于预测SEL任务。两个分支共享相同的输入特征,并通过共享卷积层来学习特征表示。同时,我们使用不同的分类器来处理SED和SEL任务的分类。在训练过程中,我们采用多任务损失函数来同时优化两个任务的性能,从而使得模型能够同时处理SED和SEL任务。
[0017]与现有技术相比,本专利技术的优点及有益效果为:
[0018]1、本专利技术提供一种基于融合通道注意力机制的残差模块的声音事件定位与识别方法,用于在复杂的环境中准确地识别和定位多个声源。该方法使用融合通道注意力机制的残差模块网络来处理输入的音频信号,其中采用了残差块和挤压与激励网络模块等技术来提高模型的特征提取能力和全局空间信息的融合。该方法不仅能够识别声源的类别,还能够估计它们在空间中的位置,从而实现对多个声源的定位和分离。
[0019]2、本专利技术方法不需要使用复杂的特征工程来提取音频信号中的有用信息,而是利用融合通道注意力机制的残差模块网络自动学习音频信号中的特征,可以在不增加模型复杂度的情况下提高模型的性能。
附图说明
[0020]下面是该方法主要的附图。
[0021]图1为本专利技术提供的数据处理流程示意图。
[0022]图2为本专利技术融合通道注意力机制的残差模块网络整体的结构示意图。
[0023]图3为本专利技术残差块结构图。
具体实施方式
[0024]下面通过实施例对本专利技术做进一步地详细说明,这些实施例仅用来说明本专利技术,并不限制本专利技术的保护范围。
[0025]如图1所示,本专利技术提供一种基于融合通道注意力机制的残差模块的声音事件定位与识别方法,包括以下步骤:
[0026]音频数据集的采集使用Kinect2.0的四通道麦克风阵列,麦克风阵列架设在离地1.2米的三脚架上,在室内采集闹钟声,婴儿哭泣声,敲门声,狗叫声,走路声,钢琴声等十四种声音并标注声音的类型和位置信息。
[0027](1)音频数据的预处理:将采集到数据保存为四通道的FOA格式,采样频率为24KHz,使用1024点FFT,40毫秒的汉宁窗口和20毫秒的跳跃长度计算四通道频谱图,从频谱图中提取了64个mel频带的对数梅尔频谱图;从FOA谱图中计算每个STFT频段的声学强度矢量的空间特征,并被聚合到类似数量的Mel频带中为网络提供输入;
[0028](2)音频数据的特征提取:将频谱图输入网络模型进行特征提取,模型中SE残差模块扩张了网络的感受野,加深网络结构优化了网络层,通道注意力机制对通道特征进行压缩激励并加权得到高级特征图,之后进入全本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于融合通道注意力机制的残差模块的声音事件定位与识别方法,其特征在于,包括如下步骤:步骤一:声事件数据集的采集与预处理,采集多通道的音频数据集,使用一阶Ambisonics(FOA)格式信号,然后对数据进行预处理得到多通道的对数梅尔频谱和FOA强度向量;步骤二:特征提取,将步骤一得到的对数梅尔普图和强度向量输入到融合通道注意力机制的残差模块网络中提取所需特征;步骤三:音频事件检测(SED):对步骤二得到的特征使用一个全连接神经网络对每个时刻的特征进行分类,每个时间步长上,SED任务输出一个二值分类标签,表示该时间步长是否存在声音事件,以确定是否存在音频事件;步骤四:音频事件定位(SEL):对步骤二得到的特征使用另一个对每个时刻的特征进行回归任务,每个时间步长上,SEL任务输出一个四元组,表示声音事件在三维空间中的位置和持续时间;步骤五:多任务学习:将音频数据划分为训练集、验证集以及测试集,搭建融合通道注意力机制的残差对音频数据进行训练,将SED和SEL任务的损失函数结合起来,使用联合训练的方法进行优化;步骤六:使用预先定义的评估指标对模型进行评估,并与其他方法进行比较,以确定其性能是否足够优秀。2.根据权利要求1所述的基于融合通道注意力机制的残差模块的声音事件定位与识别方法,其特征在于,步骤一中,音频数据的预处理方法,将采集到数据保存为四通道的FOA格式,采样频率为24KHz,使用1024点FFT,40毫秒的汉宁窗口和20毫秒的跳跃长度计算四通道频谱图,从频谱图中提取了64个mel频带的对数梅尔频谱图;从F...

【专利技术属性】
技术研发人员:刘一欣王玫杨松铭
申请(专利权)人:桂林理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1