【技术实现步骤摘要】
一种基于多尺度残差注意力网络的声音场景分类方法
[0001]本专利技术涉及人工智能
,更具体的说是涉及一种基于多尺度残差注意力网络的声音场景分类方法。
技术介绍
[0002]人类具有识别声音场景的固有能力,即可以根据一段音频,凭借以往的经验,来判断这段音频所处的场景,如地铁,公交等。随着信号处理和人工智能技术的不断发展,使机器设备理解声音、判断声音的来源也成为可能。声音场景分类(Acoustic scene classification,ASC)是一项多类别的分类任务,旨在根据音频片段识别出该音频所处的场景。目前,声音场景分类已被广泛地应用于智能穿戴设备、音频归档,交互机器人,安全监控等领域。
[0003]声音场景分类方法主要包括两大类:一种是基于传统机器学习的声音场景分类方法,如高斯混合模型,隐马尔可夫模型,支持向量机等,但其分类效果不高,泛化能力较差;另一种是基于深度学习的声音场景分类方法,如深度神经网络,卷积神经网络,循环神经网络等,但其往往只包含单一尺度的卷积核,挖掘的特征不够丰富全面,且未考虑不同区域 ...
【技术保护点】
【技术特征摘要】
1.一种基于多尺度残差注意力网络的声音场景分类方法,其特征在于,包括以下步骤:步骤1:采集音频数据进行特征提取,提取出对数梅尔频谱图及其一阶差分和二阶差分作为输入特征;步骤2:构建多尺度残差注意力网络,将输入特征输入到网络中进行训练建立分类模型;步骤3:采用mixup方法对音频数据进行处理,获得数据样本;步骤4:将所述数据样本输入所述分类模型进行分类,采用焦点损失关注分类困难的样本,优化分类模型;步骤5:获取新的声音场景语音,输入优化后的分类模型进行声音场景分类,得到声音场景分类结果。2.根据权利要求1所述的一种基于多尺度残差注意力网络的声音场景分类方法,其特征在于,所述步骤1中进行特征提取的具体过程为:步骤1.1:对所采集到的语音数据进行预加重处理;步骤1.2:将预加重后的语音数据进行分帧,分成若干帧语音信号;步骤1.3:采用汉宁窗函数对每帧语音信号进行加窗处理,得到短时加窗的语音信号;步骤1.4:将短时加窗的语音信号进行傅里叶变换将其从时域转换到频域,获得频域信号;步骤1.5:将得到的频域信号通过梅尔滤波器,得到梅尔频谱图;步骤1.6:对梅尔频谱图取对数得到对数梅尔频谱图;步骤1.7:对对数梅尔频谱图求其一阶差分和二阶差分,再将对数梅尔频谱图及其一阶差分、二阶差分堆叠起来,得到最终的输入特征。3.根据权利要求2所述的一种基于多尺度残差注意力网络的声音场景分类方法,其特征在于,所述步骤1中,对语音数据进行分帧时帧重叠率为50%;傅里叶变换过程中FFT点数为2048;梅尔滤波器个数为128。4.根据权利要求1所述的一种基于多尺度残差注意力网络的声音场景分类方法,其特征在于,所述步骤2的具体过程为:步骤2.1:将输入特征分为高频部分和低频部分;步骤2.2:分别将高频部分与低频部分输入多尺度残差注意力网络的通道注意力模块,根据特征的重要性分配不同的权重,生成新的特征;步骤2.3:将新的特征输入到多尺度残差注意力网络的多尺度残差模块,提取不同精度与不同深度的特征信息,获得高频部分特征图和低频部分特征图;步骤2.4:将高频部分特征图和低频部分特征图在频率维度上拼接起来,获得全部特征;步骤2.5:全部特征依次经过由批处理归一化层、修正线性单元以及1
×
1卷积层组成的卷积块,由BN层以及1
×
1卷积层组成的卷积块,批处理归一化层,全局平均池化层,以及softmax层进行分类,获得分类模型。5.根据权利要求4所述的一种基于多尺...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。