【技术实现步骤摘要】
基于注意力机制的声音事件样本混合方法及装置
[0001]本专利技术涉及数字媒体处理
,尤其涉及一种基于注意力机制的声音事件样本混合方法及装置。
技术介绍
[0002]音频分类任务是识别在给定的音频记录中发生的声音事件,并使各种基于人工智能的系统能够区分声音和理解声学环境,其基本流程如图1所示。音频分类在家庭、办公室、工业、交通方面有广泛的健康和安全应用,并已成为声学信号处理领域的一个活跃研究课题。
[0003]现有技术中,最先进的音频分类算法采用了几种数据增强方法。这些数据增强方法不产生额外的训练数据,而是直接改变输入特征。样本混合(Mixup)按一定比例将两个音频样本叠加,以产生混合样本。谱图掩蔽是指将一段连续的帧或频带用指定值掩蔽。频带增强指的是按照一定策略选择部分频带,并对这些频带的信号进行增益或减益。
[0004]然而,现有技术中这种对整个谱图或整个频段的处理忽略了声音事件的原始分布和持续时间。盲目地随机掩盖连续的时间帧或频带,有可能掩盖目标事件的信息。使用整个样本进行混合处理,可能会干扰原本包 ...
【技术保护点】
【技术特征摘要】
1.基于注意力机制的声音事件样本混合方法,其特征在于,包括:S1:获取原始音频样本,构建为训练数据集;S2:对训练数据集中的每一个音频样本提取出对数梅尔频谱;S3:将音频样本的对数梅尔频谱输入预训练的基于注意力机制的音频分类模型,对音频样本进行分类,得到音频样本的注意力图,其中,注意力图包括多个权重,用以描述每个输入特征对其他所有输入特征的重要性,权重值的高低表示输出特征从对应位置的输入特征获取信息的多少,每一个输入特征对应一个块;S4:根据音频样本的注意力图中权重值的大小,选取N个权重值最大对应的块作为锚块,并将锚块的中心点作为锚点,N为正整数;S5:根据所选择的锚点和预先设定的阈值,将注意力图转化为0
‑
1掩蔽图,0
‑
1掩蔽图的形状与音频样本的对数梅尔频谱一致;S6:从训练数据集中随机选择两个音频样本,根据其中一个音频样本的0
‑
1掩蔽图,对随机选择出的两个音频样本进行混合。2.如权利要求1所述的基于注意力机制的声音事件样本混合方法,其特征在于,在将音频样本的对数梅尔频谱输入预训练的基于注意力机制的音频分类模型之前,所述方法还包括:将音频样本的对数梅尔频谱分割成若干个16
×
16的块,这些会被展平、投影成特定维度的特征。3.如权利要求2所述的基于注意力机制的声音事件样本混合方法,其特征在于,预训练的基于注意力机制的音频分类模型为Transformer模型。4.如权利要求1所述的基于注意力机制的声音事件样本混合方法,其特征在于,步骤S5包括:S5.1:初始化一张0
‑
1掩蔽图,该图上所有位置的默认值均为0;S5.2:选定一个锚块,将其中心点(i,j)为锚点,中心点(i,j)的值表示第i帧的第j个频带的信号幅度值;S5.3:根据锚点所在的帧,选中其附近的2W+1帧,在0
‑
1掩蔽图上对应标记为1,所选帧的范围是[i
‑
W,i+W],W为预设参数;S5.4:重复步骤S5.2和S5.3,直到所有锚块都已经生成对应的区域并标记在0
‑
1掩蔽图上。5.如权利要求1所述的基于注意力机制的声音事件样本混合方法,其特征在于,从训练数据集中随机...
【专利技术属性】
技术研发人员:任延珍,刘武洋,王靖茹,涂卫平,杨玉红,
申请(专利权)人:武汉大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。