基于自适应宽度自注意力机制的轻量化异常声事件检测方法技术

技术编号:33205904 阅读:89 留言:0更新日期:2022-04-24 00:52
本发明专利技术公开了基于自适应宽度自注意力机制的轻量化异常声事件检测方法,该方法首先把带标签的音频进行信号处理得到它的某种时频特征表示;其次,把带标签的特征表示(通常是向量或矩阵)当作输入,给自适应宽度自注意力机制模型,然后,自适应宽度自注意力机制模型中有定义好的损失函数和随机初始化注意力权重,根据自适应自注意力机制算法算出和标签的损失值,接下来用反向传播算法,更新自适应注意力权重,通过对注意力三个输入权重持续进行更新迭代,直到损失函数达到最小或理想状态。最后,使用轻量化的方法保存此时的权重参数,接下来以此权重参数为模型对一段未标注的音频做预测,快速准确的对发生的异常声事件。快速准确的对发生的异常声事件。快速准确的对发生的异常声事件。

【技术实现步骤摘要】
基于自适应宽度自注意力机制的轻量化异常声事件检测方法


[0001]本专利技术涉及利用自注意力机制实现异常重叠声事件检测的方法,具体是一种基于自适应宽度自注意力机制的轻量化异常声事件检测方法。

技术介绍

[0002]异常声事件检测技术属于声学事件识别的研究领域,在智能家居、城市道路异常检测、故障检测等智慧城市生活中有重要的应用价值。
[0003]声音事件检测任务主要由信号处理和机器学习模型组成,其中常用的信号处理方式有加噪声、快速傅里叶变换(Fast Fourier Transform 以下简称FFT)、梅尔倒谱系数(Mel Frequency Cepstral Coefficient 以下简称 MFCC)特征提取等。
[0004]已有的一些利用神经网络构建学习模型进行生事件检测的方法,包括利用卷积神经网络(Convolutional Neural Network 以下简称 CNN)的模型,基于循环神经网络(Recurrent Neural Network 以下简称 RNN)的网络结构单独训练或者联合训练达到声音事件检测的方案。但本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于自适应宽度自注意力机制的轻量化异常声事件检测方法,其特征是:包括如下步骤:(1)构建合成音频数据集,并对每个包含多个异常声事件的音频进行标签和分类;(2)对数据集进行预处理和特征提取,送入搭建好的自适应宽度自注意力机制模型中进行网络迭代训练,直到模型达到最优;(3)使用轻量化的方法对模型进行压缩,得到自适应宽度自注意力机制的轻量化检测模型;(4)将待检测音频进行预处理、特征提取,送入压缩好的检测模型中进行检测,得到预测结果。2.根据权利要求1所述的基于自适应宽度自注意力机制的轻量化异常声事件检测方法,其特征是:步骤(1)所述标签和分类,是:首先拿到一定数量的已标记的单声音事件音频,对每类声事件进行编号,得到声事件类的总数为,然后随机对一些声事件进行合成以得到合成音频,并对该音频进行标记,其中表示在合成时使用了第类声事件;最后,导出标签文件,文件记录了音频文件名,每个音频文件名下发生的每类声事件类别。3.根据权利要求1所述的基于自适应宽度自注意力机制的轻量化异常声事件检测方法,其特征是:步骤(2)和步骤(4)所述预处理和特征提取,是对语音的处理都进行采样率为16kHZ的重采样,然后音频波形进行标准化,将音频波形数据统一映射到上,采用max标准化:,其中:是音频文件(.wav)经过Python(wav)程序包读取得到的数据;采用短时傅里叶变换(STFT)对所有音频提取40维的对数梅尔频率倒谱系数,具体参数为:、采样率为、帧重叠采取;提取40维对数梅尔倒谱系数,并采用z

score标准化:假设秒经过STFT得到的对数梅尔倒谱系数为,其中,是秒的帧数,,,得到映射后的对数梅尔倒谱系数:,其均值为0方差为1。4.根据权利要求1所述的基于自适应宽度自注意力机制的轻量化异常声事件检测方法,其特征是:步骤(1)所述音频标签:将以秒为单位的标签转换为以帧为单位的标签,对每个标签文件采取如下步骤变换已得到以帧为单位的音频标签编码矩阵,标签编码由0元素和1元素组成,矩阵的列数为总帧数,矩阵的行数为声事件类别总数;其中:一个包含了类声事件的异常声事件的音频标签编码矩阵从秒单位转换成帧单位过程如下:
首先产生一个行列的零矩阵,音频持续时间为秒,矩阵的行数为声事件类别数;当标签第类声事件发生时间,就把其中第类声事件对应的第行向量持续的时间准换成帧单位的长度,并把对应的零向量换成1向量;最后,每个单个声事件的向量结合到一起的矩阵,就是该合成异常声事件的音频标签编码矩阵。5.根据权利要求1所述的基于自适应宽度自注意力机制的轻量化异常声事件检测方法,其特征是:步骤(3)所述自适应宽度自注意力机制的轻量化检测模型的搭建方法,包括:1)预训练模型:采用Python框架搭建如下的自注意力机制模型网络:模型经过了3次卷积、三次池化、一次门控循环单元(GRU)、一层自适应宽度自注意力机制、一层时间分布;其中:第一层为输入层、输入40维对数梅尔倒谱系数;第二层为输入通道为64的2维卷积(卷积核为5*5)层接(5*1)的最大2d池化;第三层为输入通道为64的2维卷积(卷积核为5*5)层接(4*1)的最大2d池化;第四层为输入通道为64的2维卷积(卷积核为5*5)层接(2*1)的最大2d池化;第五层为是由reshape和Permute组成对第四层的输出进行降维和转置;第六层为使用神经元个数为64、使用tanh激活的GRU;第七层为一个自适应宽度自注意力机制、采用add

attention...

【专利技术属性】
技术研发人员:安正义姚雨宋浠瑜王玫仇洪冰
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1