【技术实现步骤摘要】
一种基于深度互信息最大化的半监督音频事件识别方法
:本专利技术涉及一种音频事件识别方法,具体涉及一种基于深度互信息最大化的半监督音频事件识别方法。
技术介绍
:音频信号携带了大量有关日常环境以及物理事件发生位置的信息。人类可以轻松感知所处的声音场景(繁忙的街道,办公室等),并识别各个音频事件(汽车,脚步声等)。对音频事件的自动检测在现实生活中具有许多应用。对于传统的声音事件分类,较依赖于人工预处理特征,如人工选取MFCC的滤波器个数、音调质心特征能量等。这些传统方法在目前应用中缺乏效率与实用性。基于深度学习的声音事件分类方法利用神经网络进行自动特征提取与结果分类,但目前最先进的深度学习方法通常需要大量的标签数据才能获得较高的性能。特别是对于音频事件识别,数据集需要包含由音频源的不可预知性而产生的变化多样的音频数据,从而增加了的数据获取的难度,更重要的是数据标签成本随之升高。因此学者开始研究基于半监督学习的音频事件识别方法,此前研究的半监督学习算法主要研究一致性正则方法提升模型的鲁棒性,但目前的一致性正则方法通常构建基于模型输 ...
【技术保护点】
1.一种基于深度互信息最大化的半监督音频事件识别方法,其特征在于:内容包括:/n步骤1:构建样本数据集,样本数据集中包括无标签样本和有标签样本;/n步骤2:构建半监督神经网络模型和互信息判别器模型,对输入的无标签样本进行数据增强,并将数据增强前及数据增强后的样本输入半监督神经网络模型中进行特征提取;有标签样本输出相应的分类概率分布,并计算其分类损失;无标签样本分别导出数据增强前的深度表征向量以及数据增强后的深度表征向量,将数据增强前的深度表征向量与数据增强后的深度表征向量进行矩阵式拼接,获得表征向量重组矩阵;将表征向量重组矩阵输入至互信息判别器模型进行计算,得到互信息损失, ...
【技术特征摘要】 【专利技术属性】
1.一种基于深度互信息最大化的半监督音频事件识别方法,其特征在于:内容包括:
步骤1:构建样本数据集,样本数据集中包括无标签样本和有标签样本;
步骤2:构建半监督神经网络模型和互信息判别器模型,对输入的无标签样本进行数据增强,并将数据增强前及数据增强后的样本输入半监督神经网络模型中进行特征提取;有标签样本输出相应的分类概率分布,并计算其分类损失;无标签样本分别导出数据增强前的深度表征向量以及数据增强后的深度表征向量,将数据增强前的深度表征向量与数据增强后的深度表征向量进行矩阵式拼接,获得表征向量重组矩阵;将表征向量重组矩阵输入至互信息判别器模型进行计算,得到互信息损失,将互信息损失与分类损失结合得到半监督神经网络模型的总体损失目标函数;
步骤3:对半监督神经网络模型参数进行优化,并输出训练好的半监督神经网络模型;
步骤4:将待分类识别的音频样本进行预处理,然后输入训练好的半监督神经网络模型,最后输出对应的分类类别。
2.根据权利要求1所述的一种基于深度互信息最大化的半监督音频事件识别方法,其特征在于:所述步骤1中样本数据集的构建内容如下:
步骤1.1:开始遍历所有音频样本;
步骤1.2:对音频样本进行STFT变换和对数Mel滤波,获得含不确定长度L的对数Mel频谱,并设置维度判断值;
步骤1.3:进行维度判断,若不确定长度L未超过设定维度值,则将获得的对数Mel频谱随机放入所设定维度的空矩阵中;若不确定长度L超过设定维度值,将对数Mel频谱随机裁剪使其符合设定维度;
步骤1.4:将步骤1.3中处理后的对数Mel频谱从幅度单位转换为分贝单位,获得输入样本;
步骤1.5:判断输入样本是否含有标签,若含有标签则将音频数据与标签形成样本对保存成标签样本,若不含标签则保存为无标签样本;
步骤1.6:判断是否遍历所有样本,是则退出,否则选择下一个样本重新执行步骤1.2。
3.根据权利要求1所述的一种基于深度互信息最大化的半监督音频事件识别方法,其特征在于:所述步骤2中输入的无标签样本为ui,数据增强后的无标签样本为输入的有标签样本对为xi,pi,分类概率分布为qi,对于无标签样本数据增强前、后的深度表征向量为zi和输入的样本批大小为N;分类损失Llabel采用对pi,qi计算二分类交叉熵方式计算,如下式所示:
技术研发人员:刘半藤,郑启航,王章权,陈友荣,
申请(专利权)人:浙江树人学院浙江树人大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。