【技术实现步骤摘要】
一种基于强化学习的环境声音分类方法及系统
[0001]本专利技术属于环境声音分类
,特别是涉及一种基于强化学习的环境声音分类方法及系统。
技术介绍
[0002]环境声音识别是计算机听觉领域中的一个重要研究方向,其可分为环境声音分类、环境声音增强和声音场景分类等,其在机器故障诊断、智慧城市和医疗监控等领域的应用非常广泛。其中,环境声音分类的主要目的是对检测到的音频片段进行精准分类,如汽车喇叭、狗吠声、钻孔、发动机空转、枪击等环境声音片段。
[0003]近年来,随着计算机技术和硬件技术的发展,深度学习在图像与语音领域的应用引起了广泛的关注。其中,如深度神经网络、卷积神经网络等算法在环境声音分类领域中展现出了巨大的潜力并取得了不错的效果。然而,这些精准的分类结果往往是依赖数据扩充、复杂的模型结构和对声音信号进行大量的特征提取得到的,如何使用单一的特征数据得到高精度的分类结果依然是一项挑战。
[0004]综上,亟需提供一种在单一特征下的环境声音分类方法。
技术实现思路
[0005]为了克服现有技 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的环境声音分类方法,其特征在于,包括以下步骤:步骤A:构建样本数据集;步骤B:基于强化学习的CNN网络模型训练,包括:步骤B1:初始化模型参数;步骤B2:采用强化学习方法训练CNN模型;步骤C:利用训练完成的CNN模型进行环境声音分类。2.如权利要求1所述的一种基于强化学习的环境声音分类方法,其特征在于,步骤A具体如下:步骤A1:首先,读取环境声音文件,然后,提取每个环境声音信号的梅尔频率倒谱系数(MFCC)特征参数;步骤A2:调整得到的MFCC特征矩阵的大小;通过补零处理调整特征矩阵的矩阵大小,矩阵大小调整至50*50,然后进行归一化处理;步骤A3:构建样本数据集;将处理过的MFCC特征矩阵结合样本标签构建样本数据集,并将样本数据集分为训练集和测试集。3.如权利要求2所述的一种基于强化学习的环境声音分类方法,其特征在于,步骤A1中提取每个环境声音信号的梅尔频率倒谱系数(MFCC)特征参数,具体步骤如下:(1)、对环境声音信号进行加窗分帧;(2)、对分帧后的信号进行离散傅里叶变换得到信号的频谱;(3)、将所得的信号频谱通过具有梅尔刻度的梅尔滤波器;(4)、将通过梅尔滤波器的信号做对数运算得到梅尔对数频谱;(5)、对梅尔对数频谱做离散余弦变换得到其倒谱,倒谱系数即为梅尔频率倒谱系数。4.如权利要求3所述的一种基于强化学习的环境声音分类方法,其特征在于,步骤B1所述的初始化模型参数,包括初始化容量大小为N=512的经验回放池D;初始化模型中Actor网络参数θ
s
和Critic网络参数θ
c
,设置Actor网络参数更新频率F=64;设置总训练轮次K=1700,设置每轮次迭代次数T=512;设置样本批次输入大小P=64;设置ε贪心算法的初始值ε=1.0;将样本的样本标签设定为预测结果空间A。5.如权利要求4所述的一种基于强化学习的环境声音分类方法,其特征在于,步骤B2具体步骤如下:(1)、从样本数据集的训练集中随机抽取样本数据输入Actor网络,利用Actor网络计算该样本属于所有样本标签类别的Q值,然后根据ε贪心策略输出预测结果,即以ε的概率随机抽取待选结果中的任一结果,以(1
‑
ε)的概率选取结果作为预测结果;ε为一个动态值,其计算公式如下:ε=1
‑
0.99k/Z
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中Z=1800,k表...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。