【技术实现步骤摘要】
一种基于深度学习的音频多标签分类方法
[0001]本专利技术涉及环境声音识别的音频标记领域,特别是涉及一种对带有噪声的音频基于深度学习的多标签分类方法。具体通过对音频特征提取后,将其作为神经网络的输入进行训练,得到准确度较高的模型,从而进行标签分类。
技术介绍
[0002]近年来,深度学习在语音识别、图像分类、自动驾驶等领域都得到了广泛的应用,而环境声音识别的分类问题是一个在实际生活中应用非常广泛的问题,目前针对该问题的研究也逐渐成为了一个热点。
[0003]传统的单标签分类主要解决的是一个示例只属于一个类别的问题。然而在现实生活中,由于客观物体本身的复杂性和多义性,往往没有绝对的单标签分类问题,通常可能同时与多个类别标签相关。因此,为了更好地体现出实际对象所具有的多语义性,研究者们常使用一个包含多个相关语义标签的子集来描述该对象,多标签分类问题由此形成。对于音频的多标签分类而言,通常使用的方法可分为三大类:问题转换法、算法适用法和集成法。问题转换法是通过某种方法对数据集进行转换,使其从多标签数据集转化成单标签数据集 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习技术进行音频多标签分类的方法,其步骤如下:(1)数据。包括数据集的选择、降噪;(2)特征提取。包括STFT、MFCC,输入VGGish特征提取器得到128维high
‑
level的特征embedding;(3)模型。包括神经网络的组成及其超参数的初始化等;(4)训练。跟踪模型的损失函数等,确定神经网络种类,网络层数、超参数等因素对模型精确度的影响,从而不断调整模型参数,提高模型准确度;(5)评估。对模型的评价指标采用lwlrap,根据该评价指标的数学定义计算每条测试音频所包含的相关标签排序列表的平均精度;(6)多标签分类。将测试音频作为模型的输入,加载训练好的准确度较高的模型进行标签分类,并将预测的标签概率的结果输出。2.根据权利要求1所述的该系统所需的数据,需要进行以下变换,以进行数据的预处理操作:(1)选择适合音频多标签分类任务的数据集,如Kaggle平台上的FSDKaggle2019数据集;(2)利用RNNoise降噪算法得到全新的wav格式的降噪后的音频数据集;(3)利用VAD技术清理wav文件中的静音片段;(4)根据实验机器配置,设置合适大小及比例的训练数据及测试数据。3.根据权利要求1所述的音频特征提取,需要进行以下变换,以作为模型的输入:(1)将音频数据通过短时傅里叶变换;(2)提取梅尔频率倒谱系数特征;(3)输入VGGish网络将输入特征转化为具有语义和有意义的128维high
‑...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。