【技术实现步骤摘要】
音频分类的方法、装置、电子设备及存储介质
[0001]本申请涉及人工智能领域,并且更具体地,涉及音频分类的方法、装置、设备以及存储介质。
技术介绍
[0002]音频分类是音频深度学习最广泛的应用之一,它通过深度学习对声音进行分类并预测声音的类别。音频分类可以应用到许多实际场景中,例如对音乐片段进行分类以识别音乐类型,或通过一组扬声器对短话语进行分类以根据声音识别人。
[0003]常见的音频分类算法以一整段音频作为模型输入,预测该整段音频的全局标签。但是,当音频数据中的音频片段类型丰富时,仅关注整段音频的全局信息将导致音频分类的准确率较低。
技术实现思路
[0004]本申请实施例提供了一种音频分类的方法、装置、设备以及存储介质,能够有助于提高音频分类的准确性。
[0005]第一方面,本申请实施例提供了一种音频分类的方法,包括:
[0006]获取音频文件的声谱特征;
[0007]利用神经网络模型,得到所述声谱特征的第一时域特征;
[0008]对所述第一时域特征进行分组,得到所述声谱特征的第二时域特征,所述第二时域特征的每个维度的特征向量表示所述音频文件中的每个音频片段的时域特征向量;
[0009]将所述第二时域特征输入分类模型,得到所述音频文件中的每个音频片段的第一特征标签;
[0010]根据所述每个音频片段的第一特征标签,确定所述音频文件的类型。
[0011]第二方面,本申请实施例提供了一种音频分类模型训练的方法,包括:
[0012 ...
【技术保护点】
【技术特征摘要】
1.一种音频分类的方法,其特征在于,包括:获取音频文件的声谱特征;利用神经网络模型,得到所述声谱特征的第一时域特征;对所述第一时域特征进行分组,得到所述声谱特征的第二时域特征,所述第二时域特征的每个维度的特征向量表示所述音频文件中的每个音频片段的时域特征向量;将所述第二时域特征输入分类模型,得到所述音频文件中的每个音频片段的第一特征标签;根据所述每个音频片段的第一特征标签,确定所述音频文件的类型。2.根据权利要求1所述的方法,其特征在于,所述对所述第一时域特征进行分组,得到所述声谱特征的第二时域特征,包括:获取所述音频文件的分组系数,所述分组系数表示单位时间对所述音频文件的采样点数;根据所述分组系数对所述第一时域特征进行分组,得到所述第二时域特征。3.根据权利要求2所述的方法,其特征在于,还包括:利用所述卷积神经网络模型,得所述声谱特征的频域特征;根据所述卷积神经网络模型输出的第一通道数、所述频域特征和所述分组系数,确定所述分类模型输入的第二通道数;其中,所述将所述第二时域特征输入分类模型,得到所述音频文件中的每个音频片段的第一特征标签,包括:根据所述第二通道数,将所述第二时域特征输入所述分类模型,得到所述音频文件中的每个音频片段的第一特征标签。4.根据权利要求3所述的方法,其特征在于,所述卷积神经网络模型输出第一特征张量,所述第一特征张量依次包括所述第一通道数、所述第一时域特征和所述频域特征;其中,所述根据所述卷积神经网络模型输出的第一通道数、所述频域特征和所述分组系数,确定第二通道数,包括:根据所述第一特征张量,得到第二特征张量,所述第二特征张量依次包括所述第一时域特征、所述第一通道数和所述频域特征;根据所述第二特征张量和所述分组系数,得到第三特征张量,其中,所述第三特征张量依次包括所述第二时域特征、所述分组系数和第三通道系数,所述第三通道数是对所述第一通道数和所述频域特征进行融合得到的;根据所述第三特征张量,得到第四特征张量,所述第四特征张量依次包括所述第二时域特征和所述第二通道数,其中,所述第二通道数是对所述分组系数和所述第三通道数进行融合得到的。5.根据权利要求1所述的方法,其特征在于,还包括:获取训练样本集,所述训练样本集包括音频文件样本和所述音频文件样本的分类标签;对所述音频文件样本的分类标签复制M份,得到所述音频文件样本中的每个音频片段的分类标签,其中,M的值是根据所述音频文件样本中的音频片段的数量确定的。6.根据权利要求1所述的方法,其特征在于,还包括:
根据所述第一时域特征,得到所述音频文件的第二特征标签;其中,所述根据所述每个音频片段的第一特征标签,确定所述音频文件的类型,包括:根据所述每个音频片段的第一特征标签和所述音频文件的第二特征标签,确定所述音频文件的类型。7.根据权利要求1所述的方法,其特征在于,所述声谱特征包括梅尔特征。8.根据权利要求1所述的方法,其特征在于,所述音频文件包括音乐文件。9.一种音频分类模型训练的方法,其特征在...
【专利技术属性】
技术研发人员:贺思颖,田思达,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。