一种音频分类方法及系统及设备及存储介质技术方案

技术编号：31165374 阅读：32 留言：0更新日期：2021-12-04 10:40

本发明专利技术公开了一种音频分类方法，其通过如下步骤实现对混合类音频的处理分类：预处理，对输入的音频信号进行预加重、分帧和加窗实现对音频信号的预处理；音频帧特征提取，通过对输入的音频信号依次进行基音周期检测、谐波噪声比检测、提取语音和音乐和谐度的一阶差分、和谐度分段以及和谐度分段特征提取等步骤实现音频帧特征的提取；建模，建立一个基于CNN

全部详细技术资料下载

【技术实现步骤摘要】
一种音频分类方法及系统及设备及存储介质

[0001]本专利技术涉及音频处理领域，尤其涉及一种音频分类方法及系统及设备及存储介质。

技术介绍

[0002]音频数据具有编码方式、采样率等信息以外，本身是一种无结构的二进制流，具有数据量大、处理复杂、信息关联度高等特点，这使得音频信号的处理工作更加复杂，也给音频检索等应用带来了很大的困难。
[0003]音频分类技术是音频结构化的基础，能够解决上述问题，所以称为音频数据处理时最常用的预处理技术。但是，现有技术中的音频分类方法通常是将音频分类为某一个单一类别，而语音与音乐混合类数据是互联网中常见的音频数据，若仅仅标记为混合类，不够精细，已经无法满足一些音频信息处理系统的需求。
[0004]现有技术中的音频分类技术主要有基于规则、最小距离和统计学习算法三种。
[0005]基于规则的音频分类方法的思路是，选择能将音频类别区分开的特征，设定分类的规则。对音频分类时，根据规则，用计算得到的特征值予设定好的阈值进行比较，对音频进行分类。这种分类方法操作简单，但是只能识别特...

【技术保护点】

【技术特征摘要】
1.一种音频分类方法，其特征在于，通过如下步骤实现对混合类音频的处理分类：预处理，对输入的音频信号进行预加重、分帧和加窗实现对音频信号的预处理；音频帧特征提取，通过对输入的音频信号依次进行基音周期检测、谐波噪声比检测、提取语音和音乐和谐度的一阶差分、和谐度分段以及和谐度分段特征提取等步骤实现音频帧特征的提取；建模，建立一个基于CNN
‑
LSTM的分类模型并将提取的音频帧特征样本数据输入到模型中进行训练，直到模型的输出误差达到预设要求；分类处理，将待处理的音频信息的音频帧特征输入到建立的模型中进行处理分类并输出分类结果。2.根据权利要求1所述的一种音频分类方法，其特征在于，所述预加重的具体步骤公式为：其中，θx表示预加重系数，y(n)表示预加重处理后得到信号，x(n)表示音频信号第n个点的幅值。3.根据权利要求1所述的一种音频分类方法，其特征在于，所述分帧过程选择用20ms作为稳定时长，选择10ms作为帧叠。4.根据权利要求1所述的一种音频分类方法，其特征在于，所述基音周期检测过程通过时域估计法、变换法或混合法中的一种实现基音周期检测。5.根据权利要求1所述的一种音频分类方法，其特征在于，提取语音和音乐和谐度的一阶差分的过程包括如下步骤：s01,计算每个频率和跨越一定步长的频率之间的相关性，通过如下公式实现：s02，计算步骤S01中的离散函数中相邻两项之间的差，通过离散量之间的变化提取出语音和音乐和谐度的一阶差分。6.根据...

【专利技术属性】
技术研发人员：陈剑超，肖龙源，李稀敏，叶志坚，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人