音频数据处理方法、装置及存储介质制造方法及图纸

技术编号:20047560 阅读:37 留言:0更新日期:2019-01-09 05:01
本发明专利技术公开了一种音频数据处理方法、装置及存储介质,所述方法包括:获取训练样本,然后提取训练样本中的多个特征信息,多个特征信息包括频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征,再将多个特征信息输入神经网络中进行特征融合训练,以得到训练后的特征融合参数,并根据特征融合参数生成音频分类模型,若接收到测试音频,则通过音频分类模型对测试音频进行分类。本发明专利技术实施例通过多个特征信息的特征融合,得到结合了多个方面特征的特征融合参数,并将特征融合参数再融入到音频分类模型中进行音频分类,提升了音频分类的准确率,能够有效区分现场音频与录音棚音频。

【技术实现步骤摘要】
音频数据处理方法、装置及存储介质
本专利技术实施例涉及音频处理领域,尤其涉及移动设备
,具体涉及一种音频数据处理方法、装置及存储介质。
技术介绍
现场-录音棚音频分类是曲库管理中遇到的一项挑战,对于给定音频,我们需要判断它来自现场录音还是录音棚,以提供给不同用户。其中,现场(Live)指演唱会、公开演唱等非专业环境下的音乐录音,录音棚(Studio)指专业录音环境下的音乐录音。在实现本专利技术过程中,专利技术人发现现有技术普遍存在非人工区分现场-录音棚音频容易混淆不清的问题。因此,有必要提出一种新的音频数据处理方法。
技术实现思路
本专利技术实施例提供一种音频数据处理方法、装置及存储介质,提升了音频分类的准确率,能够有效区分现场音频与录音棚音频。本专利技术实施例提供一种音频数据处理方法,所述方法包括:获取训练样本;提取所述训练样本中的多个特征信息,所述多个特征信息包括频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征;将所述多个特征信息输入神经网络中进行特征融合训练,以得到训练后的特征融合参数;根据所述特征融合参数生成音频分类模型本文档来自技高网...

【技术保护点】
1.一种音频数据处理方法,其特征在于,包括:获取训练样本;提取所述训练样本中的多个特征信息,所述多个特征信息包括频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征;将所述多个特征信息输入神经网络中进行特征融合训练,以得到训练后的特征融合参数;根据所述特征融合参数生成音频分类模型;若接收到测试音频,则通过所述音频分类模型对所述测试音频进行分类。

【技术特征摘要】
1.一种音频数据处理方法,其特征在于,包括:获取训练样本;提取所述训练样本中的多个特征信息,所述多个特征信息包括频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征;将所述多个特征信息输入神经网络中进行特征融合训练,以得到训练后的特征融合参数;根据所述特征融合参数生成音频分类模型;若接收到测试音频,则通过所述音频分类模型对所述测试音频进行分类。2.如权利要求1所述的音频数据处理方法,其特征在于,所述提取所述训练样本中的多个特征信息,包括:获取所述训练样本中的声谱图分频带均值,以提取出所述频谱高度特征;将所述训练样本进行预处理后输入第一卷积神经网络中进行训练,以提取所述纯音乐与人声的鉴别特征;将所述训练样本进行预处理后输入第二卷积神经网络中进行训练,以提取所述第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征。3.如权利要求2所述的音频数据处理方法,其特征在于,所述将所述训练样本进行预处理后输入第一卷积神经网络进行训练,以提取所述纯音乐与人声的鉴别特征,包括:根据第一采样率对所述训练样本进行重采样,以得到第一采样样本;截取所述第一采样样本中第三预设时长对应的音频样本;提取所述音频样本的归一化梅尔频谱;将所述音频样本的归一化梅尔频谱输入所述第一卷积神经网络中进行训练,以提取出所述纯音乐与人声的鉴别特征。4.如权利要求3所述的音频数据处理方法,其特征在于,所述截取所述第一采样样本中第三预设时长对应的音频样本,还包括:若所述第一采样样本的总时长小于所述第三预设时长,则对所述第一采样样本进行补零,以使得所述第一采样样本的总时长达到所述第三预设时长。5.如权利要求2所述的音频数据处理方法,其特征在于,所述将所述训练样本进行预处理后输入第二卷积神经网络中进行训练,以提取所述第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征,包括:根据第二采样率对所述训练样本进行重采样,以得到第二采样样本;截取所述第二采样样本中所述第一预设时长对应的音频开头样本,以及截取所述第二采样样本中所述第二预设时长对应的音频结尾样本;提取所述音频开头样本和音频结尾样本的归一化梅尔频谱;将所述音频开头样本和音频结尾样本的归一化梅尔频谱分别输入所述第二卷积神经网络中进行训练,以提取出所述第一预设时长对应的音频开头特征和所述第二预设时长对应的音频结尾特征。6.如权利要求5所述的音频数据处理方法,其特征在于,所述将所述音频开头样本和音频结尾样本的归一化梅尔频谱分别输入所述第二卷积神经网络中进行训练,包括:通过所述第二卷积神经网络检测所述开头音频样本和结尾音频样本是否含有说话声、欢呼声或者掌声的特征。7.如权利要求1-6任一项所述的音频数据处理方法,其特征在于,所述将所述多个特征信息输入神经网络中进行特征融合训练,以得到训练后的特征融合参数,包括:将所述频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征输入全连接神经网络中进行特征融合训练,以得到训练后的特征融合参数;所述根据所述特征融合参数生成音频分类模型,包括:将所述特征融合参数连接到sigmoid激活函数中,以根据所述特征融合参数与sigmoid激活函数生成所述音频分类模型。8.如权利要求7所述的音频数据处理方法,其特征在于,所述方法还包括:在所述全连接神经网络中添加规范化层,以对所述全连接神经网络进行规范化处理,以加速网络收敛。9.如权利要求7所述的音频数据处理方法,其特征在于,所述方法还包括:在所述全连接神经网络中添加预设比例的随机失活层,在训练所述全连接神经网络的过程中随机冻结所述预设比例对应的神经元,以抑制过拟合现象。10.一种音频数据处理装...

【专利技术属性】
技术研发人员:王征韬
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1