一种音频数据处理方法和预测方法技术

技术编号:36688782 阅读:13 留言:0更新日期:2023-02-27 19:54
本发明专利技术涉及音频处理技术领域中的一种音频数据处理方法和预测方法,包括以下步骤:获取音频数据集,并将音频数据集进行预处理,得到预处理音频集;提取预处理音频集内的每一段音频的每一帧音频信号,并提取每一帧音频信号的特征语谱图集合,其中,特征语谱图集合包括两种以上的特征语谱图;归一化处理特征语谱图集合,并生成多通道特征;生成神经网络模型,并将多通道特征作为输入进行神经网络训练,解决了能够针对音频的多特征进行深度学习的问题。了能够针对音频的多特征进行深度学习的问题。了能够针对音频的多特征进行深度学习的问题。

【技术实现步骤摘要】
一种音频数据处理方法和预测方法


[0001]本专利技术涉及音频处理
,具体涉及一种音频数据处理方法和预测方法。

技术介绍

[0002]目前,音频分类算法技术人员通过提取音频的梅尔频率倒谱系数(Mel

Frequency Cepstral Coefficients,MFCC)语谱图,再利用循环神经网络或者卷积神经网络训练音频分类模型。
[0003]而单一的提取音频MFCC语谱图过于简单,包含的音频信息量比较少,神经网络训练时很难学习到音频的深层次特征。
[0004]循环神经网络具有记忆功能,倾向于处理那些与时间先后有关的任务,比如文本上下文的预测,然而在噪音分类模型上更倾向于将目标作为一个整体考虑。卷积神经网络具有局部感受野、权值共享和降采样三个特点,可以减少模型的参数和复杂度,但是随着网络层数增加模型难以训练且深层网络可能无法学习到更深层次的内容。

技术实现思路

[0005]本专利技术针对现有技术中的缺点,提供了一种音频数据处理方法和预测方法,解决了能够针对音频的多特征进行深度学习的问题。
[0006]为了解决上述技术问题,本专利技术通过下述技术方案得以解决:
[0007]一种音频数据处理方法,包括以下步骤:
[0008]获取音频数据集,并将所述音频数据集进行预处理,得到预处理音频集;
[0009]提取所述预处理音频集内的每一段音频的每一帧音频信号,并提取每一帧所述音频信号的特征语谱图集合,其中,所述特征语谱图集合包括两种以上的特征语谱图;
[0010]归一化处理所述特征语谱图集合,并生成多通道特征;
[0011]生成神经网络模型,并将所述多通道特征作为输入进行神经网络训练。
[0012]可选的,所述音频数据集进行预处理,包括以下步骤:
[0013]过滤所述音频数据集中的无用音频,并统一所述音频数据集中的每一段音频的音频时长;
[0014]将过滤后的音频数据集的每段音频数据进行分帧和加窗处理,得到预处理音频集。
[0015]可选的,过滤所述音频数据集中的无用音频,包括以下步骤:
[0016]删除所述音频数据集中,无法判断的音频数据;
[0017]设定第一音频长度阈值和频率阈值,删除所述音频数据集中,音频长度短于所述第一音频长度阈值或频率低于所述频率阈值的音频数据。
[0018]可选的,统一所述音频数据集中的每一段音频的音频时长,包括以下步骤:
[0019]设定第二音频长度阈值,判断所述音频数据集中的音频数据的音频长度与第二音频长度阈值的大小;
[0020]若所述音频数据的音频长度大于或等于第二音频长度阈值,则连续截取标准时长的音频数据;
[0021]若所述音频数据的音频长度小于第二音频长度阈值,则采用截取或填充方法,得到标准时长的音频数据。
[0022]可选的,提取每一帧所述音频信号的特征语谱图集合,包括以下步骤:
[0023]依次获取所述音频信号的功率归一化色谱图、梅尔倒谱系数、梅尔频谱以及常数Q色谱图。
[0024]可选的,生成多通道特征,包括以下步骤:
[0025]设定所述预处理音频集内的每一段音频数据的音频帧长、帧移以及最大音频时长,计算音频帧数;
[0026]基于所述音频帧长、音频帧数以及特征语谱图集合生成多通道特征,其中,所述多通道特征的通道与特征语谱图集合内的特征语谱图一一对应。
[0027]可选的,将所述多通道特征作为输入进行神经网络训练,包括以下步骤:
[0028]将所述多通道特征输入多通道输入层;
[0029]所述神经网络模型的深度残差卷积层根据残差法训练输入的多通道特征,得到不同音频分类的神经网络模型,并生成模型库。
[0030]可选的,还包括以下步骤:
[0031]获取音频验证集,并基于所述音频验证集优化所述神经网络模型的学习率。
[0032]一种音频数据预测方法,包括使用如上述任意一项所述的音频数据处理方法,得到训练后的神经网络模型,还包括以下步骤:
[0033]获取音频测试集,并将所述音频测试集进行预处理,得到预处理音频测试集;
[0034]提取所述预处理音频测试集内的每一段音频的每一帧测试音频信号,并提取每一帧所述测试音频信号的测试特征语谱图集合,其中,所述测试特征语谱图集合包括两种以上的特征语谱图;
[0035]归一化处理所述测试特征语谱图集合,并生成多通道测试特征;
[0036]调用训练后的神经网络模型,并将所述多通道测试特征作为输入,得到音频分类结果;
[0037]修改所述音频分类结果的格式为用于展示的格式。
[0038]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,执行上述任意一项所述的音频数据处理方法。
[0039]采用本专利技术提供的技术方案,与现有技术相比,具有如下有益效果:
[0040]通过构建音频不同音频特征的语谱图进行特征融合,得到多通道特征,保证网络可以学习到更多的音频特征,提升模型的准确率;通过使用残差法对卷积层的输入进行修改,解决了卷积网络退化和难以训练的问题;灵活的模型应用能力,通过模型库的方式实现模型共享、快速部署,根据不同实际场景选择相应的模型,减少模型间的干扰性。
附图说明
[0041]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0042]图1为本实施例一和实施例二提出的一种音频数据处理方法和预测方法的流程图;
[0043]图2为本实施例一提出的对音频信号进行分帧处理的示例图;
[0044]图3为本实施例一提出的对音频信号进行加窗处理后连续两帧之间重叠情况的示例图;
[0045]图4为本实施例一提出的音频特征融合后的多通道特征图;
[0046]图5为本实施例一提出的卷积池化层结构图;
[0047]图6为本实施例一提出的多通道残差卷积网络结构图。
具体实施方式
[0048]下面结合实施例对本专利技术做进一步的详细说明,以下实施例是对本专利技术的解释而本专利技术并不局限于以下实施例。
[0049]实施例一
[0050]如图1所示,一种音频数据处理方法,包括以下步骤:获取音频数据集即训练集,并将音频数据集进行预处理,得到预处理音频集,首先实用声级计现场采集音频数据,得到音频数据集,其中,音频数据集进行预处理,包括以下步骤:过滤音频数据集中的无用音频,并统一音频数据集中的每一段音频的音频时长;将过滤后的音频数据集的每段音频数据进行分帧和加窗处理,得到预处理音频集。
[0051]具体地,过滤音频数据集中的无用音频,包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频数据处理方法,其特征在于,包括以下步骤:获取音频数据集,并将所述音频数据集进行预处理,得到预处理音频集;提取所述预处理音频集内的每一段音频的每一帧音频信号,并提取每一帧所述音频信号的特征语谱图集合,其中,所述特征语谱图集合包括两种以上的特征语谱图;归一化处理所述特征语谱图集合,并生成多通道特征;生成神经网络模型,并将所述多通道特征作为输入进行神经网络训练。2.根据权利要求1所述的一种音频数据处理方法,其特征在于,所述音频数据集进行预处理,包括以下步骤:过滤所述音频数据集中的无用音频,并统一所述音频数据集中的每一段音频的音频时长;将过滤后的音频数据集的每段音频数据进行分帧和加窗处理,得到预处理音频集。3.根据权利要求2所述的一种音频数据处理方法,其特征在于,过滤所述音频数据集中的无用音频,包括以下步骤:删除所述音频数据集中,无法判断的音频数据;设定第一音频长度阈值和频率阈值,删除所述音频数据集中,音频长度短于所述第一音频长度阈值或频率低于所述频率阈值的音频数据。4.根据权利要求2所述的一种音频数据处理方法,其特征在于,统一所述音频数据集中的每一段音频的音频时长,包括以下步骤:设定第二音频长度阈值,判断所述音频数据集中的音频数据的音频长度与第二音频长度阈值的大小;若所述音频数据的音频长度大于或等于第二音频长度阈值,则连续截取标准时长的音频数据;若所述音频数据的音频长度小于第二音频长度阈值,则采用截取或填充方法,得到标准时长的音频数据。5.根据权利要求1所述的一种音频数据处理方法,其特征在于,提取每一帧所述音频信号的特征语谱图集合,包括以下步骤:依次获取所述音频信号的功率归一化色谱图、梅尔倒谱系数、梅尔频谱以及常数Q色谱图。6.根据权利要求...

【专利技术属性】
技术研发人员:张凯帆张静毛志德郑红王双杰
申请(专利权)人:杭州爱华仪器有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1