一种音频数据处理方法和预测方法技术

技术编号：36688782 阅读：13 留言：0更新日期：2023-02-27 19:54

本发明专利技术涉及音频处理技术领域中的一种音频数据处理方法和预测方法，包括以下步骤：获取音频数据集，并将音频数据集进行预处理，得到预处理音频集；提取预处理音频集内的每一段音频的每一帧音频信号，并提取每一帧音频信号的特征语谱图集合，其中，特征语谱图集合包括两种以上的特征语谱图；归一化处理特征语谱图集合，并生成多通道特征；生成神经网络模型，并将多通道特征作为输入进行神经网络训练，解决了能够针对音频的多特征进行深度学习的问题。了能够针对音频的多特征进行深度学习的问题。了能够针对音频的多特征进行深度学习的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频数据处理方法和预测方法

[0001]本专利技术涉及音频处理
，具体涉及一种音频数据处理方法和预测方法。

技术介绍

[0002]目前，音频分类算法技术人员通过提取音频的梅尔频率倒谱系数(Mel
‑
Frequency Cepstral Coefficients，MFCC)语谱图，再利用循环神经网络或者卷积神经网络训练音频分类模型。
[0003]而单一的提取音频MFCC语谱图过于简单，包含的音频信息量比较少，神经网络训练时很难学习到音频的深层次特征。
[0004]循环神经网络具有记忆功能，倾向于处理那些与时间先后有关的任务，比如文本上下文的预测，然而在噪音分类模型上更倾向于将目标作为一个整体考虑。卷积神经网络具有局部感受野、权值共享和降采样三个特点，可以减少模型的参数和复杂度，但是随着网络层数增加模型难以训练且深层网络可能无法学习到更深层次的内容。

技术实现思路

[0005]本专利技术针对现有技术中的缺点，提供了一种音频数据处理方法和预测方法，解决了能够针对音频的多特征进行深度学习的问题。
[0006]为了解决上述技术问题，本专利技术通过下述技术方案得以解决：
[0007]一种音频数据处理方法，包括以下步骤：
[0008]获取音频数据集，并将所述音频数据集进行预处理，得到预处理音频集；
[0009]提取所述预处理音频集内的每一段音频的每一帧音频信号，并提取每一帧所述音频信号的特征语谱图集合，其中，所述特征语谱图集合包括两种以上的...

【技术保护点】

【技术特征摘要】
1.一种音频数据处理方法，其特征在于，包括以下步骤：获取音频数据集，并将所述音频数据集进行预处理，得到预处理音频集；提取所述预处理音频集内的每一段音频的每一帧音频信号，并提取每一帧所述音频信号的特征语谱图集合，其中，所述特征语谱图集合包括两种以上的特征语谱图；归一化处理所述特征语谱图集合，并生成多通道特征；生成神经网络模型，并将所述多通道特征作为输入进行神经网络训练。2.根据权利要求1所述的一种音频数据处理方法，其特征在于，所述音频数据集进行预处理，包括以下步骤：过滤所述音频数据集中的无用音频，并统一所述音频数据集中的每一段音频的音频时长；将过滤后的音频数据集的每段音频数据进行分帧和加窗处理，得到预处理音频集。3.根据权利要求2所述的一种音频数据处理方法，其特征在于，过滤所述音频数据集中的无用音频，包括以下步骤：删除所述音频数据集中，无法判断的音频数据；设定第一音频长度阈值和频率阈值，删除所述音频数据集中，音频长度短于所述第一音频长度阈值或频率低于所述频率阈值的音频数据。4.根据权利要求2所述的一种音频数据处理方法，其特征在于，统一所述音频数据集中的每一段音频的音频时长，包括以下步骤：设定第二音频长度阈值，判断所述音频数据集中的音频数据的音频长度与第二音频长度阈值的大小；若所述音频数据的音频长度大于或等于第二音频长度阈值，则连续截取标准时长的音频数据；若所述音频数据的音频长度小于第二音频长度阈值，则采用截取或填充方法，得到标准时长的音频数据。5.根据权利要求1所述的一种音频数据处理方法，其特征在于，提取每一帧所述音频信号的特征语谱图集合，包括以下步骤：依次获取所述音频信号的功率归一化色谱图、梅尔倒谱系数、梅尔频谱以及常数Q色谱图。6.根据权利要求...

【专利技术属性】
技术研发人员：张凯帆，张静，毛志德，郑红，王双杰，
申请(专利权)人：杭州爱华仪器有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人