本发明专利技术涉及一种音频标注方法,特别涉及一种基于深度学习的音频自动化标注方法。一种基于深度学习的音频自动化标注方法,包括以下实现步骤:输入原始音频文件,通过音频预处理,得到若干个原始语谱图片段;将所述原始语谱图片段输入卷积神经网络中进行训练,构建深度学习模型;输入待标注音频文件,通过音频预处理,得到若干个待标注语谱图片段;基于所述深度学习模型,将所述待标注语谱图片段进行音频标注。本发明专利技术利用卷积神经网络训练音频深度学习网络,实现音频自动化标注方法,相比于传统的人工标注方式,提高了标注准确率,提升了音频标注效率。
【技术实现步骤摘要】
一种基于深度学习的音频自动化标注方法
本专利技术涉及一种音频标注方法,特别涉及一种基于深度学习的音频自动化标注方法。
技术介绍
音频的结构化表示是MIR(MusicInformationRetrieval音乐信息检索)中的重要问题,它主要是从音频信号本身提取特征,实现对音频的检索。传统的依靠专家只是提取音色、旋律、节奏的方式不能够完整描绘音频细节,无法实现自动标注,准确率较低。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供一种利用卷积神经网络训练音频深度学习网络,构建深度学习模型,并利用最大投票算法实现音频自动化标注方法。为了实现上述专利技术目的,本专利技术提供了以下技术方案:一种基于深度学习的音频自动化标注方法,包括以下实现步骤:S1、输入原始音频文件,通过音频预处理,得到若干个原始语谱图片段;S2、将所述原始语谱图片段输入卷积神经网络中进行训练,构建深度学习模型;S3、输入待标注音频文件,通过音频预处理,得到若干个待标注语谱图片段;S4、基于所述深度学习模型,将所述待标注语谱图片段进行音频标注。作为本专利技术实施例的优选,所述原始音频文件为现有曲库音频文件。作为本专利技术实施例的优选,步骤S1和S3所述的音频预处理的实现步骤为:S100、去除音频文件音频头部和尾部静音段,得到初始音频文件;S200、将所述初始音频文件进行分帧、加窗;S300、对于所述初始音频文件分帧后的每一帧进行快速傅里叶变换,然后按照时间t顺序拼接,得到二维矩阵;S400、将所述二维矩阵的频率轴刻转换为梅尔刻度;S500、将所述二维矩阵中的能量值取对数,并归一化到分贝刻度,通过取整,负数值变为0,得到梅尔语谱图;S600、将所述梅尔语谱图切片,得到若干语图谱片段。作为本专利技术实施例的优选,步骤S200中,所述初始音频文件进行分帧的过程为:对于采样率kHz的所述初始音频文件,设置其帧大小为a,帧移为b,将所述初始音频文件分割为帧。作为本专利技术实施例的优选,步骤S600中将所述梅尔语谱图切片,得到若干语图谱片段的过程为:所述梅尔语谱图为长为T,宽为F的二维矩阵,设置切片大小为S,得到在T方向上将二维矩阵切成T/S个矩阵,并舍弃长度小于S的矩阵。作为本专利技术实施例的优选,步骤S2的实现步骤为:S21、将所述原始语谱图片段进行卷积、规则化和最大池化;S22、在时域上求得全局时域最大值、全局时域均值,并输入全连接层,对卷积神经网络输出值进行汇总;S23、将输出值输入Dropout层,设置参数为0.5;S24、将所述输出值输入输出层,利用损失函数,输出N个音频标签;所述损失函数为sigmoid交叉熵函数。作为本专利技术实施例的优选,所述全连接层层数为2,每层全连接层的神经元个数为2048。作为本专利技术实施例的优选,步骤S21的实现步骤为:S211、将所述语谱图片段输入卷积层在时域方向卷积,得到矩阵A;S212、将所述矩阵A输入Normalization层进行规则化操作,将输出值的均值归一化至为0,方差为1;S213、将所述输出值输入Activation层,利用激活函数ReLU激活;S214、通过MaxPooling层对输出值进行最大池化操作。作为本专利技术实施例的优选,步骤S21中所述卷积、规则化和最大池化的操作依次循环进行3次。作为本专利技术实施例的优选,步骤S4的实现过程为:S41、基于所述深度学习模型,对N个所述待标注语谱图片段进行标注,得到每个所述待标注语谱图片段对应的标注结果C={C1,C2,C3,…,Ck};k为标注类别的数量;S42、设置第i个所述待标注语谱图片段的标注结果为C[i],其最终标注结果为:S43、选取最终标注结果数值最大的前n个作为音频标注输出。与现有技术相比,本专利技术的有益效果:本专利技术基于深度学习技术,利用卷积神经网络训练音频深度学习网络,构建深度学习模型,并利用最大投票算法实现音频自动化标注,相比于传统的人工标注方式,提高了标注准确率,提升了音频标注效率。附图说明:图1为本专利技术的原理框图。图2为本专利技术的音频预处理的流程框图。图3为构建深度学习模型的流程框图。图4为本专利技术梅尔语谱图片段进行卷积、规则化、最大池化的流程框图。图5为本专利技术进行音频标注的流程框图。具体实施方式下面结合试验例及具体实施方式对本专利技术作进一步的详细描述。但不应将此理解为本专利技术上述主题的范围仅限于以下的实施例,凡基于本
技术实现思路
所实现的技术均属于本专利技术的范围。参见图1,一种基于深度学习的音频自动化标注方法,包括以下实现步骤:S1、输入原始音频文件,通过音频预处理,得到若干个原始语谱图片段;S2、将所述原始语谱图片段输入卷积神经网络中进行训练,构建深度学习模型;S3、输入待标注音频文件,通过音频预处理,得到若干个待标注语谱图片段;S4、基于所述深度学习模型,将所述待标注语谱图片段进行音频标注。优选地,步骤S1中所述原始音频文件为现有曲库中的音频文件。参见图2,具体地,步骤S1和S3所述的音频预处理的实现步骤为:S100、去除音频文件音频头部和尾部静音段,得到初始音频文件;S200、将所述初始音频文件进行分帧、加窗;通过此操作,可以减少在非整数个周期上进行快速傅里叶变换(FFT)产生的误差,优选加窗为汉明窗;具体地,所述初始音频文件进行分帧的过程为:对于采样率kHz的所述初始音频文件,设置其帧大小为a,帧移为b,将所述初始音频文件分割为帧;优选地,本专利技术实施例中,所述帧大小a=2048,帧移b=512。S300、对于所述初始音频文件分帧后的每一帧进行快速傅里叶变换(FFT),然后按照时间t顺序拼接,得到二维矩阵;所述二维矩阵中的每一个值表示时间为t及频率为f的对应的能量值;S400、将所述二维矩阵的频率轴刻度转换为梅尔刻度(梅尔刻度是一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度);具体地,将原始频率通过梅尔滤波器(即,三角重叠窗口)从而得到梅尔刻度,变换后的梅尔刻度频率轴取值为0-128,通过将频率轴刻度缩小,减少了计算量;S500、将所述二维矩阵中的能量值取对数,并归一化到分贝(db)刻度,通过取整,负数值变为0,得到梅尔语谱图;S600、将所述梅尔语谱图切片,得到若干语图谱片段;具体地,所述梅尔语谱图为长为T,宽为F的二维矩阵,设置切片大小为S,得到在T方向上将二维矩阵切成T/S个矩阵,并舍弃长度小于S的矩阵;参见图3,具体地,步骤S2的实现步骤为:S21、将所述原始语谱图片段进行卷积、规则化和最大池化操作;优选地,所述卷积、规则化和最大池化依次循环进行3次,可以有效识别音频类别并且具有较小的计算量。S22、在时域上求得全局时域最大值、全局时域均值,并输入全连接层,对卷积神经网络输出值进行汇总;优选地,本专利技术实施例的所述全连接层层数为2,每层全连接层的神经元个数为2048。S23、将输出值输入Dropout层,设置参数为0.5;所述参数0.5表示每个神经元节点以50%的概率停止激活;S24、将所述输出值输入输出层,利用损失函数,输出N个音频标签;所述损失函数为sigmoid交叉熵函数。参见图4,具体地,步骤S21的实现步骤为:S211、将所述语谱图片段输入卷积层在时域方向卷积,得到矩阵A;梅尔语谱图时间长度为T,频率长度为F,本文档来自技高网...

【技术保护点】
一种基于深度学习的音频自动化标注方法,其特征在于,包括以下实现步骤:S1、输入原始音频文件,通过音频预处理,得到若干个原始语谱图片段;S2、将所述原始语谱图片段输入卷积神经网络中进行训练,构建深度学习模型;S3、输入待标注音频文件,通过音频预处理,得到若干个待标注语谱图片段;S4、基于所述深度学习模型,将所述待标注语谱图片段进行音频标注。
【技术特征摘要】
1.一种基于深度学习的音频自动化标注方法,其特征在于,包括以下实现步骤:S1、输入原始音频文件,通过音频预处理,得到若干个原始语谱图片段;S2、将所述原始语谱图片段输入卷积神经网络中进行训练,构建深度学习模型;S3、输入待标注音频文件,通过音频预处理,得到若干个待标注语谱图片段;S4、基于所述深度学习模型,将所述待标注语谱图片段进行音频标注。2.根据权利要求1所述的音频自动化标注方法,其特征在于,所述原始音频文件为现有曲库音频文件。3.根据权利要求1所述的音频自动化标注方法,其特征在于,步骤S1和S3所述的音频预处理的实现步骤为:S100、去除音频文件音频头部和尾部静音段,得到初始音频文件;S200、将所述初始音频文件进行分帧、加窗;S300、对于所述初始音频文件分帧后的每一帧进行快速傅里叶变换,然后按照时间t顺序拼接,得到二维矩阵;S400、将所述二维矩阵的频率轴刻转换为梅尔刻度;S500、将所述二维矩阵中的能量值取对数,并归一化到分贝刻度,通过取整,负数值变为0,得到梅尔语谱图;S600、将所述梅尔语谱图切片,得到若干语图谱片段。4.根据权利要求3所述的音频自动化标注方法,其特征在于,步骤S200中,所述初始音频文件进行分帧的过程为:对于采样率kHz的所述初始音频文件,设置其帧大小为a,帧移为b,将所述初始音频文件分割为帧。5.根据权利要求3所述的音频自动化标注方法,其特征在于,步骤S600中将所述梅尔语谱图切片,得到若干语图谱片段的过程为:所述梅尔语谱图为长为T,宽为F的二维矩阵,设置切片大小为S,得到在T方向上将二维矩阵切成T/S个矩阵,并舍弃长度小于S的矩阵。6...
【专利技术属性】
技术研发人员:尹学渊,江天宇,
申请(专利权)人:成都嗨翻屋文化传播有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。