【技术实现步骤摘要】
一种基于深度学习的音频自动化标注方法
本专利技术涉及一种音频标注方法,特别涉及一种基于深度学习的音频自动化标注方法。
技术介绍
音频的结构化表示是MIR(MusicInformationRetrieval音乐信息检索)中的重要问题,它主要是从音频信号本身提取特征,实现对音频的检索。传统的依靠专家只是提取音色、旋律、节奏的方式不能够完整描绘音频细节,无法实现自动标注,准确率较低。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供一种利用卷积神经网络训练音频深度学习网络,构建深度学习模型,并利用最大投票算法实现音频自动化标注方法。为了实现上述专利技术目的,本专利技术提供了以下技术方案:一种基于深度学习的音频自动化标注方法,包括以下实现步骤:S1、输入原始音频文件,通过音频预处理,得到若干个原始语谱图片段;S2、将所述原始语谱图片段输入卷积神经网络中进行训练,构建深度学习模型;S3、输入待标注音频文件,通过音频预处理,得到若干个待标注语谱图片段;S4、基于所述深度学习模型,将所述待标注语谱图片段进行音频标注。作为本专利技术实施例的优选,所述原始音频文件 ...
【技术保护点】
一种基于深度学习的音频自动化标注方法,其特征在于,包括以下实现步骤:S1、输入原始音频文件,通过音频预处理,得到若干个原始语谱图片段;S2、将所述原始语谱图片段输入卷积神经网络中进行训练,构建深度学习模型;S3、输入待标注音频文件,通过音频预处理,得到若干个待标注语谱图片段;S4、基于所述深度学习模型,将所述待标注语谱图片段进行音频标注。
【技术特征摘要】
1.一种基于深度学习的音频自动化标注方法,其特征在于,包括以下实现步骤:S1、输入原始音频文件,通过音频预处理,得到若干个原始语谱图片段;S2、将所述原始语谱图片段输入卷积神经网络中进行训练,构建深度学习模型;S3、输入待标注音频文件,通过音频预处理,得到若干个待标注语谱图片段;S4、基于所述深度学习模型,将所述待标注语谱图片段进行音频标注。2.根据权利要求1所述的音频自动化标注方法,其特征在于,所述原始音频文件为现有曲库音频文件。3.根据权利要求1所述的音频自动化标注方法,其特征在于,步骤S1和S3所述的音频预处理的实现步骤为:S100、去除音频文件音频头部和尾部静音段,得到初始音频文件;S200、将所述初始音频文件进行分帧、加窗;S300、对于所述初始音频文件分帧后的每一帧进行快速傅里叶变换,然后按照时间t顺序拼接,得到二维矩阵;S400、将所述二维矩阵的频率轴刻转换为梅尔刻度;S500、将所述二维矩阵中的能量值取对数,并归一化到分贝刻度,通过取整,负数值变为0,得到梅尔语谱图;S600、将所述梅尔语谱图切片,得到若干语图谱片段。4.根据权利要求3所述的音频自动化标注方法,其特征在于,步骤S200中,所述初始音频文件进行分帧的过程为:对于采样率kHz的所述初始音频文件,设置其帧大小为a,帧移为b,将所述初始音频文件分割为帧。5.根据权利要求3所述的音频自动化标注方法,其特征在于,步骤S600中将所述梅尔语谱图切片,得到若干语图谱片段的过程为:所述梅尔语谱图为长为T,宽为F的二维矩阵,设置切片大小为S,得到在T方向上将二维矩阵切成T/S个矩阵,并舍弃长度小于S的矩阵。6...
【专利技术属性】
技术研发人员:尹学渊,江天宇,
申请(专利权)人:成都嗨翻屋文化传播有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。