一种基于深度学习语料库分类方法和存储设备技术

技术编号:24996212 阅读:74 留言:0更新日期:2020-07-24 17:58
本发明专利技术涉及数据处理领域,特别涉及一种基于深度学习语料库分类方法和存储设备。所述一种基于深度学习语料库分类方法,包括步骤:获取音频数据;对音频数据进行预处理;通过keras构建以VGG16为骨干网络的音频分类网络;设置神经网络初始化参数,并将预处理后的音频数据对应的图像输入神经网络;获得训练后的神经网络模型;获得收敛后的神经网络模型;对待分类的音频数据进行预处理,获得待分类音频数据对应的图像;输入待分类音频数据对应的图像至收敛后的神经网络模型,输出音频判别参数。因为神经网络的使用,使得可以在不需要平行音频数据的情况下筛选出高质量音频数据,且全程自动化无需人工筛选,大大提高效率。

【技术实现步骤摘要】
一种基于深度学习语料库分类方法和存储设备
本专利技术涉及数据处理领域,特别涉及一种基于深度学习语料库分类方法和存储设备。
技术介绍
现有技术中,越来越多的深度学习语音方面对训练集语料数据质量要求越来越高,如StarGAN-VC语音风格转换,利用StarGAN的图像到图像翻译原理,来实现“多对多”的非平行数据集下的语音音色转换,其实质是对语音的梅尔能量进行转换,但当前没有比较有效的筛选、清洗语料库的方法,大多靠人工主观筛选,或需要平行音频数据(平行数据是指对不同时刻的横截面个体作连续观测所得到的多维数据)进行对比(如PESQ算法:是ITU语音评估算法标准,是电信/通讯领域中应用最广的技术。然而现在很多的是非平行音频数据需要处理,故如果单靠人工主观筛选,效率非常低下。因此如何快速地对非平行音频数据进行有效地筛选成了亟需解决的问题。
技术实现思路
为此,需要提供一种基于深度学习语料库分类方法,用以解决如何快速的对非平行音频数据进行有效地筛选,筛选出符合条件的高质量语料。具体技术方案如下:一种基于深度学习语料库分类方法,包括步骤:获取音频数据;对所述音频数据进行预处理,获得所述音频数据对应的图像;通过keras构建以VGG16为骨干网络的音频分类网络;设置神经网络初始化参数,并将预处理后的音频数据对应的图像输入神经网络,根据BP算法进行训练;获得训练后的神经网络模型;测试训练后的神经网络模型是否需要重训练,若训练后的神经网络模型不需要重训练,则获得收敛后的神经网络模型;对待分类的音频数据进行预处理,获得待分类音频数据对应的图像;输入待分类音频数据对应的图像至收敛后的神经网络模型,输出音频判别参数。进一步的,所述“预处理”,还包括步骤:将音频数据切分成第一预设时间长度一个音频文件;用World工具通过Harvest算法以第二预设时间长度帧间隔提取基频;通过matplotlib工具将所述基频存成图像。进一步的,所述“通过keras构建以VGG16为骨干网络的音频分类网络”,还包括步骤:通过keras构建以VGG16为基础网络,去除最后三层FC层,以及softmax层,增加flatten层,后接2维FC层,再接softmax层进行分类,以二值交叉熵作为损失函数。进一步的,所述“测试训练后的神经网络模型是否需要重训练,若训练后的神经网络模型不需要重训练,则获得收敛后的神经网络模型”,还包括步骤:resize所述音频数据对应的图像,将resize后图像送入训练后的神经网络,输出音频判别参数,判断所述音频判别参数是否符合预设条件,若所述音频判别参数符合预设条件,则完成收敛操作。进一步的,所述音频判别参数包括:音频类别和/或置信度。为解决上述技术问题,还提供了一种存储设备,具体技术方案如下:一种存储设备,其中存储有指令集,所述指令集用于执行:获取音频数据;对所述音频数据进行预处理,获得所述音频数据对应的图像;通过keras构建以VGG16为骨干网络的音频分类网络;设置神经网络初始化参数,并将预处理后的音频数据对应的图像输入神经网络,根据BP算法进行训练;获得训练后的神经网络模型;测试训练后的神经网络模型是否需要重训练,若训练后的神经网络模型不需要重训练,则获得收敛后的神经网络模型;对待分类的音频数据进行预处理,获得待分类音频数据对应的图像;输入待分类音频数据对应的图像至收敛后的神经网络模型,输出音频判别参数。进一步的,所述指令集还用于执行:所述“预处理”,还包括步骤:将音频数据切分成第一预设时间长度一个音频文件;用World工具通过Harvest算法以第二预设时间长度帧间隔提取基频;通过matplotlib工具将所述基频存成图像。进一步的,所述指令集还用于执行:所述“通过keras构建以VGG16为骨干网络的音频分类网络”,还包括步骤:通过keras构建以VGG16为基础网络,去除最后三层FC层,以及softmax层,增加flatten层,后接2维FC层,再接softmax层进行分类,以二值交叉熵作为损失函数。进一步的,所述指令集还用于执行:所述“测试训练后的神经网络模型是否需要重训练,若训练后的神经网络模型不需要重训练,则获得收敛后的神经网络模型”,还包括步骤:resize所述音频数据对应的图像,将resize后图像送入训练后的神经网络,输出音频判别参数,判断所述音频判别参数是否符合预设条件,若所述音频判别参数符合预设条件,则完成收敛操作。进一步的,所述指令集还用于执行:所述音频判别参数包括:音频类别和/或置信度。本专利技术的有益效果是:通过keras构建以VGG16为骨干网络的音频分类网络;设置神经网络初始化参数,并将预处理后的音频数据对应的图像输入神经网络,根据BP算法进行训练;获得训练后的神经网络模型;测试训练后的神经网络模型是否需要重训练,若训练后的神经网络模型不需要重训练,则获得收敛后的神经网络模型;利用收敛后的神经网络模型对待分类音频数据对应的图像进行分类,因为神经网络的使用,使得可以在不需要平行音频数据的情况下筛选出高质量音频数据,且全程自动化无需人工筛选,大大提高效率。并且可根据用户需求可输出不同质量等级的音频数据,以便于辅助评测录音设备录音质量效果等。附图说明图1为具体实施方式所述一种基于深度学习语料库分类方法的流程图;图2为具体实施方式所述高质量A类图像;图3为具体实施方式所述低质量B类图像;图4为一种存储设备的模块示意图。附图标记说明:400、存储设备。具体实施方式为详细说明技术方案的
技术实现思路
、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。请参阅图1,在本实施方式中,一种基于深度学习语料库分类方法可应用在一种存储设备上,所述存储设备包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端等。具体实施如下:步骤S101:获取音频数据。步骤S102:对所述音频数据进行预处理,获得所述音频数据对应的图像。步骤S103:通过keras构建以VGG16为骨干网络的音频分类网络。步骤S104:设置神经网络初始化参数,并将预处理后的音频数据对应的图像输入神经网络,根据BP算法进行训练。步骤S105:获得训练后的神经网络模型。步骤S106:测试训练后的神经网络模型是否需要重训练,若训练后的神经网络模型不需要重训练,则获得收敛后的神经网络模型。步骤S107:对待分类的音频数据进行预处理,获得待分类音频数据对应的图像。步骤S108:输入待分类音频数据对应的图像至收敛后的神经网络模型,输出音频判别参数。需要说明的是,在本实施方式中,所举的实施例仅包含高质量音频数据和低质量音频数据,但是在其它实施方式中,可根据实际场景需要划分多类的音频数据,对此类别不做限定。其中步骤S101可具体采用如下方式:收集大量高质量本文档来自技高网
...

【技术保护点】
1.一种基于深度学习语料库分类方法,其特征在于,包括步骤:/n获取音频数据;/n对所述音频数据进行预处理,获得所述音频数据对应的图像;/n通过keras构建以VGG16为骨干网络的音频分类网络;/n设置神经网络初始化参数,并将预处理后的音频数据对应的图像输入神经网络,根据BP算法进行训练;/n获得训练后的神经网络模型;/n测试训练后的神经网络模型是否需要重训练,若训练后的神经网络模型不需要重训练,则获得收敛后的神经网络模型;/n对待分类的音频数据进行预处理,获得待分类音频数据对应的图像;/n输入待分类音频数据对应的图像至收敛后的神经网络模型,输出音频判别参数。/n

【技术特征摘要】
1.一种基于深度学习语料库分类方法,其特征在于,包括步骤:
获取音频数据;
对所述音频数据进行预处理,获得所述音频数据对应的图像;
通过keras构建以VGG16为骨干网络的音频分类网络;
设置神经网络初始化参数,并将预处理后的音频数据对应的图像输入神经网络,根据BP算法进行训练;
获得训练后的神经网络模型;
测试训练后的神经网络模型是否需要重训练,若训练后的神经网络模型不需要重训练,则获得收敛后的神经网络模型;
对待分类的音频数据进行预处理,获得待分类音频数据对应的图像;
输入待分类音频数据对应的图像至收敛后的神经网络模型,输出音频判别参数。


2.根据权利要求1所述的一种基于深度学习语料库分类方法,其特征在于,
所述“预处理”,还包括步骤:
将音频数据切分成第一预设时间长度一个音频文件;
用World工具通过Harvest算法以第二预设时间长度帧间隔提取基频;
通过matplotlib工具将所述基频存成图像。


3.根据权利要求1所述的一种基于深度学习语料库分类方法,其特征在于,
所述“通过keras构建以VGG16为骨干网络的音频分类网络”,还包括步骤:
通过keras构建以VGG16为基础网络,去除最后三层FC层,以及softmax层,增加flatten层,后接2维FC层,再接softmax层进行分类,以二值交叉熵作为损失函数。


4.根据权利要求1所述的一种基于深度学习语料库分类方法,其特征在于,
所述“测试训练后的神经网络模型是否需要重训练,若训练后的神经网络模型不需要重训练,则获得收敛后的神经网络模型”,还包括步骤:
resize所述音频数据对应的图像,将resize后图像送入训练后的神经网络,输出音频判别参数,判断所述音频判别参数是否符合预设条件,若所述音频判别参数符合预设条件,则完成收敛操作。


5.根据权利要求1所述的一种基于深度学习语料库分类方法,其特征在于,
所述音频判别参数包括:音频类别和/或置信度。


6...

【专利技术属性】
技术研发人员:吴丽
申请(专利权)人:福州瑞芯微电子股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1