【技术实现步骤摘要】
一种基于深度学习语料库分类方法和存储设备
本专利技术涉及数据处理领域,特别涉及一种基于深度学习语料库分类方法和存储设备。
技术介绍
现有技术中,越来越多的深度学习语音方面对训练集语料数据质量要求越来越高,如StarGAN-VC语音风格转换,利用StarGAN的图像到图像翻译原理,来实现“多对多”的非平行数据集下的语音音色转换,其实质是对语音的梅尔能量进行转换,但当前没有比较有效的筛选、清洗语料库的方法,大多靠人工主观筛选,或需要平行音频数据(平行数据是指对不同时刻的横截面个体作连续观测所得到的多维数据)进行对比(如PESQ算法:是ITU语音评估算法标准,是电信/通讯领域中应用最广的技术。然而现在很多的是非平行音频数据需要处理,故如果单靠人工主观筛选,效率非常低下。因此如何快速地对非平行音频数据进行有效地筛选成了亟需解决的问题。
技术实现思路
为此,需要提供一种基于深度学习语料库分类方法,用以解决如何快速的对非平行音频数据进行有效地筛选,筛选出符合条件的高质量语料。具体技术方案如下: ...
【技术保护点】
1.一种基于深度学习语料库分类方法,其特征在于,包括步骤:/n获取音频数据;/n对所述音频数据进行预处理,获得所述音频数据对应的图像;/n通过keras构建以VGG16为骨干网络的音频分类网络;/n设置神经网络初始化参数,并将预处理后的音频数据对应的图像输入神经网络,根据BP算法进行训练;/n获得训练后的神经网络模型;/n测试训练后的神经网络模型是否需要重训练,若训练后的神经网络模型不需要重训练,则获得收敛后的神经网络模型;/n对待分类的音频数据进行预处理,获得待分类音频数据对应的图像;/n输入待分类音频数据对应的图像至收敛后的神经网络模型,输出音频判别参数。/n
【技术特征摘要】
1.一种基于深度学习语料库分类方法,其特征在于,包括步骤:
获取音频数据;
对所述音频数据进行预处理,获得所述音频数据对应的图像;
通过keras构建以VGG16为骨干网络的音频分类网络;
设置神经网络初始化参数,并将预处理后的音频数据对应的图像输入神经网络,根据BP算法进行训练;
获得训练后的神经网络模型;
测试训练后的神经网络模型是否需要重训练,若训练后的神经网络模型不需要重训练,则获得收敛后的神经网络模型;
对待分类的音频数据进行预处理,获得待分类音频数据对应的图像;
输入待分类音频数据对应的图像至收敛后的神经网络模型,输出音频判别参数。
2.根据权利要求1所述的一种基于深度学习语料库分类方法,其特征在于,
所述“预处理”,还包括步骤:
将音频数据切分成第一预设时间长度一个音频文件;
用World工具通过Harvest算法以第二预设时间长度帧间隔提取基频;
通过matplotlib工具将所述基频存成图像。
3.根据权利要求1所述的一种基于深度学习语料库分类方法,其特征在于,
所述“通过keras构建以VGG16为骨干网络的音频分类网络”,还包括步骤:
通过keras构建以VGG16为基础网络,去除最后三层FC层,以及softmax层,增加flatten层,后接2维FC层,再接softmax层进行分类,以二值交叉熵作为损失函数。
4.根据权利要求1所述的一种基于深度学习语料库分类方法,其特征在于,
所述“测试训练后的神经网络模型是否需要重训练,若训练后的神经网络模型不需要重训练,则获得收敛后的神经网络模型”,还包括步骤:
resize所述音频数据对应的图像,将resize后图像送入训练后的神经网络,输出音频判别参数,判断所述音频判别参数是否符合预设条件,若所述音频判别参数符合预设条件,则完成收敛操作。
5.根据权利要求1所述的一种基于深度学习语料库分类方法,其特征在于,
所述音频判别参数包括:音频类别和/或置信度。
6...
【专利技术属性】
技术研发人员:吴丽,
申请(专利权)人:福州瑞芯微电子股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。