一种音频分类模型的训练方法、音频的分类方法及装置制造方法及图纸

技术编号:26306149 阅读:28 留言:0更新日期:2020-11-10 20:04
本发明专利技术公开了一种音频分类模型的训练方法,包括:根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算,得到音频的训练集;将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱;将所述频谱输入至预设的GRU神经网络中进行后向传播训练,直至损失收敛,以得到训练完成的音频分类模型。本发明专利技术实施例还公开了一种音频的分类方法及装置,能有效解决现有技术由于环境噪音的影响经常出现误检的问题。

【技术实现步骤摘要】
一种音频分类模型的训练方法、音频的分类方法及装置
本专利技术涉及音频分类
,尤其涉及一种音频分类模型的训练方法、音频的分类方法及装置。
技术介绍
随着智能家庭设备的普及,现代家庭中对家庭安全和生活方便舒适度的要求越来越高,而智能家庭设备上关于音频的分类与识别功能会大大提高家庭的安全度与生活方便性,例如家用摄像头的婴儿哭声检测,老人摔倒声音报警,语音识别,人机交互等功能。因此,各种音频的分类检测技术正在成为智能家居(IoT)中的关键性技术。常见的音频分类方法主要时模板匹配法和基于特征提取的机器学习方法,模板匹配法是基于概率的语言模型模拟音频分布的方法型。但实际条件中,声音受到各种因素的影响,包括环境,语速,口语化等,使得实际分布并不能很好的符合高斯分布,因此采用该种方法的准确率难以有保障。而基于特征提取的机器学习方法,非常依赖训练集的好坏。但实际应用中,很难包含如此多的音频种类,因此该种方法的适用性并不是很广泛。且上述两种方法受环境噪音的影响都非常大,由于环境噪音的影响经常出现误检问题。
技术实现思路
本专利技术实施例提供一种音频分类模型的训练方法、音频的分类方法及装置,能有效解决现有技术由于环境噪音的影响经常出现误检的问题。本专利技术一实施例提供一种音频分类模型的训练方法,包括:根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算,得到音频的训练集;其中,所述音频的训练集包括:去噪后的音频数据;将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱;将所述频谱输入至预设的GRU神经网络中进行后向传播训练,直至损失收敛,以得到训练完成的音频分类模型。作为上述方案的改进,所述根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算,得到音频的训练集,具体包括:计算每一帧所述音频样本集中的音频数据的音频特征;根据所述高斯概率模型分别对每一音频特征进行拟合,以得到对应的背景噪声的幅度谱;将所述每一帧所述音频样本集中的音频数据的幅度谱与对应的背景噪声的幅度谱做差得到第一音频幅度谱,并保存至所述音频的训练集。作为上述方案的改进,所述音频特征包括:基频以及短时能量;则对应地,所述根据所述高斯概率模型分别对每一音频特征进行拟合,以得到对应的背景噪声的幅度谱,具体包括:根据所述高斯概率模型分别对基频以及短时能量进行拟合,分别得到所述基频对应的第一高斯分布曲线及所述短时能量对应的第二高斯分布曲线;通过所述第一高斯分布曲线得到基频的范围,所述第二高斯分布曲线得到短时能量的范围;根据所述基频的范围以及所述短时能量的范围拟合出对应的背景噪声的幅度谱。作为上述方案的改进,在所述根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算,得到音频的训练之前,还包括:对采集的原音频数据进行预处理得到所述音频样本集。作为上述方案的改进,在根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算,得到音频的训练集之后,在所述将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱之前,还包括:对所述音频的训练集中的音频数据依次进行分帧处理、加窗处理及重叠处理。本专利技术另一实施例提供了一种音频的分类方法,包括:获取待处理的音频数据,并计算所述待处理的音频数据对应的幅度谱;将所述待处理的音频数据输入至训练完成的音频分类模型,计算得到对应的音频分类结果;其中,所述训练完成的音频分类模型包括:根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算,得到音频的训练集;将所述音频的训练集输入至预设的GRU神经网络中进行后向传播训练,直至损失收敛,以得到训练完成的音频分类模型。作为上述方案的改进,所述将所述待处理的音频数据输入至训练完成的音频分类模型,计算得到对应的音频分类结果,具体包括:计算待处理的音频数据的音频特征;根据所述高斯概率模型分别对每一音频特征进行拟合,以得到对应的背景噪声的幅度谱;将所述待处理的音频数据对应的幅度谱与所述背景噪声的幅度谱做差,得到第一音频幅度谱;根据所述第一音频幅度谱输入至预设的GRU神经网络中,计算得到对应的音频分类结果。作为上述方案的改进,在将所述待处理的音频数据输入至训练完成的音频分类模型,计算得到对应的音频分类结果,之后还包括:响应于接收到音频分类的提示指令,则根据所述音频分类结果发出对应的提示信息。本专利技术另一实施例提供了一种音频分类模型的训练装置,包括:去噪模块,用于根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算,得到音频的训练集;其中,所述音频的训练集包括:去噪后的音频数据;计算模块,用于将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱;训练模块,用于将所述频谱输入至预设的GRU神经网络中进行后向传播训练,直至损失收敛,以得到训练完成的音频分类模型。本专利技术另一实施例提供了一种音频的分类装置,包括:获取模块,用于获取待处理的音频数据,并计算所述待处理的音频数据对应的幅度谱;分类模块,用于将所述待处理的音频数据输入至训练完成的音频分类模型,计算得到对应的音频分类结果;其中,所述训练完成的音频分类模型包括:根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算,得到音频的训练集;将所述音频的训练集输入至预设的GRU神经网络中进行后向传播训练,直至损失收敛,以得到训练完成的音频分类模型。与现有技术相比,本专利技术实施例公开的音频分类模型的训练方法、音频的分类方法及装置,通过先根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算,以对音频样本集中的音频数据进行去噪处理,从而得到音频的训练集,再将音频的训练集中的音频数据进行傅里叶变换得到对应的频谱,并输入至预设的GRU神经网络中进行后向传播训练,直至损失收敛,以得到训练完成的音频分类模型。这样,由于先对预先采集的音频样本集中的音频数据进行去噪处理,降低了环境噪声对音频数据的影响,使得训练集中的音频数据更加准确,从而音频分类模型的分类结果更加准确,进而可以更好的识别音频的种类。附图说明图1是本专利技术一实施例提供的一种音频分类模型的训练方法的流程示意图;图2是本专利技术一实施例提供的GRU神经网络的示意图;图3是本专利技术一实施例提供的一种音频分类模型的训练方法中的步骤S10的流程示意图;图4是本专利技术一实施例提供的一种音频的分类方法的流程示意图;图5是本专利技术一实施例提供的一种音频的分类方法中的步骤S20’的流程示意图;图6是本专利技术一实施例提供的一种音频分类模型的训练装置的结构示意图;图7是本专利技术一实施例提供的一种音频的分类装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实本文档来自技高网...

【技术保护点】
1.一种音频分类模型的训练方法,其特征在于,包括:/n根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算,得到音频的训练集;其中,所述音频的训练集包括:去噪后的音频数据;/n将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱;/n将所述频谱输入至预设的GRU神经网络中进行后向传播训练,直至损失收敛,以得到训练完成的音频分类模型。/n

【技术特征摘要】
1.一种音频分类模型的训练方法,其特征在于,包括:
根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算,得到音频的训练集;其中,所述音频的训练集包括:去噪后的音频数据;
将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱;
将所述频谱输入至预设的GRU神经网络中进行后向传播训练,直至损失收敛,以得到训练完成的音频分类模型。


2.如权利要求1所述的音频分类模型的训练方法,其特征在于,所述根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算,得到音频的训练集,具体包括:
计算每一帧所述音频样本集中的音频数据的音频特征;
根据所述高斯概率模型分别对每一音频特征进行拟合,以得到对应的背景噪声的幅度谱;
将所述每一帧所述音频样本集中的音频数据的幅度谱与对应的背景噪声的幅度谱做差得到第一音频幅度谱,并保存至所述音频的训练集。


3.如权利要求2所述的音频分类模型的训练方法,其特征在于,
所述音频特征包括:基频以及短时能量;
则对应地,所述根据所述高斯概率模型分别对每一音频特征进行拟合,以得到对应的背景噪声的幅度谱,具体包括:
根据所述高斯概率模型分别对基频以及短时能量进行拟合,分别得到所述基频对应的第一高斯分布曲线及所述短时能量对应的第二高斯分布曲线;
通过所述第一高斯分布曲线得到基频的范围,所述第二高斯分布曲线得到短时能量的范围;
根据所述基频的范围以及所述短时能量的范围拟合出对应的背景噪声的幅度谱。


4.如权利要求1所述的音频分类模型的训练方法,其特征在于,在所述根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算,得到音频的训练之前,还包括:
对采集的原音频数据进行预处理得到所述音频样本集。


5.如权利要求1所述的音频分类模型的训练方法,其特征在于,在根据预设的高斯概率模型对预先采集的音频样本集中的音频数据进行计算,得到音频的训练集之后,在所述将所述音频的训练集中的音频数据进行傅里叶变换得到对应的频谱之前,还包括:
对所述音频的训练集中的音频数据依次进行分帧处理、加窗处理及重叠处理。


6.一种音频的分类方法,其特征在于,包括:
获取待处理的...

【专利技术属性】
技术研发人员:何维祯
申请(专利权)人:普联技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1