一种环境声音分类分析方法、装置和介质制造方法及图纸

技术编号:34470672 阅读:11 留言:0更新日期:2022-08-10 08:44
本申请公开了一种环境声音分类分析方法、装置和介质,其中的方法包括:对语音训练数据进行数据增强;进行数据预处理并对环境声音进行特征提取,得到特征向量;采用深度CNN网络对所述特征向量进行模型训练,获得所述环境声音的多分类模型并输出。本申请采用了数据增强的方法,通过实验表明其训练效果相比没有数据增强有了较大提升,提高了系统的实用价值。提高了系统的实用价值。提高了系统的实用价值。

【技术实现步骤摘要】
一种环境声音分类分析方法、装置和介质


[0001]本申请涉及声音分类领域,尤其是一种环境声音分类分析方法、装置和介质。

技术介绍

[0002]环境声音分类的使用任务能够应用于分类不同的乐器、机器人导航、医疗或医疗问题、客户或买家提醒、犯罪警报系统、语音活动识别、基于音频的灾难识别、环境监测等。声音分类可以参与到许多应用中,这表明了它的重要性。声音的分类是为了识别小的音频剪辑或录音的声音类别。对从音频信号中得到的接收到的信息进行了详细的分析。认识到周围声音的环境并立即采取行动以降低风险是非常重要的。
[0003]相关技术采用的环境声音分类技术多为通过提取环境声音的mfcc及机器学习分类方法实现,这种方法较为简单,并且由于环境声音的噪音较多,对环境声音分类分析的精确度较低。
[0004]因此,相关技术存在的上述技术问题亟待解决。

技术实现思路

[0005]本申请旨在解决相关技术中的技术问题之一。为此,本申请实施例提供一种环境声音分类分析方法、装置和介质,能够较为准确地对环境声音进行分类和分析。
[0006]根据本申请实施例一方面,提供一种环境声音分类分析方法,所述方法包括:
[0007]对语音训练数据进行数据增强;
[0008]进行数据预处理并对环境声音进行特征提取,得到特征向量;
[0009]采用深度CNN网络对所述特征向量进行模型训练,获得所述环境声音的多分类模型并输出。
[0010]在其中一个实施例中,所述对语音训练数据进行数据增强,至少包括:
[0011]移动正音高:对所述环境声音的数据集中每个音频信号的音高都增加一个正因子;
[0012]移动负音高:对所述环境声音的数据集中每个音频信号的音高都增加一个负因子;
[0013]静音修剪:修剪音频剪辑的静音部分,只保留包含声音的部分;
[0014]快速拉伸时间:将数据集的每个声音剪辑的时间拉伸到原来的2倍;
[0015]缓慢拉伸时间:将数据集的每个声音剪辑的时间拉伸到原来的0.7倍;
[0016]添加白噪声:在所述环境声音的数据集中添加白噪声。
[0017]在其中一个实施例中,所述数据预处理包括增加端点检测和去静音功能。
[0018]在其中一个实施例中,所述对环境声音进行特征提取,包括:
[0019]采用Log

MEL特征提取方法对环境声音进行特征提取。
[0020]在其中一个实施例中,采用Log

MEL特征提取方法对环境声音进行特征提取后,所述方法还包括:
[0021]得到梅尔频谱图和梅尔倒谱系数;
[0022]将所述梅尔频谱图和梅尔倒谱系数进行特征融合。
[0023]在其中一个实施例中,得到梅尔频谱图和梅尔倒谱系数后,所述方法还包括:
[0024]将所述梅尔频谱图和梅尔倒谱系数输入深度CNN网络进行模型训练。
[0025]在其中一个实施例中,在所述对语音训练数据进行数据增强前,所述方法还包括:
[0026]获取环境声音;
[0027]对所述环境声音进行滤波处理,过滤环境噪音。
[0028]根据本申请实施例一方面,提供一种环境声音分类分析装置,所述装置包括:
[0029]数据增强模块,用于对语音训练数据进行数据增强;
[0030]特征提取模块,用于进行数据预处理并对环境声音进行特征提取,得到特征向量;
[0031]训练分类模块,用于采用深度CNN网络对所述特征向量进行模型训练,获得所述环境声音的多分类模型并输出。
[0032]根据本申请实施例一方面,提供一种环境声音分类分析装置,所述装置包括:
[0033]至少一个处理器;
[0034]至少一个存储器,所述存储器用于存储至少一个程序;
[0035]当至少一个所述程序被至少一个所述处理器执行时实现如前面实施例所述的一种环境声音分类分析方法。
[0036]根据本申请实施例一方面,提供介质,所述介质存储有处理器可执行的程序,所述处理器可执行的程序被处理器执行时实现如前面实施例所述的一种环境声音分类分析方法。
[0037]本申请实施例提供的一种环境声音分类分析方法、装置和介质的有益效果为:本申请提供一种环境声音分类分析方法,所述方法包括:对语音训练数据进行数据增强;进行数据预处理并对环境声音进行特征提取,得到特征向量;采用深度CNN网络对所述特征向量进行模型训练,获得所述环境声音的多分类模型并输出。本申请采用了数据增强的方法,通过实验表明其训练效果相比没有数据增强有了较大提升,提高了系统的实用价值。
[0038]本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
[0039]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1为本申请实施例提供的一种环境声音分类分析方法流程图;
[0041]图2为本申请实施例提供的一种环境声音分类分析方法的工作过程示意图;
[0042]图3为本申请实施例提供的一种环境声音分类分析装置示意图;
[0043]图4为本申请实施例提供的一种环境声音分类分析装置的另一示意图。
具体实施方式
[0044]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0045]本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0046]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0047]环境声音分类的使用任务能够应用于分类不同的乐器、机器人导航、医疗或医疗问题、客户或买家提醒、犯罪警报系统、语音活动识别、基于音频的灾难识别、环境监测等。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种环境声音分类分析方法,其特征在于,所述方法包括:对语音训练数据进行数据增强;进行数据预处理并对环境声音进行特征提取,得到特征向量;采用深度CNN网络对所述特征向量进行模型训练,获得所述环境声音的多分类模型并输出。2.根据权利要求1所述的一种环境声音分类分析方法,其特征在于,所述对语音训练数据进行数据增强,至少包括:移动正音高:对所述环境声音的数据集中每个音频信号的音高都增加一个正因子;移动负音高:对所述环境声音的数据集中每个音频信号的音高都增加一个负因子;静音修剪:修剪音频剪辑的静音部分,只保留包含声音的部分;快速拉伸时间:将数据集的每个声音剪辑的时间拉伸到原来的2倍;缓慢拉伸时间:将数据集的每个声音剪辑的时间拉伸到原来的0.7倍;添加白噪声:在所述环境声音的数据集中添加白噪声。3.根据权利要求1所述的一种环境声音分类分析方法,其特征在于,所述数据预处理包括增加端点检测和去静音功能。4.根据权利要求1所述的一种环境声音分类分析方法,其特征在于,所述对环境声音进行特征提取,包括:采用Log

MEL特征提取方法对环境声音进行特征提取。5.根据权利要求4所述的一种环境声音分类分析方法,其特征在于,采用Log

MEL特征提取方法对环境声音进行特征提取后,所述方法还包括:得到...

【专利技术属性】
技术研发人员:刘立峰宋卫华冯志峰母健康王文重张建军
申请(专利权)人:珠海高凌信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1