System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于深度学习的声音识别方法、装置、云端设备及计算机装置制造方法及图纸_技高网

基于深度学习的声音识别方法、装置、云端设备及计算机装置制造方法及图纸

技术编号:40901448 阅读:5 留言:0更新日期:2024-04-18 11:19
本发明专利技术涉及声音识别领域,具体涉及一种基于深度学习的声音识别方法、装置、云端设备及计算机装置,极大地提高了声音识别分类的准确性。方案包括基于sigmoid的分类头对训练集中的图片扩增出新的标签,扩增标签的规则为:对第一声源类别与第二声源类别进行分类时,将sigmoid激活函数获得的值作为扩增标签的标签位的值,标签位的个数与需要分类的声源类别个数对应;通过轻量化神经网络模型对第一声源类别与第二声源类别进行识别判断,若将第一声源类别误判为第二声源类别,则根据标签位的差异计算判断错误的损失程度,根据损失程度建立第一声源类别与第二声源类别的相关性;通过训练好的轻量化神经网络模型对不同的声源进行识别。本发明专利技术适用于声音识别分类。

【技术实现步骤摘要】

本专利技术涉及声音识别领域,具体涉及一种基于深度学习的声音识别方法、装置、云端设备及计算机装置


技术介绍

1、声音识别系统主要用于对设备捕获的声音信号进行分类,用于判断捕获的声音来自何种信息源。例如狗叫、鸟叫、婴儿哭、汽车鸣笛等。既可以用于对声音进行判断来起到预警作用,如对婴儿哭声、半夜犬吠声、禁鸣区域的汽车鸣笛声进行告警,也可以形成对数据的自动化整理和分析,如在自然保护区监控鸟叫和其他保护动物叫声出现的时间、频率等,以此形成准确的追踪。

2、现有的声音识别技术虽然能够通过训练分类深度网络的方法通过深度学习模型来提取音频信号的特征,对一些常见的声音类别进行分类。但当长时间,大批量的使用这种深度学习模型时,往往出现误识别的情况。例如有时将小狗的叫声会被误判为婴儿哭声或鸟叫等。使得识别分类结果不够准确。


技术实现思路

1、本专利技术的目的在于克服现有技术的缺点,提供一种基于深度学习的声音识别方法、装置、云端设备及计算机装置,极大地提高了声音识别分类的准确性。

2、本专利技术采取如下技术方案实现上述目的,第一方面,本专利技术提供一种基于深度学习的声音识别方法,包括:

3、创建轻量化神经网络模型:在神经网络模型的第一层,将预处理后的梅尔频谱送入batchnorm进行批归一化;连续使用分组的深度可分卷积,对梅尔频谱进行特征提取;接入全连接层作为模型的特征层,将卷积提取的特征图压缩成特征向量,接入softmax交叉熵损失函数;将特征层接入一个具有多个类别的全连接层,在这个全连接层后,每一个神经元对应接入一个sigmoid二分类交叉熵损失函数;

4、训练轻量化神经网络模型:通过基于sigmoid的分类头对训练集中的图片扩增出新的标签,扩增标签的规则为:至少对第一声源类别与第二声源类别进行分类时,将对应sigmoid激活函数获得的值作为第一声源类别与第二声源类别扩增标签的标签位的值,标签位的个数与需要分类的声源类别个数对应;

5、通过轻量化神经网络模型对第一声源类别与第二声源类别进行识别判断,若将第一声源类别误判为第二声源类别,或将第二声源类别误判为第一声源类别,则根据标签位的差异计算判断错误的损失程度,标签位的差异与计算判断错误的损失程度成正比,根据所述损失程度建立第一声源类别与第二声源类别的相关性;

6、通过训练好的轻量化神经网络模型对不同的声源进行识别。

7、进一步的是,训练轻量化神经网络模型具体还包括:

8、对第一声源类别与第二声源类别的相关度进行判断,若第一声源类别与第二声源类别之间的相关度低于设置的阈值,则改变第一声源类别与第二声源类别的扩增标签,降低第一声源类别与第二声源类别之间的误判损失程度。

9、进一步的是,训练轻量化神经网络模型具体还包括:

10、对第一声源类别、第二声源类别以及第三声源类别进行分类时,对第一声源类别、第二声源类别以及第三声源类别之间的相关度进行判断,若第一声源类别与第二声源类别之间的相关度大于第二声源类别与第三声源类别以及第一声源类别与第三声源类别之间的相关度,当扩增标签或预测标签包含第一声源类别时,将第二声源类别以及第三声源类别的损失程度进行归一化,归一化具体包括将计算出的损失程度除以标签差异数量,将得到的值进行反向求导和权重更新,反向计算方式如下:

11、

12、

13、m表示标签与预测差异程度,差异程度被归一化,lsigmoidn表示第n个二分类交叉熵损失,f1表示除第一声源类别以外的类别,f2表示除预测标签或扩增标签中存在第一声源类别的类别,h表示模型输出的结果在进入损失函数前,经过激活函数输出的结果,l表示度量分类差异得到的损失;

14、二分类交叉熵损失的计算如下:

15、yi为扩增的真实标签,为预测标签。

16、进一步的是,反向计算时,若第一声源类别通过sigmoid激活函数获得的值大于设定阈值,其他声源通过sigmoid激活函数获得的值小于设定阈值,则通过f1计算反向传播的值。

17、第二方面,本专利技术提供一种基于深度学习的声音识别装置,所述装置包括:

18、模型创建模块,用于创建轻量化神经网络模型,具体包括在神经网络模型的第一层,将预处理后的梅尔频谱送入batchnorm进行批归一化;连续使用分组的深度可分卷积,对梅尔频谱进行特征提取;接入全连接层作为模型的特征层,将卷积提取的特征图压缩成特征向量,接入softmax交叉熵损失函数;将特征层接入一个具有多个类别的全连接层,在这个全连接层后,每一个神经元对应接入一个sigmoid二分类交叉熵损失函数;

19、模型训练模块,用于训练轻量化神经网络模型,具体包括通过基于sigmoid的分类头对训练集中的图片扩增出新的标签,扩增标签的规则为:至少对第一声源类别与第二声源类别进行分类时,将对应sigmoid激活函数获得的值作为第一声源类别与第二声源类别扩增标签的标签位的值,标签位的个数与需要分类的声源类别个数对应;

20、通过轻量化神经网络模型对第一声源类别与第二声源类别进行识别判断,若将第一声源类别误判为第二声源类别,或将第二声源类别误判为第一声源类别,则根据标签位的差异计算判断错误的损失程度,标签位的差异与计算判断错误的损失程度成正比,根据所述损失程度建立第一声源类别与第二声源类别的相关性;

21、声源识别模块,用于通过训练好的轻量化神经网络模型对不同的声源进行识别。

22、进一步的是,模型训练模块具体用于,对第一声源类别与第二声源类别的相关度进行判断,若第一声源类别与第二声源类别之间的相关度低于设置的阈值,则改变第一声源类别与第二声源类别的扩增标签,降低第一声源类别与第二声源类别之间的误判损失程度。

23、进一步的是,模型训练模块具体还用于,对第一声源类别、第二声源类别以及第三声源类别进行分类时,对第一声源类别、第二声源类别以及第三声源类别之间的相关度进行判断,若第一声源类别与第二声源类别之间的相关度大于第二声源类别与第三声源类别以及第一声源类别与第三声源类别之间的相关度,当扩增标签或预测标签包含第一声源类别时,将第二声源类别以及第三声源类别的损失程度进行归一化,归一化具体包括将计算出的损失程度除以标签差异数量,将得到的值进行反向求导和权重更新,反向计算方式如下:

24、

25、

26、m表示标签与预测差异程度,差异程度被归一化,lsigmoidn表示第n个二分类交叉熵损失,f1表示除第一声源类别以外的类别,f2表示除预测标签或扩增标签中存在第一声源类别的类别;

27、二分类交叉熵损失的计算如下:

28、yi为扩增的真实标签,为预测标签。

29、进一步的是,模型训练模块具体还用于,反向计算时,若第一声源类别通过sigmoid激活函数获得的值大于设定阈值,其他声源通过sigmoid激活函数获得的值小于设本文档来自技高网...

【技术保护点】

1.基于深度学习的声音识别方法,其特征在于,包括:

2.根据权利要求1所述的基于深度学习的声音识别方法,其特征在于,训练轻量化神经网络模型具体还包括:

3.根据权利要求1所述的基于深度学习的声音识别方法,其特征在于,训练轻量化神经网络模型具体还包括:

4.根据权利要求3所述的基于深度学习的声音识别方法,其特征在于,反向计算时,若第一声源类别通过sigmoid激活函数获得的值大于设定阈值,其他声源通过sigmoid激活函数获得的值小于设定阈值,则通过f1计算反向传播的值。

5.基于深度学习的声音识别装置,用于实现如权利要求1-4任意一项所述的基于相似性差异损失优化的深度学习声音识别方法,其特征在于,所述装置包括:

6.根据权利要求5所述的基于深度学习的声音识别装置,其特征在于,模型训练模块具体用于,对第一声源类别与第二声源类别的相关度进行判断,若第一声源类别与第二声源类别之间的相关度低于设置的阈值,则改变第一声源类别与第二声源类别的扩增标签,降低第一声源类别与第二声源类别之间的误判损失程度。

7.根据权利要求5所述的基于深度学习的声音识别装置,其特征在于,模型训练模块具体还用于,对第一声源类别、第二声源类别以及第三声源类别进行分类时,对第一声源类别、第二声源类别以及第三声源类别之间的相关度进行判断,若第一声源类别与第二声源类别之间的相关度大于第二声源类别与第三声源类别之间的相关度,当扩增标签或预测标签包含第一声源类别时,将第二声源类别以及第三声源类别的损失程度进行归一化,归一化具体包括将计算出的损失程度除以标签差异数量,将得到的值进行反向求导和权重更新,反向计算方式如下:

8.根据权利要求7所述的基于深度学习的声音识别装置,其特征在于,模型训练模块具体还用于,反向计算时,若第一声源类别通过sigmoid激活函数获得的值大于设定阈值,其他声源通过sigmoid激活函数获得的值小于设定阈值,则通过f1计算反向传播的值。

9.一种云端设备,所述云端设备包括服务器,其特征在于,如权利要求5-8任意一项所述的基于深度学习的声音识别装置安装于所述服务器。

10.一种计算机装置,包括存储器,所述存储器存储有程序指令,其特征在于,所述程序指令运行时,执行如权利要求1-4任意一项所述的基于深度学习的声音识别方法。

...

【技术特征摘要】

1.基于深度学习的声音识别方法,其特征在于,包括:

2.根据权利要求1所述的基于深度学习的声音识别方法,其特征在于,训练轻量化神经网络模型具体还包括:

3.根据权利要求1所述的基于深度学习的声音识别方法,其特征在于,训练轻量化神经网络模型具体还包括:

4.根据权利要求3所述的基于深度学习的声音识别方法,其特征在于,反向计算时,若第一声源类别通过sigmoid激活函数获得的值大于设定阈值,其他声源通过sigmoid激活函数获得的值小于设定阈值,则通过f1计算反向传播的值。

5.基于深度学习的声音识别装置,用于实现如权利要求1-4任意一项所述的基于相似性差异损失优化的深度学习声音识别方法,其特征在于,所述装置包括:

6.根据权利要求5所述的基于深度学习的声音识别装置,其特征在于,模型训练模块具体用于,对第一声源类别与第二声源类别的相关度进行判断,若第一声源类别与第二声源类别之间的相关度低于设置的阈值,则改变第一声源类别与第二声源类别的扩增标签,降低第一声源类别与第二声源类别之间的误判损失程度。

7.根据权利要求5所述的基于深度学习的声音...

【专利技术属性】
技术研发人员:申啸尘周有喜邹春友
申请(专利权)人:深圳市芯联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1