当前位置: 首页 > 专利查询>广州大学专利>正文

一种声音识别模型的训练方法、识别方法、设备及介质技术

技术编号:35593070 阅读:13 留言:0更新日期:2022-11-16 15:11
本发明专利技术公开了一种声音识别模型的训练方法、识别方法、设备及介质,本发明专利技术通过对声音数据集进行第一能量值计算,根据第一能量值计算结果进行第一筛选处理,得到第一数据;对第一数据进行增益处理、滤波频域增强处理以及乱序合并处理,并对增益处理结果、滤波频域增强处理结果以及乱序合并处理结果中的至少之一进行组合,有利于增加声音识别模型训练过程中对可能携带各种噪声的数据的鲁棒性;对第二数据进行梅尔谱计算得到训练样本,将训练样本输入教师网络训练得到教师网络模型,将训练样本输入学生网络并根据教师网络模型对学生网络进行蒸馏学习,得到声音识别模型,轻量化且提升了识别能力,本发明专利技术可广泛应用于数据处理技术领域。领域。领域。

【技术实现步骤摘要】
一种声音识别模型的训练方法、识别方法、设备及介质


[0001]本专利技术涉及数据处理领域,尤其是一种声音识别模型的训练方法、识别方法、设备及介质。

技术介绍

[0002]自然界存在各种各样的声音,如生物声(由鸟类和昆虫等动物产生的生物声音)、自然声(如风声和雨声)以及人类声(泛指人类活动产生的声音)。近年来,通过声音信息来研究生态环境日益受到重视,例如通过研究森林声信息的时空变化特征来揭示鸟类活动规律、通过动物鸣声来监测物种和种群密度等,针对不同的应用,经常需要从大量录音文件将感兴趣的声音识别出来。
[0003]目前,环境声识别任务仍然存在一些挑战。与语音和音乐信号不同,环境声在频谱和时域结构上更加复杂,这使得设计对应的识别系统更加困难。对于语音和音乐信号而言,由于两者都包含大量结构化的信息,比如音素等,通常可以使用统计模型进行建模,如隐马尔科夫模型等。然而对于环境声信号来说,其来源的复杂性导致其频谱结构也变化很大。同时,由于采集设备与环境的不同,现有的声音数据集中包含大量噪声和静音段,这也将对模型的训练造成影响。此外,由于人工对声音数据集进行标注的工作量很大,而现有声音数据集的规模普遍很小,如何在小数据集上实现泛化能力足够强的识别模型,也是一个挑战。最后,目前基于环境声研究的相关工作,大多还停留在理论阶段而没有实际落地的应用,这也限制了环境声识别相关研究的推动。

技术实现思路

[0004]有鉴于此,为了解决上述技术问题,本专利技术的目的是提供一种声音识别模型的训练方法、识别方法、设备及介质。
[0005]本专利技术实施例采用的技术方案是:
[0006]一种声音识别模型的训练方法,包括:
[0007]获取声音数据集;
[0008]对所述声音数据集进行第一能量值计算,根据第一能量值计算结果进行第一筛选处理,得到第一数据;
[0009]对所述第一数据进行增益处理、滤波频域增强处理以及乱序合并处理,并对增益处理结果、滤波频域增强处理结果以及乱序合并处理结果中的至少之一进行组合,得到第二数据;所述滤波频域增强处理包括指向性衰减增强处理以及数据频域随机增强处理
[0010]对所述第二数据进行梅尔谱计算,得到训练样本;
[0011]将所述训练样本输入教师网络训练得到教师网络模型,将所述训练样本输入学生网络并根据所述教师网络模型对所述学生网络进行蒸馏学习,得到声音识别模型。
[0012]进一步,所述对所述声音数据集进行第一能量值计算,包括:
[0013]对所述声音数据集进行分帧、叠帧以及加窗操作,得到若干帧第一信号;
[0014]对所述第一信号进行第一离散傅里叶变换以确定每一帧所述第一信号的第一幅度谱;
[0015]根据预设频点数量分别计算每一所述第一幅度谱的能量值总和,得到第一能量值计算结果。
[0016]进一步,所述根据第一能量值计算结果进行第一筛选处理,得到第一数据,包括:
[0017]将预设帧数量的连续的所述第一信号作为一个能量块,根据所述第一能量值计算结果计算每一所述能量块对应的块能量值;
[0018]从最大的块能量值的能量块中确定目标帧序号;
[0019]将所述目标帧序号进行时域转换得到时域索引,根据所述时域索引以及预设采样范围确定采样点序号;
[0020]根据所述采样点序号以及预设数据长度对最大的块能量值的能量块进行切割筛选,得到第一数据。
[0021]进一步,所述对所述第一数据进行增益处理、滤波频域增强处理,包括:
[0022]对所述第一数据进行切片处理得到若干个切片数据,从第一预设增益范围中选取第一数值,根据所述第一数值以及预设偏移量确定第二数值,将所述第二数值分别与所述切片数据进行第一相乘,将第一相乘结果重新合成,得到增益处理结果;
[0023]所述指向性衰减增强处理为:从预设频率范围确定截止频率,通过所述截止频率对所述第一数据进行滤波处理,得到第一增强数据;
[0024]所述数据频域随机增强处理为:对所述第一数据进行第一分帧加窗处理,并对第一分帧加窗处理结果进行第二离散傅里叶变换,得到第二幅度谱以及相位谱,对所述第二幅度谱进行频带切分,得到若干个频带,根据第二预设增益范围确定增益值,将所述增益值分别与所述频带进行第二相乘,将第二相乘结果进行拼接,根据所述相位谱以及拼接后的第二相乘结果进行逆傅里叶变换转换,得到第二增强数据;所述滤波频域增强处理结果包括所述第一增强数据以及所述第二增强数据。
[0025]进一步,所述对所述第一数据进行乱序合并处理,并对增益处理结果、滤波频域增强处理结果以及乱序合并处理结果中的至少之一进行组合,得到第二数据,包括:
[0026]根据预设采样点数量以及所述第一数据的采样点总数,计算声音事件数量;
[0027]对所述第一数据进行第二能量值计算,根据第二能量值计算结果进行若个次数的第二筛选处理,得到所述声音事件数量个声音事件;
[0028]将所述声音事件进行随机排序和拼接,得到乱序合并处理结果;
[0029]将所述增益处理结果、所述滤波频域增强处理结果以及所述乱序合并处理结果中的至少之一进行随机组合,得到第二数据。
[0030]进一步,所述对所述第二数据进行梅尔谱计算,得到训练样本,包括:
[0031]对所述第二数据进行第二分帧加窗处理,对第二分帧加窗处理结果进行第三离散傅里叶变换,并根据第三离散傅里叶变换结果计算功率谱;
[0032]根据预设频率上限以及预设频率下限确定梅尔滤波器函数;
[0033]根据所述梅尔滤波器函数以及所述功率谱,得到梅尔谱;所述训练样包括所述梅尔谱。
[0034]进一步,所述训练样本具有真实标签;所述将所述训练样本输入学生网络并根据
所述教师网络模型对所述学生网络进行蒸馏学习,得到声音识别模型,包括:
[0035]将所述训练样本输入至所述教师网络模型,得到预测标签;
[0036]将所述训练样本输入至学生网络,以在第一温度下得到第一预测结果以及在第二温度下得到第二预测结果;
[0037]根据所述第一预测结果以及所述预测标签计算蒸馏损失,根据所述第二预测结果以及所述真实标签计算学生损失,计算所述蒸馏损失与第一权重的第一乘积并计算所述学生损失与第二权重的第二乘积,根据所述第一乘积以及所述第二乘积的和确定损失值;
[0038]返回所述将所述训练样本输入至所述教师网络模型的步骤,直至训练次数或者所述损失值满足预设条件,得到声音识别模型。
[0039]本专利技术实施例还提供一种识别方法,包括:
[0040]获取待识别数据,
[0041]将所述待识别数据输入至声音识别模型,得到识别结果;所述声音识别模型通过所述声音识别模型的训练方法训练得到。
[0042]本专利技术实施例还提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声音识别模型的训练方法,其特征在于,包括:获取声音数据集;对所述声音数据集进行第一能量值计算,根据第一能量值计算结果进行第一筛选处理,得到第一数据;对所述第一数据进行增益处理、滤波频域增强处理以及乱序合并处理,并对增益处理结果、滤波频域增强处理结果以及乱序合并处理结果中的至少之一进行组合,得到第二数据;所述滤波频域增强处理包括指向性衰减增强处理以及数据频域随机增强处理;对所述第二数据进行梅尔谱计算,得到训练样本;将所述训练样本输入教师网络训练得到教师网络模型,将所述训练样本输入学生网络并根据所述教师网络模型对所述学生网络进行蒸馏学习,得到声音识别模型。2.根据权利要求1所述声音识别模型的训练方法,其特征在于:所述对所述声音数据集进行第一能量值计算,包括:对所述声音数据集进行分帧、叠帧以及加窗操作,得到若干帧第一信号;对所述第一信号进行第一离散傅里叶变换以确定每一帧所述第一信号的第一幅度谱;根据预设频点数量分别计算每一所述第一幅度谱的能量值总和,得到第一能量值计算结果。3.根据权利要求2所述声音识别模型的训练方法,其特征在于:所述根据第一能量值计算结果进行第一筛选处理,得到第一数据,包括:将预设帧数量的连续的所述第一信号作为一个能量块,根据所述第一能量值计算结果计算每一所述能量块对应的块能量值;从最大的块能量值的能量块中确定目标帧序号;将所述目标帧序号进行时域转换得到时域索引,根据所述时域索引以及预设采样范围确定采样点序号;根据所述采样点序号以及预设数据长度对最大的块能量值的能量块进行切割筛选,得到第一数据。4.根据权利要求1所述声音识别模型的训练方法,其特征在于:所述对所述第一数据进行增益处理、滤波频域增强处理,包括:对所述第一数据进行切片处理得到若干个切片数据,从第一预设增益范围中选取第一数值,根据所述第一数值以及预设偏移量确定第二数值,将所述第二数值分别与所述切片数据进行第一相乘,将第一相乘结果重新合成,得到增益处理结果;所述指向性衰减增强处理为:从预设频率范围确定截止频率,通过所述截止频率对所述第一数据进行滤波处理,得到第一增强数据;所述数据频域随机增强处理为:对所述第一数据进行第一分帧加窗处理,并对第一分帧加窗处理结果进行第二离散傅里叶变换,得到第二幅度谱以及相位谱,对所述第二幅度谱进行频带切分,得到若干个频带,根据第二预设增益范围确定增益值,将所述增益值分别与所述频带进行第二相乘,将第二相乘结果进行拼接,根据所述相位谱以及拼接后的第二相乘结果进行逆傅里叶变换转换,得到第二增强数据;所述滤波频域增强处理结果包括所述第一增强数据以及所述第二增强数据。5.根据权利要求1所述声音识别模型的训练方法,其特征在于:...

【专利技术属性】
技术研发人员:张承云詹海松高星辉李清荣李一帆
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1