System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于原型分类器的完全小样本类别增量音频分类方法技术_技高网

一种基于原型分类器的完全小样本类别增量音频分类方法技术

技术编号:40964541 阅读:5 留言:0更新日期:2024-04-18 20:44
本发明专利技术公开了一种基于原型分类器的完全小样本类别增量音频分类方法,步骤如下:从输入音频样本提取对数梅尔谱;初始化自注意力卷积神经网络,包括表征提取器、原型分类器和原型自适应模块;基础环节,采用小样本学习和伪增量情境训练方法分别训练表征提取器和原型自适应模块;从基础环节音频类别训练样本提取表征并计算同类别表征均值作为原型并更新原型分类器;在增量环节采用原型自适应模块先获取各增量类原型,然后对所有原型进行自适应调整,再更新原型分类器;测试时,采用所有已知类别测试样本评测模型性能。本发明专利技术方法在所有环节都采用小样本学习训练模型,利用较少的训练样本有效解决模型对增量类过拟合和对旧类遗忘的问题。

【技术实现步骤摘要】

本专利技术属于音频信号处理领域,具体涉及一种基于原型分类器的完全小样本类别增量音频分类方法


技术介绍

1、音频分类旨在对自然声学环境中的各种声音进行分类。它是智能辅助驾驶、医疗保健、野生动物保护、生态环境检测、智能家居、智能穿戴监测、设备工况监测、智能机器人等领域的重要技术基础。目前大部分智能音频终端可辨识的音频类别都是有限且固定的。然而,在自然声学环境中,智能音频终端接触到的音频类别一般是变化的,且很多应用场景下存在样本稀缺的问题。

2、目前的音频分类方法可以分为四种。大样本音频分类方法采用大量训练样本构建模型,能够识别预设音频类别,但是不能识别增量类。小样本音频分类方法能够基于少量样本学习增量类,但不能记住旧类。类别增量音频分类方法能够不断学习增量类且不忘旧类,但基类和增量环节均需要大量训练样本。小样本类别增量音频分类方法能够基于增量类的少量训练样本不断学习增量类且不忘旧类,但基类环节仍需要大量训练样本。因此,目前的音频分类方法在基础训练环节都采用大样本的标准监督学习方式训练模型,然而,在很多实际应用场景中,基类环节和增量环节的各个音频类别都只有少量训练样本,即完全小样本。当基类环节和增量环节都采用小样本学习方法进行模型训练时,此种音频分类方法就是完全小样本类别增量音频分类方法。

3、由于基类只有少量训练样本,模型得不到充分训练将导致表征提取器的表征能力较差、模型对旧类的记忆能力较弱等问题。针对上述问题,目前亟待提出一种基于原型分类器的完全小样本类别增量音频分类方法。


术实现思路

1、本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于原型分类器的完全小样本类别增量音频分类方法,通过将小样本学习、注意力机制与原型网络等进行有机结合,实现智能音频终端在完全小样本训练条件下不断学习增量类且不忘旧类的能力。

2、本专利技术的目的可以通过采取如下技术方案达到:

3、一种基于原型分类器的完全小样本类别增量音频分类方法,所述音频分类方法包括以下步骤:

4、s1、从输入音频样本提取对数梅尔谱,其中,所述输入音频样本划分为类别不相交的基础环节音频类别和多个增量环节音频类别,以下基础环节音频类别简称基类,增量环节音频类别简称增量类;

5、s2、初始化自注意力卷积神经网络,其中,自注意力卷积神经网络包括解耦的表征提取器、原型分类器和原型自适应模块;

6、s3、在基础环节中,按照训练数据使用策略,采用小样本学习方法和交叉熵损失函数分别训练表征提取器和原型自适应模块,对表征提取器和原型自适应模块的参数进行优化直到收敛,训练完成后固定表征提取器和原型自适应模块的参数;

7、s4、将基类音频样本的对数梅尔谱特征输入所述表征提取器得到基类表征,然后计算同类别表征的均值得到不同的基类原型,再将基类原型输入原型分类器进行更新;其中,原型分类器更新是使用基类原型替换初始化原型分类器中的所有原型;

8、s5、在增量环节中,将增量类音频样本的对数梅尔谱特征输入所述表征提取器得到增量类表征,与前一个增量环节中原型分类器的所有原型拼接并输入原型自适应模块进行原型自适应调整,得到调整后的基类原型和增量类原型,再将调整后的基类原型和增量类原型输入原型分类器进行更新;

9、s6、将测试音频样本提取对数梅尔谱,输入经过训练的自注意力卷积神经网络,通过表征提取器得到表征,计算表征与原型分类器中各原型之间的余弦距离,距离最小的原型所对应的类别即为测试音频样本所属类别,得到音频分类结果。

10、进一步地,所述步骤s1中对数梅尔谱的提取过程如下:

11、s1.1、采用一阶高通滤波器对音频样本进行预加重处理,滤波器的传递函数为h(z)=1-αz-1,其中α表示高通滤波器的系数,取值范围为0~1,预加重可提高音频质量,提取到较纯净的原始音频信号。

12、s1.2、将预加重后的音频样本切分成短时帧,保证输入信号是平稳的,然后与窗函数相乘得到加窗的短时音频帧,避免出现吉布斯效应;

13、s1.3、对加窗的短时音频帧进行离散傅里叶变换,得到该帧的线性谱;

14、s1.4、采用梅尔滤波器将线性频谱转化为梅尔谱,再对梅尔谱取对数得到对数梅尔谱。

15、进一步的,所述自注意力卷积神经网络包括表征提取器、原型分类器和原型自适应模块。

16、所述表征提取器是残差自注意力卷积神经网络的主干部分,表征提取器的结构包括顺序连接的一个卷积层、四个残差层、一个平均池化层和一个全连接层,其中,全连接层仅用于基础环节的训练。

17、卷积层包括顺序连接的一个卷积层(64个3×3卷积核)、一个批标准化层、一个relu非线性激活层和一个最大值池化层。卷积层将输入特征图转化为特征映射,逐渐减小空间分辨率,引入非线性,同时保留重要的特征用于后续层的处理,有助于网络更好地理解输入特征图并提取适当的特征。

18、四个残差层具有不同的参数,每个残差层由两个残差块组成,每个残差块包括两个卷积层和按位相加操作,每个卷积层后应用一个relu非线性激活层。通过四个残差层逐渐提取语义特征、增加网络深度,从而使模型能够更好地学习和表示音频的特征。

19、平均池化层用于完成平均池化操作,减小特征图的维度和计算复杂度,有助于降低参数量并提高模型的泛化能力。

20、全连接层将上述最大池化操作后的特征向量线性映射为最终输出值。

21、所述原型自适应模块包括注意力原型生成子模块和原型查询表征适应子模块,其中,注意力原型生成模块用于生成具有表征性的原型,该模块的输入是增量类支撑表征,输出是增量类原型。原型查询表征适应模块用于更新所有原型和查询表征,该模块的输入是旧类原型、增量类原型和查询表征,输出是更新后的原型和查询表征。

22、所述注意力原型生成模块包括顺序连接的一个自注意力层、一个批标准化层和一个均值计算层,其中,自注意力层用于获取增量类支撑表征之间的相互关系,有助于生成更具有表征性的增量类原型;批标准化层用于增加训练的稳定性、提高泛化能力、维护特征多样性以及帮助梯度传播;均值计算层用于计算增量类支撑表征的均值矢量以得到增量类原型。

23、所述原型查询表征适应模块包括顺序连接的一个自注意力层、一个标准化层、一个向量分割层和余弦相似度计算层,其中,自注意力层用于获取旧类原型、增量类原型以及增量类查询表征之间的相互关系,使得更新后的原型类内紧凑、类间分散;批标准化层用于增加训练的稳定性、提高泛化能力、维护特征多样性以及帮助梯度传播;向量分割层将批标准化层的输出结果分割为调整后的原型和查询表征。

24、进一步地,所述步骤s3过程如下:

25、s3.1、使用基类音频样本中的部分样本,采用小样本学习方法和交叉熵损失函数预训练表征提取器,预训练表征提取器用来模拟伪增量情境训练中的表征提取器,为步骤s3.2做准备;

26、s3.本文档来自技高网...

【技术保护点】

1.一种基于原型分类器的完全小样本类别增量音频分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于原型分类器的完全小样本类别增量音频分类方法,其特征在于,所述步骤S1中对数梅尔谱的提取过程如下:

3.根据权利要求1所述的一种基于原型分类器的完全小样本类别增量音频分类方法,其特征在于,所述表征提取器的结构包括顺序连接的一个卷积层、四个残差层、一个平均池化层和一个全连接层,其中的全连接层仅用于基础环节的训练;所述原型分类器由各个类别的原型矢量组成,其中,各个类别的原型矢量即各类别样本表征的中心矢量;所述原型自适应模块是一个自注意力模块,包括顺序连接的注意力原型生成子模块和原型查询表征适应子模块,其中,注意力原型生成模块包括顺序连接的一个自注意力层、一个批标准化层和一个均值计算层;原型查询表征适应模块的结构包括顺序连接的一个自注意力层、一个标准化层和一个向量分割层。

4.根据权利要求1所述的一种基于原型分类器的完全小样本类别增量音频分类方法,其特征在于,所述步骤S3过程如下:

5.根据权利要求1所述的一种基于原型分类器的完全小样本类别增量音频分类方法,其特征在于,所述步骤S3.1中表征提取器预训练过程如下:

6.根据权利要求5所述的一种基于原型分类器的完全小样本类别增量音频分类方法,其特征在于,所述步骤S3.1中原型计算公式如下:

7.根据权利要求5所述的一种基于原型分类器的完全小样本类别增量音频分类方法,其特征在于,所述步骤S3.2中原型自适应模块训练过程如下:

8.根据权利要求1所述的一种基于原型分类器的完全小样本类别增量音频分类方法,其特征在于,所述步骤S5中原型自适应调整与原型分类器更新过程如下:

9.根据权利要求8所述的一种基于原型分类器的完全小样本类别增量音频分类方法,其特征在于,所述步骤S5中的自注意力计算公式为:

10.根据权利要求8所述的一种基于原型分类器的完全小样本类别增量音频分类方法,其特征在于,所述步骤S6中待测音频分类过程如下:

...

【技术特征摘要】

1.一种基于原型分类器的完全小样本类别增量音频分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于原型分类器的完全小样本类别增量音频分类方法,其特征在于,所述步骤s1中对数梅尔谱的提取过程如下:

3.根据权利要求1所述的一种基于原型分类器的完全小样本类别增量音频分类方法,其特征在于,所述表征提取器的结构包括顺序连接的一个卷积层、四个残差层、一个平均池化层和一个全连接层,其中的全连接层仅用于基础环节的训练;所述原型分类器由各个类别的原型矢量组成,其中,各个类别的原型矢量即各类别样本表征的中心矢量;所述原型自适应模块是一个自注意力模块,包括顺序连接的注意力原型生成子模块和原型查询表征适应子模块,其中,注意力原型生成模块包括顺序连接的一个自注意力层、一个批标准化层和一个均值计算层;原型查询表征适应模块的结构包括顺序连接的一个自注意力层、一个标准化层和一个向量分割层。

4.根据权利要求1所述的一种基于原型分类器的完全小样本类别增量音频分类方法,...

【专利技术属性】
技术研发人员:李艳雄司永洁曹文昌李佳龙
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1